adtop
首页 财经 查看内容

BERT在预训练时会对某些单词进行拆分

2022-03-06 15:38| 发布者: 笑笑| 查看: 60273| 评论: 0|来自: IT之家  阅读量:13657   

摘要:众所周知,BERT在预训练时会对某些单词进行拆分比如把loved,loving和loves拆分成lov,ed,ing和es 目的是缩减词表,加快训练速度,但这样一来,在某些时候反而会阻碍模型的理解能力比如把loss...

众所周知,BERT 在预训练时会对某些单词进行拆分比如把loved,loving和loves拆分成lov,ed,ing和es

BERT在预训练时会对某些单词进行拆分

目的是缩减词表,加快训练速度,但这样一来,在某些时候反而会阻碍模型的理解能力比如把lossless分成loss和less的时候

现在,来自哈工大和腾讯 AI Lab 的研究人员,尝试利用不做单词拆分的词汇表开发了一个 BERT 风格的预训练模型 ——WordBERT结果,这个 WordBERT 在完形填空测试和机器阅读理解方面的成绩相比 BERT 有了很大提高

在其他 NLP 任务,比如词性标注 ,组块分析 和命名实体识别 中,WordBERT 的表现也都优于 BERT由于不用分词,这个 WordBERT 还可以直接进行中文训练更值得一提的是,它在性能提升的同时,推理速度并没有变慢

可谓一举多得。

NO WordPieces

与 BERT 类似,WordBERT 包含两个组件:词向量和 Transformer 层和以前的模型一样,WordBERT 采用多层双向 Transformer 来学习语境表示

word embedding 则是用来获得单词向量表示的参数矩阵,与把单词分成 WordPiece 的 BERT 相比,WordBERT 的词汇由完整的单词组成他们用自然语言处理软件包 Spacy 处理数据,生成了两个词汇表,一个规模为 500K,一个为 1M词汇表中还被单独添加了 5 个特殊单词:,, , 和

通过不同的词汇表规模,初始化配置和不同语言,最后研究人员一共训练出四个版本的 WordBERT:WordBERT—500K,WordBERT—1M,WordBERT—Glove 和 WordBERT—ZH。

它们的配置如上,嵌入参数都是随机初始化的,嵌入维数和基准 BERT 保持一致其中 WordBERT—Glove 用的词汇表是现成的 Glove vocabulary,里面包含约 190 万个未编码的单词,该模型由相应的单词向量在 WordBERT 之上初始化而来WordBERT—ZH 则是用中文词汇训练出来的 WordBERT,它也保持了 768 的词嵌入维数

性能与速度兼具

在测试环节中,完形填空的测试数据集来自 CLOTH,它由中学教师设计,通常用来对中国初高中学生进行入学考试其中既有只需在当前句子中进行推理的简单题,也有需要在全文范围内进行推理的难题

M 代表初中,H 代表高中

WordBERT—1M 获得了最佳成绩,并接近人类水平它在高中题比 BERT 高了 3.18 分,初中题高了 2.59 分,这说明 WordBERT 在复杂任务中具有更高的理解和推理能力

相比来看,它在 NER 任务上的优势更明显一些。

研究人员推测,这可能是 WordBERT 在学习低频词的表征方面有优势,因为命名实体往往就是一些不常见的稀有词对于中文版WordBERT—ZH,研究人员在 CLUE benchmark 上的各种任务中测试其性能除了 BERT,对比模型还包括 WoBERT 和 MarkBERT,这也是两个基于 BERT 预训练的中文模型

结果,WordBERT—ZH 在四项任务中都打败了所有其他对比模型,在全部五项任务上的表现都优于基线 BERT,并在 TNEWS,OCNLI和 CSL任务上取得了 3 分以上的差距这说明,基于词的模型对中文也是非常有效的

最后,实验还发现:性能不差的 WordBERT,在不同任务上的推理速度也并未落于下风。

一作为哈工大计算机专业在读博士生冯掌印,研究方向为 NLP,文本生成。

他曾在微软亚研院自然语言计算组,哈工大和科大讯飞联合实验室实习,在 NLP 领域的顶会 ENNLP 发表过一篇一作论文。标准BERT模型参数规模只有4亿,而此次4810亿的巨型BERT是有史以来最大的一个版本。。

论文地址:

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

分享至:
| 收藏

相关

  • 支持LoongArch64架构!统信UOS桌面操作系统V20E更新:软件等生态圈
  • 感谢本站网友菜鸟N号的线索投递! ,据统信软件发布,统信UOS桌面操作系统V20E再次更新,完善了对LoongArch64架构的支持,进一步丰富了硬件,软件等生态圈在产品特性和系统优化上也有多处更新与优化,为用户带...
  • 企业家在线 发布于  2022-03-06 12:42  
  • 她迄今已有8年的志愿服务经历她迄今已有8年的志愿服务经历
  • 2022年3月5日是第60个学雷锋纪念日,这一天,安徽大学数学科学学院20级统计班的王睿童同学与以往一样参加了志愿者活动从12岁开始,她迄今已有8年的志愿服务经历由王睿童参与发起的益起来助学基金,帮助了60多个贫困家庭的...
  • 企业家在线 发布于  2022-03-06 12:12  
  • 厦门良好营商环境正吸引越来越多港澳台侨人士前来学习工作甚至定居
  • 厦门良好营商环境,正吸引越来越多港澳台侨人士前来学习,工作甚至定居。 栽下梧桐树,引得凤凰来,华侨大学党委书记徐西鹏日前与厦门市税务局纪检组长黄英一行进行税务工作座谈时表示,税务部门推出一系列服务举措,不断优化税收...
  • 企业家在线 发布于  2022-03-04 19:25  
  • 片仔癀盘中创下上市以来高股价491.88元
  • 今日,片仔癀股价下跌,截至收盘报316.16元,跌幅6.55%。 日前,片仔癀盘中创下上市以来最高股价491.88元。”一名熟悉中医药的业内人士对记者表示,曾经的“天价”片仔癀已经脱离药品属性,更像一种金融产品,但...
  • 企业家在线 发布于  2022-03-04 18:57  

企业家在线© 2012-   X3.4