基于 BERT 的民间文学文本预训练模型

时间:2022-05-14 13:31:34
作者:陶慧丹,2,段 亮,2,王笳辉,2,岳 昆,2
关键字:预训练语言模型,民间文学文本,BERT,自然语言处理,下游任务
DOI:10.3969/j.issn.1673-629X.2022.11.024
查看次数:924

如需要完整文档点击下方 "点击下载文档" 按钮

民间文学文本中含有大量生动形象的修辞手法;人名、地名极其复杂,难以判断词与词之间的边界;与现代汉语表达差别较大,预训练语言模型难以有效地学习其隐含知识,为机器自然语言理解带来困难。 该文提出一种基于 BERT 的民间文学文本预训练模型 MythBERT,使用民间文学语料库预训练,将 BERT 的字隐蔽策略改进为对中文词语隐蔽策略。 对民间文学文本中解释字、词的注释词语重点隐蔽,减小 BERT 隐蔽的随机性并有利于学习词语语义信息。 同时利用注释增强语言模型表示,解决一词多义、古今异义等问题。 将 MythBERT 与 BERT、BERT-WWM 和 RoBERTa 等主流中文预训练模型在情感分析、语义相似度、命名实体识别和问答四个自然语言处理任务上进行比较。 实验结果表明,注释增强的民间文学预训练模型 MythBERT 在民间文学文本任务上性能显著提升,与基线方法相比取得了最优的效果。

如需要完整文档点击下方 "点击下载文档" 按钮

基于 BERT 的民间文学文本预训练模型
《基于 BERT 的民间文学文本预训练模型》
完整文档 下载到本地,方便收藏和查阅
文件号:060101
基于 BERT 的民间文学文本预训练模型
点击下载文档
基于 BERT 的民间文学文本预训练模型

点击下载 文件号:060101(点击复制) 公众号(点击复制)

x