基于迁移学习和集成学习的医疗文本分类

时间:2022-02-22 19:09:25
作者:郑承宇,王 新,王 婷,徐权峰
关键字:迁移学习,集成学习,ALBERT,Bi-LSTM-CNN,医疗文本,健康问句
DOI:10.3969/j.issn.1673-629X.2022.04.005
查看次数:356

如需要完整文档点击下方 "点击下载文档" 按钮

针对医疗文本语义稀疏、维度过高的问题,提出一种基于迁移学习和集成学习的多标签医疗文本分类算法( Trans-LSTM-CNN-Multi,TLCM) 。 该算法采用 ALBERT( A Lite BERT) 模型内部的多层双向 Transfomer 结构对大型语料库展开训练,获取通用领域的文本动态字向量表示。 然后,利用医学领域目标数据集通过迁移学习和模型微调技术实现ALBERT 预训练语言模型在医学领域的文本语义增强。 在此基础上,将上述通过迁移学习得到的文本语义增强模型输入到 Bi-LSTM-CNN 集成学习模块,进一步提取医学文本内容的重要信息特征。 最后,基于二元交叉熵损失函数构造文本多标签分类器实现医疗文本分类。 实验结果表明,通过迁移学习和集成学习的 TLCM 文本分类算法能有效提升医疗文本的分类性能,在中文健康问句数据集上整体 F1 值达到了 91. 8% 。

如需要完整文档点击下方 "点击下载文档" 按钮

基于迁移学习和集成学习的医疗文本分类
《基于迁移学习和集成学习的医疗文本分类》
完整文档 下载到本地,方便收藏和查阅
文件号:059166
基于迁移学习和集成学习的医疗文本分类
点击下载文档
基于迁移学习和集成学习的医疗文本分类

点击下载 文件号:059166(点击复制) 公众号(点击复制)

x