基于词频统计的蛋白质交互关系识别

时间:2022-05-01 10:50:10
作者:蔡松成,牛耘
关键字:远监督,蛋白质交互,最大期望算法,词频统计
DOI:10.3969/j.issn.1673-629X.2019.02.013
查看次数:376

如需要完整文档点击下方 "点击下载文档" 按钮

目前,基于远监督的蛋白质交互关系抽取方法通过将知识库中的实体对与文本中的实体进行匹配来产生大规模的训练数据,有效地解决了标注数据不足的问题。在基于最大期望算法的蛋白质交互识别的基础上,提出了一种基于词频统计的蛋白质交互关系识别。该方法对每一个蛋白质对签名档进行处理,取出两个目标蛋白质中间的单词;然后对其进行词性标注,只保留名词和动词,同时进行词干提取;最终得到每个蛋白质对签名档下的词频统计。利用得到的词频信息设定阈值来获取签名档的高频词,改进最大期望算法的初始化过程。实验结果表明,通过加入高频词信息的干预来进一步获取句子的类别作为初始值较原始的基于最大期望算法的模型,取得了更高且均衡的精确度和召回率,对目前基于远监督的蛋白质交互关系识别方法进行了明显的改进

如需要完整文档点击下方 "点击下载文档" 按钮

基于词频统计的蛋白质交互关系识别
《基于词频统计的蛋白质交互关系识别》
完整文档 下载到本地,方便收藏和查阅
文件号:061975
基于词频统计的蛋白质交互关系识别
点击下载文档
基于词频统计的蛋白质交互关系识别

点击下载 文件号:061975(点击复制) 公众号(点击复制)

x