融合多因素的 TFIDF 关键词提取算法研究

时间:2023-08-05 15:53:47
作者:牛永洁,田成龙
关键字:TFIDF 算法,词位置,词性,词语关联,词长,词跨度
DOI:10.3969/j.issn.1673-629X.2019.07.016
查看次数:696

如需要完整文档点击下方 "点击下载文档" 按钮

为了能更加准确、快速地提取文本中的关键词,首先需要对待提取的文本进行数据清洗,去掉其中的噪声数据,接着对文本进行分词操作,在去掉停用词的基础上,综合考虑词语的位置、词性、词语关联性、词长和词跨度等因素,将这些因素与经典的 TFIDF 关键词提取算法相结合,采用不同权重的方法得到最终的词语权重,按照词语权重从大到小取得前 5个词作为文本的关键词。 以本校图书馆提供的 8 045 篇《红色中华》新闻为源数据,从准确度、召回率及 F 1 值三个指标对文中算法、经典的 TFIDF 算法和专家标注进行对比,发现文中算法在三个指标上均优于经典的 TFIDF 算法,与专家标注比较接近。

如需要完整文档点击下方 "点击下载文档" 按钮

融合多因素的 TFIDF 关键词提取算法研究
《融合多因素的 TFIDF 关键词提取算法研究》
完整文档 下载到本地,方便收藏和查阅
文件号:062186
融合多因素的 TFIDF 关键词提取算法研究
点击下载文档
融合多因素的 TFIDF 关键词提取算法研究

点击下载 文件号:062186(点击复制) 公众号(点击复制)

x