如需要完整文档点击下方 "点击下载文档" 按钮
为了能更加准确、快速地提取文本中的关键词,首先需要对待提取的文本进行数据清洗,去掉其中的噪声数据,接着对文本进行分词操作,在去掉停用词的基础上,综合考虑词语的位置、词性、词语关联性、词长和词跨度等因素,将这些因素与经典的 TFIDF 关键词提取算法相结合,采用不同权重的方法得到最终的词语权重,按照词语权重从大到小取得前 5个词作为文本的关键词。 以本校图书馆提供的 8 045 篇《红色中华》新闻为源数据,从准确度、召回率及 F 1 值三个指标对文中算法、经典的 TFIDF 算法和专家标注进行对比,发现文中算法在三个指标上均优于经典的 TFIDF 算法,与专家标注比较接近。
如需要完整文档点击下方 "点击下载文档" 按钮
《融合多因素的 TFIDF 关键词提取算法研究》
将 完整文档 下载到本地,方便收藏和查阅
文件号:062186
点击下载文档