如需要完整文档点击下方 "点击下载文档" 按钮
随着互联网的高速发展,微博、微信等文本形式的使用量逐渐增多,对于这类文本的分析理解在自然语言处理领域形成了新的挑战,尤其是文本中的网络新词识别与语义理解方面。 为了克服传统方法无法识别网络新词及其语义的缺点,提出了一种融合知识图谱和显性语义分析(explicit semantic analysis,ESA)方法的网络新词识别方法。 该方法以短语的粗粒度对原文进行切分来保留词语间的逻辑关系,利用百度知识图谱 Schema 匹配短语的语义表达后,再逐步以 ESA 方法分解剩余文本并将短语的百科信息提炼出核心语义词汇来补充 Schema 无法识别的部分。 实验结果表明,与已有新词识别算法相比,该算法仅需要少量的语料库作为底层知识支撑,大幅降低了人工规则制订的成本,并提高了网络新词识别正确率与词语理解准确率。
如需要完整文档点击下方 "点击下载文档" 按钮
《融合知识图谱和 ESA 方法的网络新词识别》
将 完整文档 下载到本地,方便收藏和查阅
文件号:062010
点击下载文档