如需要完整文档点击下方 "点击下载文档" 按钮
词汇模型在表征工程技术知识文档特征时,将文档切分为一个个相互不关联的词,较难提取出文档的语义特征。如果考虑到一条语句中词之间的关联性,根据工程技术知识文档的语义结构信息,提取出功能结构元组作为文档特征,则可以进一步提高分类效果。 文中从工程技术知识文档的特点出发,在归纳总结现有提取文本功能结构元组方法的基础上,探索将基于统计的方法和基于规则的方法相结合。 首先通过统计方法提取文档特征词来过滤掉文档中的噪声和无意义的语句,再从过滤后的语句中按照语法分析树的层次,以递归方式提取文档中的功能结构元组。 为更有效地提取语句中的功能结构元组,对语句的词法分析树中规律性的规则进行了总结。 经验证,该方法可有效提升工程技术知识文档的特征提取效果。
如需要完整文档点击下方 "点击下载文档" 按钮
《基于功能结构元组的技术文档的特征提取研究》
将 完整文档 下载到本地,方便收藏和查阅
文件号:062095
点击下载文档