基于信息增益和基尼不纯度的 K 近邻算法

时间:2022-11-06 16:58:26
作者:孙 傲,赵礼峰
关键字:数据挖掘,K 近邻,信息增益,基尼不纯度
DOI:10.3969/j.issn.1673-629X.2019.09.010
查看次数:879

如需要完整文档点击下方 "点击下载文档" 按钮

传统 K 近邻算法忽略每个属性对分类的不同重要程度,将每个属性同等看待,在计算样本间距离时赋予每个属性相同的权重,影响样本分类的正确性。 利用单一指标来确定属性重要性过于片面,无法全面反应属性对分类的重要程度。针对这一问题,利用信息增益和基尼不纯度的综合指标作为判断属性重要程度的指标,该综合指标越大,属性对分类的重要程度越高。 并依据综合指标构造属性权重,计算样本间的加权距离进行分类。 为验证该方法的有效性,分别基于 UCI数据库中 Iris 数据集和 Wine 数据集对基于信息增益和基尼不纯度综合指标的加权 K 近邻算法进行仿真实验,并与传统 K 近邻算法和基于信息增益加权 K 近邻算法进行对比,基于信息增益和基尼不纯度综合指标的加权 K 近邻算法错误率均低于传统 K 近邻算法和基于信息增益加权 K 近邻算法。 结果表明该方法比传统 K 近邻法和基于单一指标加权 K 近邻算法能更有效地对样本进行分类。

如需要完整文档点击下方 "点击下载文档" 按钮

基于信息增益和基尼不纯度的 K 近邻算法
《基于信息增益和基尼不纯度的 K 近邻算法》
完整文档 下载到本地,方便收藏和查阅
文件号:062258
基于信息增益和基尼不纯度的 K 近邻算法
点击下载文档
基于信息增益和基尼不纯度的 K 近邻算法

点击下载 文件号:062258(点击复制) 公众号(点击复制)

x