一种基于聚类和特征匹配的改进kNN算法制造技术

技术编号:20655435 阅读:31 留言:0更新日期:2019-03-23 07:01
本发明专利技术公开了一种基于聚类和特征匹配的改进kNN算法,属于机器学习和数据挖掘技术领域。本发明专利技术的基于聚类和特征匹配的改进kNN算法,计算全部已知样本特征Hash值作为标识,生成索引用于快速检索,实现待分类样本的快速匹配分类;确定影响分类结果的主要特征,将样本特征空间进行划分,并通过聚类算法形成已知样本簇,生成Hash作为样本簇特征,计算待分类样本的特征Hash值,完成特征匹配以缩小近邻样本范围,减少计算已知样本与待分类样本间距离的计算。该发明专利技术的基于聚类和特征匹配的改进kNN算法能够提升执行效率和准确性,具有很好的推广应用价值。

【技术实现步骤摘要】
一种基于聚类和特征匹配的改进kNN算法
本专利技术涉及机器学习和数据挖掘
,具体提供一种基于聚类和特征匹配的改进kNN算法。
技术介绍
随着社会的经济,社会经济飞速发展,各种高科技技术也顺势发展起来。近年来,人工智能技术发展迅速,其商业化速度超出预期,人工智能将会给整个社会带来颠覆性的变化,已经成为未来各国重要的发展战略。随着云计算和大数据的发展,特别是海量数据的出现,从大数据中进行学习,打破了传统的方式,对各个领域产生了颠覆性的变革。产生了海量的数据,也迫切需要将这些数据转换成有用的信息和知识,而云中心强大的计算力和不断演进的机器学习算法使得数据挖掘的效率不断提升,挖掘出更有价值的信息和知识,广泛用于各类应用中。kNN算法即k-NearestNeighbor,为K最近邻算法是数据挖掘分类技术中的经典算法,是一种用于分类和回归的非参数统计方法。其核心是计算测试样本与样本特征空间的样本之间的距离,得到k个最相邻的样本,如果这k个最近邻样本大多数属于某一类别,则该样本也属于这个类别,并具有该类别样本的特性。kNN算法广泛用于文本分类,模式识别,图像处理等领域。kNN算法具有简单、易本文档来自技高网...

【技术保护点】
1.一种基于聚类和特征匹配的改进kNN算法,其特征在于:计算全部已知样本特征Hash值作为标识,生成索引用于快速检索,实现待分类样本的快速匹配分类;确定影响分类结果的主要特征,将样本特征空间进行划分,并通过聚类算法形成已知样本簇,生成Hash作为样本簇特征,计算待分类样本的特征Hash值,完成特征匹配以缩小近邻样本范围,减少计算已知样本与待分类样本间距离的计算。

【技术特征摘要】
1.一种基于聚类和特征匹配的改进kNN算法,其特征在于:计算全部已知样本特征Hash值作为标识,生成索引用于快速检索,实现待分类样本的快速匹配分类;确定影响分类结果的主要特征,将样本特征空间进行划分,并通过聚类算法形成已知样本簇,生成Hash作为样本簇特征,计算待分类样本的特征Hash值,完成特征匹配以缩小近邻样本范围,减少计算已知样本与待分类样本间距离的计算。2.根据权利要求1所述的基于聚类和特征匹配的改进kNN算法,其特征在于:主要包括以下步骤:S01、计算所有已知样本的特征向量的Hash值作为标识;S02、将所有已知样本的Hash值标识生成索引,用于搜索;S03、通过特征分析确定样本特征对于分类结果的影响程度;S04、使用聚类算法根据主要影响特征将已知样本空间的样本形成多个样本簇;S05、根据样本簇,计算聚类结果主要特征的Hash值,得到代表该样本簇的多个标识;S06、将已知样本关联其样本簇,并保存其分类结果及样本簇标识;S07、如果样本簇里的数据规模仍很大,继续根据其他影响特征进行该样本簇内聚类分析,形成更小的样本簇,返回执行步骤S05;S08、将聚类算法得到的样本簇标识生成索引,用于搜索;S09、反复设定K值进行训练,计算测试训练集的误差率,选取误差率最小的K值;S10、计算待分类样本特征向量的Hash值,利用全部已知样本的特征Hash标识索引进行搜索;S11、若找到匹配标识,则该匹配标识对应的分类结果为待分类样本的分类结果,算法结束,否则执行步骤S12;S12、计算待分类样本特征向量主要影响特征的H...

【专利技术属性】
技术研发人员:孙善宝罗清彩于治楼
申请(专利权)人:济南浪潮高新科技投资发展有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1