一种基于中心向量的KNN分类器训练样本裁剪方法技术

技术编号：11399856 阅读：64 留言：0更新日期：2015-05-03 14:55

本发明专利技术涉及一种基于中心向量的KNN分类器训练样本裁剪方法，与现有技术相比解决了KNN分类速度慢的缺陷。本发明专利技术包括以下步骤：将样本集按决策属性进行子集划分；计算子集合的中心向量；界定混合样本数据集的范围；计算混合数据集S的中心向量，记为Cs；设定判别规则，利用混合样本集及子集合的中心向量进行样本预测，实现样本集的裁剪压缩及预测分类。本发明专利技术提高了KNN算法执行效率，不仅可以克服了KNN分类速度慢的缺陷，而且还可保持较高的分类准确率。

全部详细技术资料下载

【技术实现步骤摘要】

【技术保护点】
一种基于中心向量的KNN分类器训练样本裁剪方法，其特征在于,包括以下步骤：11)将样本集按决策属性进行子集划分，划分训练样本和待测样本，将训练样本归入样本数据集U，将样本数据集U按照决策属性种类数D，进行子集划分，分成n个子集合(U1,U2,U3,...,Un)；12)计算子集合的中心向量，利用K‑Means方法或K‑中心方法，计算出n个子集合(U1,U2,U3,...,Un)的中心向量，记为Cn(C1,C2,C3,...,Cn)；13)界定混合样本数据集的范围，对于任意样本i，计算i到所有中心向量Cn(C1,C2,C3,...,Cn)的距离；若i到其所属的样本集合的中心向量的距离大于其他中心向量的距离，将此样本i加入到混合数据集S中；否则，将此样本i放入集合L中；14)计算混合数据集S的中心向量，记为Cs；15)设定判别规则，利用混合样本集及子集合的中心向量进行样本预测，实现样本集的裁剪压缩及预测分类；对于待测样本t，计算t与中心向量Cn、Cs的距离；若t到混合数据集S的中心向量Cs的距离小于其他中心向量Cn，则在混合数据集S上对待测样本t进行KNN方法分类；否则，把离其最近的中心向...

【技术特征摘要】

【专利技术属性】
技术研发人员：陶刚，闫永刚，刘俊，张小兵，张晓花，
申请(专利权)人：安徽科力信息产业有限责任公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人