一种基于中心向量的KNN分类器训练样本裁剪方法技术

技术编号:11399856 阅读:64 留言:0更新日期:2015-05-03 14:55
本发明专利技术涉及一种基于中心向量的KNN分类器训练样本裁剪方法,与现有技术相比解决了KNN分类速度慢的缺陷。本发明专利技术包括以下步骤:将样本集按决策属性进行子集划分;计算子集合的中心向量;界定混合样本数据集的范围;计算混合数据集S的中心向量,记为Cs;设定判别规则,利用混合样本集及子集合的中心向量进行样本预测,实现样本集的裁剪压缩及预测分类。本发明专利技术提高了KNN算法执行效率,不仅可以克服了KNN分类速度慢的缺陷,而且还可保持较高的分类准确率。

【技术实现步骤摘要】

【技术保护点】
一种基于中心向量的KNN分类器训练样本裁剪方法,其特征在于,包括以下步骤:11)将样本集按决策属性进行子集划分,划分训练样本和待测样本,将训练样本归入样本数据集U,将样本数据集U按照决策属性种类数D,进行子集划分,分成n个子集合(U1,U2,U3,...,Un);12)计算子集合的中心向量,利用K‑Means方法或K‑中心方法,计算出n个子集合(U1,U2,U3,...,Un)的中心向量,记为Cn(C1,C2,C3,...,Cn);13)界定混合样本数据集的范围,对于任意样本i,计算i到所有中心向量Cn(C1,C2,C3,...,Cn)的距离;若i到其所属的样本集合的中心向量的距离大于其他中心向量的距离,将此样本i加入到混合数据集S中;否则,将此样本i放入集合L中;14)计算混合数据集S的中心向量,记为Cs;15)设定判别规则,利用混合样本集及子集合的中心向量进行样本预测,实现样本集的裁剪压缩及预测分类;对于待测样本t,计算t与中心向量Cn、Cs的距离;若t到混合数据集S的中心向量Cs的距离小于其他中心向量Cn,则在混合数据集S上对待测样本t进行KNN方法分类;否则,把离其最近的中心向量的类标号赋予样本t,且此样本t被错分类,将此样本t放入集合L中。...

【技术特征摘要】

【专利技术属性】
技术研发人员:陶刚闫永刚刘俊张小兵张晓花
申请(专利权)人:安徽科力信息产业有限责任公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1