样本分类方法、装置、存储介质和计算机设备制造方法及图纸

技术编号:23766625 阅读:32 留言:0更新日期:2020-04-11 20:10
本申请涉及一种样本分类方法、装置、存储介质和计算机设备,所述方法包括:获取待预测样本的最近邻样本集合,最近邻样本集合包括携带类别标签的最近邻样本;确定待预测样本与各最近邻样本的样本相似度;根据样本相似度,确定各最近邻样本的样本权重;根据样本权重和各最近邻样本对应的类别标签,确定与各类别标签对应的类别权重;根据与各类别标签对应的类别权重,确定待预测样本的类别。本申请提供的方案可以实现提高样本分类的准确度。

Sample classification method, device, storage medium and computer equipment

【技术实现步骤摘要】
样本分类方法、装置、存储介质和计算机设备
本申请涉及计算机
,特别是涉及一种样本分类方法、装置、存储介质和计算机设备。
技术介绍
随着计算机技术的发展,出现了样本分类技术,目前,样本分类被广泛的应用于各个领域。传统的样本分类多是基于k最近邻分类实现的,k最近邻是指用待预测样本的k个最接近的邻居来代表它。传统的样本分类方式为根据最近邻样本数量和待预测样本与各训练样本之间的距离,确定待预测样本的k最近邻样本,进而根据该k最近邻样本确定待预测样本的类别。然而,由于易受距离度量的影响,传统的样本分类方法存在分类准确度低的问题,进而会影响到分类结果的进一步应用。
技术实现思路
基于此,有必要针对现有的样本分类方法存在分类准确度低的技术问题,提供一种样本分类方法、装置、存储介质和计算机设备。一种样本分类方法,包括:获取待预测样本的最近邻样本集合,最近邻样本集合包括携带类别标签的最近邻样本;确定待预测样本与各最近邻样本的样本相似度;根据样本相似度,确定各最近邻样本的样本权重;根据样本权本文档来自技高网...

【技术保护点】
1.一种样本分类方法,包括:/n获取待预测样本的最近邻样本集合,所述最近邻样本集合包括携带类别标签的最近邻样本;/n确定所述待预测样本与各所述最近邻样本的样本相似度;/n根据所述样本相似度,确定各所述最近邻样本的样本权重;/n根据所述样本权重和各所述最近邻样本对应的所述类别标签,确定与各类别标签对应的类别权重;/n根据所述与各类别标签对应的类别权重,确定待预测样本的类别。/n

【技术特征摘要】
1.一种样本分类方法,包括:
获取待预测样本的最近邻样本集合,所述最近邻样本集合包括携带类别标签的最近邻样本;
确定所述待预测样本与各所述最近邻样本的样本相似度;
根据所述样本相似度,确定各所述最近邻样本的样本权重;
根据所述样本权重和各所述最近邻样本对应的所述类别标签,确定与各类别标签对应的类别权重;
根据所述与各类别标签对应的类别权重,确定待预测样本的类别。


2.根据权利要求1所述的方法,其特征在于,所述获取待预测样本的最近邻样本集合包括:
获取待预测样本的最近邻样本数量和携带类别标签的训练样本集合;
确定所述待预测样本和所述训练样本集合中各训练样本之间的样本距离,根据所述样本距离对各所述训练样本进行排序;
根据排序结果和所述最近邻样本数量,从所述训练样本集合中选取所述待预测样本的最近邻样本集合。


3.根据权利要求2所述的方法,其特征在于,所述获取待预测样本的最近邻样本数量包括:
获取备选最近邻样本数量集合、携带类别标签的样本训练集和样本验证集;
根据所述备选最近邻样本数量集合中各备选最近邻样本数量和所述携带类别标签的样本训练集进行学习训练,得到与各备选最近邻样本数量对应的样本分类模型;
根据所述携带类别标签的样本验证集对与各备选最近邻样本数量对应的样本分类模型进行验证,统计与各备选最近邻样本数量对应的样本分类模型的错误率;
根据所述错误率,从所述备选最近邻样本数量集合中选取待预测样本的最近邻样本数量。


4.根据权利要求1所述的方法,其特征在于,所述根据所述样本相似度,确定各所述最近邻样本的样本权重包括:
根据所述样本相似度,得到所述最近邻样本集合的总样本相似度;
根据所述样本相似度和所述总样本相似度的比值,得到各所述最近邻样本的样本权重。

【专利技术属性】
技术研发人员:李欣
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1