一种基于样本集的多属性目标的分类方法技术

技术编号:28210943 阅读:32 留言:0更新日期:2021-04-24 14:46
本发明专利技术公开一种基于样本集的多属性目标的分类方法,根据已知样本集和待分类目标的已知属性,筛选出样本子集,如果筛选出的样本自己具有单一的类别属性,则待分类目标的类别为该单一类别;否则选择待分类目标的一个新已知属性,对筛选出的样本子集继续进行筛选,直到本次分类完成或本次分类失败。本发明专利技术可以实现分类的可解释性,给出样本集和分类方法的改进方向,将复杂的多维分类问题简化为单维度样本筛选,提供了探索式的目标分类方法,提升了分类方法的效率。类方法的效率。类方法的效率。

【技术实现步骤摘要】
一种基于样本集的多属性目标的分类方法


[0001]本专利技术属于机器学习、人工智能
,具体涉及一种分类方法。

技术介绍

[0002]分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。
[0003]例如,在邮件管理中,将一封邮件归类为“垃圾邮件”或者“非垃圾邮件”就是一个典型的二元分类问题;银行对信用卡客户进行信用等级分类和上市公司股票类型的划分则属于多元分类问题。
[0004]经过多年的发展,机器学习发展出众多的分类方法,常见的分类方法包括:
[0005]线性分类器
[0006]朴素贝叶斯分类器(naive bayes classifier)
[0007]感知器(perceptron)
[0008]支持向量机(support vector machine)
[0009]最近邻居法(k

nearest neighbor)
[0010]决策树(decision trees)
[0011]随机森林(random forests)
[0012]神经网络(neural networks)
[0013]其中,线性分类器中的判别分析和逻辑回归是最基础、最具代表性的分类方法。判别分析是一种简单直观的分类方法,它基于观测值与不同类别之间距离差异进行分类。利用样本构造判别函数,根据观测点与不同类别中心点的距离,将其归属于距离“最短”的那一类;而逻辑回归分类则是先建立一个回归模型(regression model),然后采用极大似然估计(maximum likelihood estimation)方法估计模型参数,得出回归的拟合值,最后通过数学方法在不同的概率中作出决策,完成分类问题。
[0014]分类算法在医学、生物学和经济管理等诸多领域都有着广泛的应用,日常使用的图像识别,手写数字识别、语音识别等都可以归结为分类。
[0015]无论是判别分析,还是基于神经网络的深度学习方法,现有分类方法试图从已有的样本中提炼一个分类函数,这个函数的输入对应目标的各属性的值,或者是目标的多维向量,而输出对应到特定的类别。将待分类的目标的属性值或多维向量输入分类函数,就可以获得目标类别。当前的分类方法存在以下问题:
[0016]a、分类的结果是分类函数的输出,虽然分类函数是从已知样本中总结出来的,但具体目标的分类结果无法解释,也就是只能输出是什么,而不能给出为什么是。对于样本存在错误或者样本不够的情况,无法给出样本的改进方向;
[0017]b、分类函数一般是多个参数构成形式明确的函数,但目标属性的认知是逐步深化和增加的,新增的目标属性可能构成更好的分类依据,分类函数在样本和目标新增属性以
后需要重新训练,无法基于已有基础优化;
[0018]c、分类函数的容量对应于函数参数的个数,固定的分类函数形式限制了函数参数的个数以及分类函数的容量,无法动态适应样本的变化的属性个数;
[0019]d、现有的方法均要求样本和待分类的目标具有相同的属性类别,且各属性均为已知,实际认知中属性并不是一定都相同的,即使相同,由于各属性取值获取的代价不同,系统往往需要先使用判别代价小的属性进行判别,如果判别成功则无需进行高代价属性的获取,这样可以优化判别的性能。而现有方法无法支持。

技术实现思路

[0020]本专利技术针对多属性的目标,尤其是属性含义明确的目标,提供了一种渐进式的、基于样本的分类方法,解决了现有分类方法的以上问题。
[0021]为实现上述专利技术目的,本专利技术具体采用如下技术方案:
[0022]一种基于样本集的多属性目标的分类方法,其特征在于:
[0023]所述样本集为已知样本集,所述已知样本集包含至少一个样本,所述已知样本集中的样本至少具有类别属性,且所述已知样本集中的样本的所有属性的取值为已知;对于一个具有与所述已知样本集中的样本部分或者全部相同的属性,且类别属性的值未知,其他属性的值已知的待分类目标,分类方法包括如下步骤:
[0024]1)选择待分类目标的一个已知属性,将所述已知样本集作为待筛选样本集;
[0025]2)根据所选择的待分类目标的已知属性的取值,在给定的阈值范围内,从待筛选样本集中筛选出样本子集;
[0026]3)判断筛选出的样本子集是否具有单一的类别属性,如果是,则待分类目标的类别为该单一类别;否则选择待分类目标的一个新已知属性,将筛选出的样本子集作为待筛选样本集,重复步骤2)、3),直到本次分类完成或本次分类失败。
[0027]优选地,如果分类过程中筛选出的样本子集为空,则本次分类失败。
[0028]优选地,如果待分类目标的所有已知属性遍历完,筛选出的样本子集不具有单一的类别属性,则本次分类失败。
[0029]优选地,从待筛选样本集中筛选出样本子集的方法为:遍历待筛选样本集中的每个样本,检查该样本的选定属性的值是否在所述给定的阈值范围内,如果在范围内,则样本子集包含该样本,否则样本子集不包含该样本。
[0030]优选地,如果筛选出的样本子集不具有单一的类别,则待分类目标的类别为特定类别的可信度,与特定类别的样本在样本子集中的比例相同。
[0031]优选地,所述给定的阈值范围是以所述待分类目标已知属性的取值为基准,根据经验给出上下偏差,所获得的一个取值区间。
[0032]优选地,选择待分类目标的已知属性时,优先选择获取代价较小的。
[0033]优选地,所述的待分类目标确定类别后,加入所述已知样本集中,用于后续其他目标的分类。
[0034]本专利技术有益效果:
[0035]1、实现了分类的可解释性,给出了样本集和分类方法的改进方向;
[0036]对于待分类目标的分类,是参照某几个属性或某几个样本而获得的,不但可以给
出目标的类别,而且可以清晰知道该分类结果是受哪些样本、哪些属性的影响而获得的。如果分类错误,也可以明确是哪些样本的哪些属性有问题,从而为分类方法指明了改进方向。
[0037]2、将复杂的多维分类问题简化为单维度样本筛选;
[0038]现有方法中,多维属性目标的分类是一个复杂问题,以神经网络为例,分类函数是复杂的非线性函数,其中包含百万甚至亿级的参数,参数的确定依赖于大量的标注数据的训练。本专利技术提供的分类方法将多属性目标的分类拆解为每个属性的单独的样本筛选,简化了处理过程,降低了分类难度。
[0039]3、支持少样本的分类;
[0040]以神经网络为例,其参数需要通过大量样本训练才能稳定下来,从而使分类结果比较稳定可靠。而本专利技术提供的方法,即使样本量很少,也为待分类目标的类别提供了参考依据,从而可以支持少样本情况下的目标分类。
[0041]4本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于样本集的多属性目标的分类方法,其特征在于:所述样本集为已知样本集,所述已知样本集包含至少一个样本,所述已知样本集中的样本至少具有类别属性,且所述已知样本集中的样本的所有属性的取值为已知;对于一个具有与所述已知样本集中的样本部分或者全部相同的属性,且类别属性的值未知,其他属性的值已知的待分类目标,分类方法包括如下步骤:1)选择待分类目标的一个已知属性,将所述已知样本集作为待筛选样本集;2)根据所选择的待分类目标的已知属性的取值,在给定的阈值范围内,从待筛选样本集中筛选出样本子集;3)判断筛选出的样本子集是否具有单一的类别属性,如果是,则待分类目标的类别为该单一类别;否则选择待分类目标的一个新的已知属性,将筛选出的样本子集作为待筛选样本集,重复步骤2)、3),直到本次分类完成或本次分类失败。2.如权利要求1所述的基于样本集的多属性目标的分类方法,如果分类过程中筛选出的样本子集为空,则本次分类失败。3.如权利要求2所述的基于样本集的多属性目标的分类方法,其特征在于:在本次分类失败情况下,对该待分类目标进行人为类别判定,将该待分类目标以及人为判定的类别信息加入所述已知样本集中,用于后续其他目标的分类。4.如权利要求1所述的基于样本集的多属性目标的分类方法,如果待分类目标的所有已知属性遍历...

【专利技术属性】
技术研发人员:邓少冬
申请(专利权)人:西安米克斯智能技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1