一种多标记数据的特征选择方法及装置制造方法及图纸

技术编号:23315191 阅读:43 留言:0更新日期:2020-02-11 17:49
本发明专利技术涉及一种多标记数据的特征选择方法及装置,属于数据分类技术领域。本发明专利技术首先以标记的先验概率作为标记的权重,计算特征与标记之间的相关性并按相关性大小对特征进行预筛选,在减小后续计算量的同时,使得特征与标记之间的相关性尽可能大;然后利用样本的标记集合之间的相关性link值对样本的同类、异类进行划分,最后按照权重更新公式计算特征权重值,将特征权重值进行排序,选择最优特征子集。通过上述过程,本发明专利技术能够有效选取最优特征子集,提高了多标记特征选择算法的分类精度。

A feature selection method and device for multi marker data

【技术实现步骤摘要】
一种多标记数据的特征选择方法及装置
本专利技术涉及一种多标记数据的特征选择方法及装置,属于数据分类

技术介绍
在传统的监督学习中,每个实例只对应于唯一一个类别标记。然而在真实世界中,一个物体往往同时拥有多个概念标记,例如,一幅图像可能同时拥有“沙漠”、“太阳”、“仙人掌”等标记,于是多标记学习问题应运而生。目前,多标记学习已经受到广泛的关注并已应用于文本分类,基因功能分类,图像标注,视频自动注释等多个领域。在文本分类这些实际应用中,高维数据中大量无关信息与冗余信息的存在极大地降低了学习算法的性能。因此降维对于提升多标记学习技术求解相关问题的能力具有十分重要的意义。通过降维可以找出隐藏在高维观测数据中有意义的低维结构,解决高维数据的“维数灾难”问题。在降维方法中,最常见且最重要的方法即为特征提取和特征选择。特征提取是将样本从高维输出空间通过线性或非线性映射投影到一个低维空间得到新的特征集合。很显然,这类方法虽然降低了样本的维数,但却失去了特征原有的语义信息,无法有效去除无关和冗余特征。特征选择则有效解决了这一问题,特征选择是指从原始的特征集合中用计算的方法按照评价准则选择出部分具有良好区分特性的特征进行分类。其目的是根据一些准则选出最小的特征子集,使分类等任务达到和特征选择前近似甚至更好的效果。大多数的特征选择方法主要针对单标记学习,随着多标记学习的普及,越来越多的学者开始关注多标记问题的研究。目前,有很多针对于多标记数据的特征选择算法被提出。例如,Kononenko等学者撰写的《Estimatingattributes:analysisandextensionofrelief》(EuropeanConferenceonMachineLearning.Springer,Berlin,Heidelberg,1994.)(ReliefF)由于不能适用于多标记学习中每个样本可能同时含有多个类别标记的情况,因此很多学者结合标记相关性对ReliefF算法进行了扩展。KongD等学者撰写的《Multi-labelReliefFandF-statisticfeatureselectionsforimageannotation》(2012IEEEConferenceonComputerVisionandPatternRecognition.IEEE,2012.)(MReliefF)考虑了成对标记之间的相关性,将类别标记两两组合,从而将其分解为成对的两类多标记ReliefF集合,对样本的同类近邻和异类近邻做了有效划分;Pupo等撰写的《AnExtensionofReliefFAlgorithmtoMulti-labelLearning》(ProgressinPatternRecognition,ImageAnalysis,ComputerVision,andApplications.2013.)(ReliefF-ML)中提出的算法思想则根据特征对近邻样本的区分能力来评估特征,评估值作为每个特征的权值对原始特征加权后分类,而该方法却只对单一标记入手,考虑了单个标记与其他标记集之间的相关性。Cai等撰写的《结合标记相关性的多标记特征选择及分类算法研究》(2016.)(ML-ReliefF)结合多个标记之间的相关性并在多标记学习框架下对样本的同类近邻和异类近邻进行了合理划分,该方法虽然能够直接作用于多标记数据集,实现对多标记特征的选择。但是计算较为复杂,时间复杂度较高,且算法中只考虑了标记之间的相关性,影响最终的分类精度。
技术实现思路
本专利技术的目的是提供一种多标记数据的特征选择方法及装置,以解决目前多标记特征选择过程存在的计算复杂、分类精度差的问题。本专利技术为解决上述技术问题而提供一种多标记数据的特征选择方法,该选择方法包括以下步骤:1)以标记的先验概率作为标记的权重,计算数据样本中特征与标记之间的相关性,根据相关性大小对特征进行预筛选,去掉相关性较小的特征;2)针对预筛选后的数据样本,根据互信息和相似度的联合公式计算随机选取的样本与其他样本标记集之间的相关性值;3)根据随机选取的样本与其他样本标记集的相关性值对该样本的同类近邻和异类近邻进行划分,其中异类近邻划分时,需要在此随机选取的样本的标记集所有未出现的类别标记下,将同一数据样本与该样本的标记相关性值相加,根据相加后值的排序选择得到所选数据样本的异类近邻;4)根据随机选取的样本与其对应同类近邻和异类近邻在每个特征上的距离按照权重更新公式计算各特征权重值,按照各特征权重值的排序选择最优特征子集。本专利技术还提供了一种多标记数据的特征选择装置,所述的选择装置包括存储器和处理器,以及存储在所述存储器上并在所述处理器上运行的计算机程序,所述处理器与所述存储器相耦合,所述处理器执行所述计算机程序时实现本专利技术的多标记数据的特征选择方法。本专利技术首先以标记的先验概率作为标记的权重,计算特征与标记之间的相关性按值对特征进行预筛选,在减小后续计算量的同时,使得特征与标记之间的相关性尽可能大;然后利用样本的标记集合之间的相关性link值对样本的同类、异类进行划分,最后按照权重更新公式计算特征权重值,将特征权重值进行排序,选择最优特征子集。通过上述过程,本专利技术能够有效选取最优特征子集,提高了多标记特征选择算法的分类精度。进一步地,为了保证相关度计算的准确性,本专利技术给出具体的计算公式,所述步骤2)中两个数据样本间的标记相关性值linki,j的计算公式为:其中LSi为样本xi所拥有的标记集,LSj为样本xj所拥有的标记集,I(LSi,LSj)为标记集LSi和标记集LSj的互信息,为连接系数。进一步地,为了保证特征权重值计算的准确性,进一步提高特征选择的精确性,所述的特征权重值计算公式为:其中WP为特征p的权重值,d(p,xi,Hj)为数据样本xi与同类近邻中的数据样本xj在特征p上的距离,d(p,xi,Mj)为数据样本xi与异类近邻中的数据样本xj在特征p上的距离,simi,j为两个数据样本之间的相似度,m为迭代次数,k为同类近邻和异类近邻中数据样本个数。进一步地,为了更准确地表征两个数据样本之间的相似度,所述两个数据样本之间的相似度simi,j的计算公式为:进一步地,所述步骤1)中特征与标记之间的相关性的计算公式为:其中pi表示第i个特征,y(j)表示总的标记集合L中的第j个标记,I(pi,y(j))表示特征pi与标记y(j)之间的互信息,W(y(j))为标记y(j)的权重,n(y(j))表示拥有标记y(j)的所有数据样本个数,n表示数据样本的总个数。附图说明图1是本专利技术多标记数据的特征选择方法的流程图。具体实施方式下面结合附图对本专利技术的具体实施方式作进一步地说明。方法实施例本专利技术首先以标记的先验概率作为标记的权重,计算特征与标记之间的相关性,使预筛选后的特征与标记之间具有较大的本文档来自技高网
...

【技术保护点】
1.一种多标记数据的特征选择方法,其特征在于,该选择方法包括以下步骤:/n1)以标记的先验概率作为标记的权重,计算数据样本中特征与标记之间的相关性,根据相关性大小对特征进行预筛选,去掉相关性较小的特征;/n2)针对预筛选后的数据样本,根据互信息和相似度的联合公式计算随机选取的样本与其他样本标记集之间的相关性值;/n3)根据随机选取的样本与其他样本标记集的相关性值对该样本的同类近邻和异类近邻进行划分,其中异类近邻划分时,需要在此随机选取的样本的标记集所有未出现的类别标记下,将同一数据样本与该样本的标记相关性值相加,根据相加后值的排序选择得到所选数据样本的异类近邻;/n4)根据随机选取的样本与其对应同类近邻和异类近邻在每个特征上的距离按照权重更新公式计算各特征权重值,按照各特征权重值的排序选择最优特征子集。/n

【技术特征摘要】
1.一种多标记数据的特征选择方法,其特征在于,该选择方法包括以下步骤:
1)以标记的先验概率作为标记的权重,计算数据样本中特征与标记之间的相关性,根据相关性大小对特征进行预筛选,去掉相关性较小的特征;
2)针对预筛选后的数据样本,根据互信息和相似度的联合公式计算随机选取的样本与其他样本标记集之间的相关性值;
3)根据随机选取的样本与其他样本标记集的相关性值对该样本的同类近邻和异类近邻进行划分,其中异类近邻划分时,需要在此随机选取的样本的标记集所有未出现的类别标记下,将同一数据样本与该样本的标记相关性值相加,根据相加后值的排序选择得到所选数据样本的异类近邻;
4)根据随机选取的样本与其对应同类近邻和异类近邻在每个特征上的距离按照权重更新公式计算各特征权重值,按照各特征权重值的排序选择最优特征子集。


2.根据权利要求1所述的多标记数据的特征选择方法,其特征在于,所述步骤2)中两个数据样本间的标记相关性值linki,j的计算公式为:






其中LSi为样本xi所拥有的标记集,LSj为样本xj所拥有的标记集,I(LSi,LSj)为标记集LSi和标记集LSj的互信息,为连接系数。


3.根据权利要求1或2所述的多标记数据的特征选择方法,其特征在于,所述的特征权重值计算...

【专利技术属性】
技术研发人员:孙林施恩惠秦铮谭淑月曾祥师殷腾宇黄金旭王天翔王欣雅张玖肖
申请(专利权)人:河南师范大学
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1