一种基于特权信息的特征选择方法技术

技术编号：22218677 阅读：53 留言：0更新日期：2019-09-30 01:09

本发明专利技术属于机器学习的特征选择领域，尤其涉及一种基于特权信息的特征选择方法。它包括以下步骤：步骤A：将定义的特权信息作为附加信息加入训练阶段的常规信息中；步骤B：根据常规信息和特权信息的分布关系进行三种不同情况的设置，形成训练样本和测试样本，进行交叉验证；步骤C：使用内核可分性方法作为特征选择函数，对步骤B所述样本中的非线性分布情况进行处理；步骤D：对步骤C所述目标函数，使用凹凸过程算法，选出最优特征子集，放入选定的算法框架比较性能得出结论。本发明专利技术将特权学习框架与嵌入式方法结合，提出了新的一种基于类可分性，运用特权信息的非线性特征选择方法，很好地衡量了不同分布样本之间的接近程度。

A Feature Selection Method Based on Privilege Information

全部详细技术资料下载

【技术实现步骤摘要】
一种基于特权信息的特征选择方法
本专利技术属于机器学习的特征选择领域，尤其涉及一种基于特权信息的特征选择方法。
技术介绍
近年来，计算机电子信息行业发展十分迅猛，数据的获取渠道越来越多，获取得到的数据不仅在数量上越来越多，在维度上也同样越来越大。为了更好获取海量数据中的信息，通常采用降维来消除数据中的噪声和冗余。特征选择由其较好的解释性成为许多实际应用的主流方法。监督特征选择大致可以分为过滤器模型，包装器模型和嵌入式模型。过滤器较为依赖训练数据，而包装器模型算法开销较大，故一般采用嵌入式模型来结合过滤器和包装器模型，在训练模型同时进行特征选择。特权信息学习框架是近年来提出的一种新的学习框架，它通过对仅用于训练阶段的特权信息的学习，来提高模型测试阶段的泛化能力。所谓特权信息被定为一些易获得、具有现实指导意义的信息，例如医学疾病预测的诊断结果，图像分类中图像的语义描述，网络分析中的详细用户行为信息等。其主要思想就是借鉴了人们在学习过程得到了老师的教授，从而加速了自己的学习速度而无须大量机械的练习这一现象，采用一些对于常规样本有促进意义的先验信息来加速训练。该方法框架由SVM+框架引入，目前已成功扩展到各种机器学习任务中，比如分类问题，回归问题，多标签学习问题，鲁棒学习和排序任务等。虽然特权信息学习框架对于训练有很大帮助，但极少有研究去结合特权学习框架进行特征选择的方案，主要是特权样本与常规样本之间的关系比较复杂，很难去衡量距离。如何很好的去衡量两组样本的关系并使得常规样本尽可能的靠近特权样本，由此实现训练加速也成为了一大难题。
技术实现思路
为了解决上述问题，本专...

【技术保护点】
1.一种基于特权信息的特征选择方法，其特征在于，包括以下步骤：步骤A：定义特权信息，然后将定义的特权信息作为附加信息加入训练阶段的常规信息中；步骤B：根据常规信息和特权信息的分布关系进行三种不同情况的设置：匹配、不匹配和部分匹配，形成训练样本和测试样本，进行交叉验证；步骤C：使用内核可分性方法作为特征选择函数，对步骤B所述样本中的非线性分布情况进行处理，根据常规信息和特权信息不同分布的情况，采取不同内核矩阵的对齐度量函数作为内核可分性特征选择函数的正则项，内核可分性特征选择函数和对齐度量函数两部分相结合形成目标函数；步骤D：对步骤C所述目标函数，使用凹凸过程算法，选出最优特征子集，放入选定的算法框架比较性能得出结论。

【技术特征摘要】
1.一种基于特权信息的特征选择方法，其特征在于，包括以下步骤：步骤A：定义特权信息，然后将定义的特权信息作为附加信息加入训练阶段的常规信息中；步骤B：根据常规信息和特权信息的分布关系进行三种不同情况的设置：匹配、不匹配和部分匹配，形成训练样本和测试样本，进行交叉验证；步骤C：使用内核可分性方法作为特征选择函数，对步骤B所述样本中的非线性分布情况进行处理，根据常规信息和特权信息不同分布的情况，采取不同内核矩阵的对齐度量函数作为内核可分性特征选择函数的正则项，内核可分性特征选择函数和对齐度量函数两部分相结合形成目标函数；步骤D：对步骤C所述目标函数，使用凹凸过程算法，选出最优特征子集，放入选定的算法框架比较性能得出结论。2.如权利要求1所述的一种基于特权信息的特征选择方法，其特征在于，步骤B不同情况的关系设置具体为：B1对于匹配情况，在训练阶段获得n对输入数据：其中xi∈X,yi∈{-1,+1}，此时常规信息xi,特权信息和标签yi组成一个三元组；B2对于不匹配情况，输入样本从两组样本中学习：{(x1,y1),(x2.y2),…,(xn,yn)},其中m是特权数据集的数量；B3对于一部分匹配一部分不匹配的部分匹配情况，将B1、B2两种情况相结合，训练样本分为三组：{(x1,y1),(x2.y2),…,(xn,yn)},3.如权利要求1所述的一种基于特权信息的特征选择方法，其特征在于，步骤C的具体展开为：步骤C1：对于基于类可分性的特征选择函数，它的主要思想是最大化类间散射矩阵与类内散射矩阵之间的比值，来衡量同一类样本的距离；首先修改基础类可分性函数,使其变为带有非线性映射函数φ的基于内核可分性函数，则特征选择函数形式改为：其中K＝φTφ代表对应的核函数，C代表种类数目，ni代表每个类中样本的个，||K||1代表1-范数运算；步骤C2：有了步骤C1所述特征选择函数之后，根据步骤B所确立的三种不同样本分组情况确定代表内核矩阵对齐程度的函数作为步骤C1所述特征选择函...

【专利技术属性】
技术研发人员：徐毅，浦剑，王骏，
申请(专利权)人：嘉兴深拓科技有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人