基于L21范数的不完整数据集下特征选择方法技术

技术编号：40184032 阅读：3 留言：0更新日期：2024-01-26 23:49

本发明专利技术适用于特征选择技术领域，提供了基于L21范数的不完整数据集下特征选择方法，包括：无需对不完整数据集进行缺失填充；该算法设计通过引入特征选择中的样本重要性概念——指示矩阵，构建了基于标签信息的指示矩阵与稀疏约束下的特征选择框架，使用类间散度与类内散度矩阵来衡量不同类标签样本的距离，本发明专利技术中引入了样本重要性概念——指示矩阵，并利用哈达玛积将其与数据集X有机地结合起来，对数据集中的可观测信息进行分析，避免了传统的填充方法会给数据集引入偏差的缺陷，使该算法可以直接应用于不完整数据集；之后构建了基于标签信息的指示矩阵与稀疏约束下的特征选择框架，利用范数的行稀疏特性进行特征选择，最终选择了出更重要的特征。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于特征选择，尤其涉及基于l21范数的不完整数据集下特征选择方法。

技术介绍

1、目前，在不完整数据集上进行特征选择一般有两种方法：(a)使用删除或填充的方式将数据集转换为完整的数据集再进行特征选择、(b)直接在缺失数据集上进行特征选择。

2、处理缺失数据最简单易行的办法是完整样本分析，即删除包含缺失值的样本或特征。该方法简单易行，但在缺失样本比例较高和样本总量较小时有很大的局限性。对缺失位置进行填充是另一种较为直接的缺失数据处理方法，应用普遍的是均值填充。均值填充是指以特征观测值的均值作为缺失值的估计值，但该方法会使特征或方差的不确定性减小。另一种基于统计学的填充方法是期望最大化填补法，该方法通过现有数据的边缘分布对缺失数据进行极大似然估计，进而得到相应的填补值。也有学者提出了k近邻填充，该方法基于近邻样本的特征值相近的假设，以近邻样本的均值作为缺失值的估计值。近邻填充的关键在于准确地度量近邻关系，这也带来了一些不足：不同的特征在相似度度量中的重要性是不同的，而k近邻填充中的距离计算将所有特征同等对待；当数据特征数目较多即在高维特征空间中时，样本分布趋于均匀，此时距离并不能反映样本相似性。

3、此外，人们提出了几种不需要预先处理缺失值，直接对不完整数据集进行特征选择的方法。也有学者提出了基于类间隔的特征选择算法。对于缺失导致的近邻关系不确定问题，该算法的创新之处是计算所有样本是某个样本的近邻样本的概率而不是直接确定某个样本的近邻样本，以类间隔的期望代替类间隔，定义了基于类间隔的目标函数。实验结

4、在此基础上，人们提出了一种期望k近邻间距最大化的特征选择算法，该算法能够直接对含有缺失的数据进行特征选择。其基本思想是对于最近邻特征缺失导致的类间隔无法计算问题，以k近邻均值类间隔的方法计算类间隔。该算法能够筛除更多无关特征，以该算法选择的特征建立的分类模型，分类准确率更高。

技术实现思路

1、本专利技术提供基于l21范数的不完整数据集下特征选择方法，旨在解决上述的问题。

2、本专利技术是这样实现的，基于l21范数的不完整数据集下特征选择方法，包括：无需对不完整数据集进行缺失填充；该算法设计通过引入特征选择中的样本重要性概念——指示矩阵，构建了基于标签信息的指示矩阵与稀疏约束下的特征选择框架，使用类间散度与类内散度矩阵来衡量不同类标签样本的距离，从而对不完整数据集直接进行特征选择。

3、优选的，所述的样本重要性概念——指示矩阵，其特征在于它可筛选出数据集中的可观测数据，设置定义为：

4、对于给定的不完整数据集x，定义指示矩阵i，其中in(j)反映第n个实例的第j个特征的缺失情况，元素取值如式(1)所示，当xn(j)可观测时对应位置取1，当xn(j)缺失时对应位置取0。

5、

6、使用哈达玛积将数据集x与指示矩阵i有机地结合起来，充分利用不完整数据集中的可观测信息。

7、优选的，所述的基于标签信息的指示矩阵，代替以往方法中繁琐的距离计算，利用矩阵来衡量不同类标签样本的距离。设置定义为：

8、对于所述权利要求2中的不完整数据集x，其标签集为y＝[y1,y2,...,yn]∈rn×1，定义类标签指示矩阵c，如式(2)所示：

9、

10、优选的，所述构建特征选择流程，具体步骤为：

11、(a)、首先将权利要求2所述的不完整数据集进行标准化处理；

12、(b)、根据权利要求2所述的式(1)计算指示矩阵；

13、(c)、根据权利要求3所述的式(2)计算类标签矩阵；

14、(d)、基于最大间隔准则构建目标函数；

15、(e)、根据交替迭代的方法优化目标函数，求得最优的投影矩阵w；

16、(f)、使用计算得到的w进行特征选择，分别计算w中每行的l2范数，对这些值进行降序排序，选择l2范数较大的行所对应的特征。

17、优选的，所述基于最大间隔准则构建目标函数，其特征是构建目标函数，具体步骤为：

18、(a)利用最大间隔准则构建有监督特征选择的目标函数，为了进行特征选择对其加入l2,1范数约束，如式(3)所示：

19、

20、其中h为单位阵，w为投影矩阵，sb为类间散度矩阵，sw为类内散度矩阵；

21、(b)结合类标签指示矩阵c和式(3)，可得，

22、

23、(c)为了将其直接应用于不完整数据集，在式(4)中加入权利要求2所述的指示矩阵i，可得，

24、

25、其中，为hadamard积，表示两个同样大小的矩阵按元素相乘；

26、(d)为了方便计算与表示，使用hadamard积，令至此得到目标函数为：

27、

28、优选的，所述式(2)其中t为数据集的总类数，xi为第i类的样本数。如果xn属于第i类，则否则为0。

29、与现有技术相比，本申请实施例主要有以下有益效果：

30、本专利技术中，引入了样本重要性概念——指示矩阵，并利用哈达玛积将其与数据集x有机地结合起来，对数据集中的可观测信息进行分析，避免了传统的填充方法会给数据集引入偏差的缺陷，使该算法可以直接应用于不完整数据集；之后构建了基于标签信息的指示矩阵与稀疏约束下的特征选择框架，利用l2,1范数的行稀疏特性进行特征选择，最终选择了出更重要的特征。

本文档来自技高网...

【技术保护点】

1.基于L21范数的不完整数据集下特征选择方法，其特征在于，包括：无需对不完整数据集进行缺失填充；该算法设计通过引入特征选择中的样本重要性概念——指示矩阵，构建了基于标签信息的指示矩阵与稀疏约束下的特征选择框架，使用类间散度与类内散度矩阵来衡量不同类标签样本的距离，从而对不完整数据集直接进行特征选择。

2.如权利要求1所述的基于L21范数的不完整数据集下特征选择方法，其特征在于，所述的样本重要性概念——指示矩阵，其特征在于它可筛选出数据集中的可观测数据，设置定义为：

3.如权利要求2所述的基于L21范数的不完整数据集下特征选择方法，其特征在于，所述的基于标签信息的指示矩阵，代替以往方法中繁琐的距离计算，利用矩阵来衡量不同类标签样本的距离。设置定义为：

4.如权利要求3所述的基于L21范数的不完整数据集下特征选择方法，其特征在于，所述构建特征选择流程，具体步骤为：

5.如权利要求4所述的基于L21范数的不完整数据集下特征选择方法，其特征在于，所述基于最大间隔准则构建目标函数，其特征是构建目标函数，具体步骤为：

6.如权利要

...

【技术特征摘要】

1.基于l21范数的不完整数据集下特征选择方法，其特征在于，包括：无需对不完整数据集进行缺失填充；该算法设计通过引入特征选择中的样本重要性概念——指示矩阵，构建了基于标签信息的指示矩阵与稀疏约束下的特征选择框架，使用类间散度与类内散度矩阵来衡量不同类标签样本的距离，从而对不完整数据集直接进行特征选择。

2.如权利要求1所述的基于l21范数的不完整数据集下特征选择方法，其特征在于，所述的样本重要性概念——指示矩阵，其特征在于它可筛选出数据集中的可观测数据，设置定义为：

3.如权利要求2所述的基于l21范数的不完整数据集下特征选择方法，其特征在于，所...

【专利技术属性】
技术研发人员：张应宪，宋刚，周健，鲁颖，郑礼文，
申请(专利权)人：南京科伊星信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人