一种多标记数据的特征选择方法、终端设备及存储介质技术

技术编号：40005203 阅读：11 留言：0更新日期：2024-01-09 04:50

本发明专利技术涉及一种多标记数据的特征选择方法、终端设备及存储介质，该方法中包括：采用最大熵模型构建用于特征选择的目标函数；通过对目标函数进行求解，得到特征空间中各特征对应的映射参数的大小；基于映射参数的大小进行特征选择。本发明专利技术利用标记间的线性相关性在输出空间上构建它们所共享的类属特征关系，并使用标记分布互信息分析得到的特征权重来为特征赋权。此外还使用了稀疏范式来选出在整个标记空间上都具有较强分类能力的共有特征，提高了算法的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据处理领域，尤其涉及一种多标记数据的特征选择方法、终端设备及存储介质。

技术介绍

1、在大数据时代，样本的特征空间维度呈现指数级增长趋势,具有细粒度描述范式的标记分布数据也面临着这一问题。由于特征选择可以通过去除冗余特征找到有效特征来降低特征维度并提高分类性能，近年来已有针对标记分布数据的特征选择专用算法提出。然而，现有算法没能充分利用专用算法框架下的标记关联信息来挖掘共享类属特征，且忽略了特征空间与标记分布空间之间潜在的监督信息。

技术实现思路

1、为了解决上述问题，本专利技术提出了一种多标记数据的特征选择方法、终端设备及存储介质。

2、具体方案如下：

3、一种多标记数据的特征选择方法，包括以下步骤：

4、采用最大熵模型构建用于特征选择的目标函数：

5、t(θ)＝l(θ)+αφ(θ)+βγ(θ)+γυ(θ)

6、其中，θ表示特征与标记之间相关度的映射参数矩阵，l(θ)表示损失函数，φ(θ)表示稀疏项，γ(θ)表示标记关联项，υ(θ)表示加权特征项，α、β和γ分别表示稀疏项、标记关联项和加权特征项的平衡参数；

7、通过对目标函数进行求解，得到特征空间中各特征对应的映射参数的大小；

8、基于映射参数的大小进行特征选择。

9、进一步的，稀疏项采用l21范数来学习特征。

10、进一步的，在稀疏项的求解中，将其改写为下式：

11、φ(θ)＝tr(θtdθ)

12、其中，tr(.)表示矩阵的迹，上标t表示矩阵的转置，d表示对角矩阵，其对角线元素为的对角矩阵，dkk表示对角矩阵d的第k行第k列，θk表示映射参数矩阵θ的第k行，k∈[1,d]表示特征序号，d表示特征数，||·||2表示l2范数，ε表示一个较小的正数。

13、进一步的，标记关联项的计算公式为：

14、

15、其中，pij表示样本xi第j个标记描述度的预测值，pil表示样本xi第l个标记描述度的预测值，rjl表示第j个标记和第l个标记的皮尔逊倾向关系，i表示样本的序号，n表示样本数，j和l均表示标记的序号，c表示标记数。

16、进一步的，加权特征项通过标记分布互信息进行度量；

17、连续型特征向量与标记分布向量的互信息icc(x·m,d·l)采用以下公式进行计算：

18、

19、其中，x·m表示所有样本在第m个连续型特征的取值构成的向量，d·l表示所有样本在第l个标记的取值构成的向量，t表示近邻数，n表示样本数，表示满足条件|xim-xi′m|＜zi,i′＝1,2,...,n的样本数，xim表示第i个样本在第m个连续型特征的取值，xi′m表示第i′个样本在第m个连续型特征的取值，zi表示第i个样本xi到其第t个最近样本的距离，表示满足条件|dil-di′l|＜zi,i′＝1,2,...,n的样本数，dil表示第i个样本xi在第l个标记的描述度，di′l表示第i′个样本xi′在第l个标记的描述度，ψ(·)表示digamma函数；

20、离散特征向量与标记分布向量的互信息idc(x·r,d·l)采用以下公式进行计算：

21、

22、其中，x·r表示所有样本在第r个离散特征的取值构成的向量，表示在向量x·r上与样本xi取值一致的样本个数，设si表示与样本xi具有相同离散特征值的样本中与样本xi最近的第t个特征的距离，则hi表示与样本xi的距离小于si的样本数；

23、基于连续型特征向量与标记分布向量的互信息icc(x·m,d·l)和离散特征向量与标记分布向量的互信息idc(x·r,d·l)，构建互信息矩阵m，其中的元素mkj表示第k个特征与第j个标记的互信息值；

24、基于互信息矩阵m，构建加权特征项υ(θ)：

25、

26、其中，diag(·)表示取矩阵对角线的元素，||·||2表示l2范数，上标t表示矩阵的转置。

27、进一步的，损失函数基于kl散度进行构建。

28、进一步的，通过拟牛顿法对目标函数进行求解。

29、一种多标记数据的特征选择终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本专利技术实施例上述的方法的步骤。

30、一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本专利技术实施例上述的方法的步骤。

31、本专利技术采用如上技术方案，利用标记间的线性相关性在输出空间上构建它们所共享的类属特征关系，并使用标记分布互信息分析得到的特征权重来为特征赋权。此外还使用了稀疏范式来选出在整个标记空间上都具有较强分类能力的共有特征，提高了算法的鲁棒性。

本文档来自技高网...

【技术保护点】

1.一种多标记数据的特征选择方法，其特征在于，包括：

2.根据权利要求1所述的多标记数据的特征选择方法，其特征在于：稀疏项采用L21范数来学习特征。

3.根据权利要求2所述的多标记数据的特征选择方法，其特征在于：在稀疏项的求解中，将其改写为下式：

4.根据权利要求1所述的多标记数据的特征选择方法，其特征在于：标记关联项的计算公式为：

5.根据权利要求1所述的多标记数据的特征选择方法，其特征在于：加权特征项通过标记分布互信息进行度量；

6.根据权利要求1所述的多标记数据的特征选择方法，其特征在于：损失函数基于KL散度进行构建。

7.根据权利要求1所述的多标记数据的特征选择方法，其特征在于：通过拟牛顿法对目标函数进行求解。

8.一种多标记数据的特征选择终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～7中任一所述方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特

...

【技术特征摘要】

1.一种多标记数据的特征选择方法，其特征在于，包括：

2.根据权利要求1所述的多标记数据的特征选择方法，其特征在于：稀疏项采用l21范数来学习特征。

3.根据权利要求2所述的多标记数据的特征选择方法，其特征在于：在稀疏项的求解中，将其改写为下式：

4.根据权利要求1所述的多标记数据的特征选择方法，其特征在于：标记关联项的计算公式为：

5.根据权利要求1所述的多标记数据的特征选择方法，其特征在于：加权特征项通过标记分布互信息进行度量；

6.根据权利要求1所述的多标记数据的特...

【专利技术属性】
技术研发人员：林耀进，林士栋，毛煜，
申请(专利权)人：闽南师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人