一种利用因果机制灵活探索稀疏多标签特征选择的方法技术

技术编号：39962591 阅读：10 留言：0更新日期：2024-01-09 00:09

本发明专利技术公开了一种利用因果机制灵活探索稀疏多标签特征选择的方法，包括：S1、通过具有不同稀疏性诱导范数的普通最小二乘函数来最小化特征空间与标签空间之间的相关性误差；S2、通过灵活的稀疏范数来实现高稀疏的个性化特征和识别低冗余的共享公共特征；S3、将灵活的稀疏范数的γ和λ设为等价，提高灵活的稀疏范数的计算效率，使用全局二阶标签相关正则化器重构步骤S1中通过不同稀疏性诱导范数的普通最小二乘函数来最小化特征空间与标签空间之间的相关性误差的过程；S4、引入因果机制来发现特征和标签之间的相关性，得到一组因果权值，步骤S3被重新表述得到目标函数；S5、基于交替乘子的松弛更新步骤S4得到目标函数，以获得全局最优解。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及特征选择，尤其是涉及一种利用因果机制灵活探索稀疏多标签特征选择的方法。

技术介绍

1、在多标签数据中，每个实例可能有多个相互依存的标签。为此，使用多标签学习来寻找合适的映射函数来预测训练集中每个未见实例的多个标签。然而，随着标签数量的增加，预测标签的组合数量呈指数增长。为了解决这个问题，出现了许多多标签特征选择方法。其中，大量研究利用在多标签数据处理中起着至关重要作用的特征选择技术，从高维数据中寻找具有最优判别信息的特征子集，以减少计算量，提高分类性能。

2、现有的特征选择方法采用三种方案来选择性判别特征子集，即过滤法、包装法和嵌入法，其中基于嵌入的方法使用稀疏的模型融合前两种方案来正则化结构信息，现有研究表明不同的范数在特征选择过程中发挥着重要的作用，lasso范数在处理过程中可以获得每个标签的个性化特征，多标签问题中l2,1-norm范数可以从原始特征空间中为所有标签挖掘共享的共同特征。但是，这些方法由于其使用的范数而存在严重缺陷。例如，当特征数量大于实例数量时，基于lasso范数的多标签特征选择方法会选择大量缺乏区分度的特征。l2,1-norm忽略了特征之间的冗余相关性，使得所选的共享共同特征包含大量冗余信息。此外，采用这些方案的现有方法虽然考虑了标签之间的相关性来搜索特征与标签之间的相关性，但忽略了特征与标签之间的因果机制，使得现有方法缺乏可解释性。

技术实现思路

1、本专利技术的目的是提供一种利用因果机制灵活探索稀疏多标签特征选择的方法，通过探索

2、为实现上述目的，本专利技术提供了一种利用因果机制灵活探索稀疏多标签特征选择的方法，包括以下步骤：

3、s1、通过具有不同稀疏性诱导范数的普通最小二乘函数来最小化特征空间与标签空间之间的相关性误差；

4、s2、通过灵活的稀疏范数来实现高稀疏的个性化特征和识别低冗余的共享公共特征；

5、s3、将步骤s2中得到的灵活的稀疏范数中正则化参数γ和λ设为等价，提高灵活的稀疏范数的计算效率，使用全局二阶标签相关正则化器，来重构步骤s1中具有不同稀疏性诱导范数的普通最小二乘函数，实现最小化特征空间与标签空间之间的相关性误差的目的；

6、s4、引入因果机制来确定特征和标签之间的相关性，得到一组因果权值，将步骤s3重新表述得到目标函数；

7、s5、基于交替乘子的松弛更新步骤s4得到的目标函数，以获得全局最优解。

8、优选的，步骤s1中，通过具有不同稀疏性诱导范数的普通最小二乘函数来最小化特征空间与标签空间之间的相关性误差的表达式为：

9、

10、其中，q(x,y)是一个损失函数，用来联合特征选择和因果机制，获得一组因果权值；x∈rn×d表示具有d个特征维度的n个实例组成的特征矩阵；y∈rn×l表示具有l个标签维度的n个实例的标签矩阵；diag(b)表示一组因果权值的对角矩阵；w表示权重矩阵；||w||*表示系数矩阵的不同的范式格式；τ是正则化参数；s.t.表示满足x＝xdiag(b)。

11、优选的，步骤s2中，灵活的稀疏范数的表达式为：

12、

13、其中，表示能够克服lasso范数固有问题的弹性网络；表示权重矩阵的内积正则化；β、λ、γ为正则化参数，β控制w的稀疏性，γ控制w的泛化能力，λ控制w的内积正则化强度；

14、其中，由下式得到：

15、

16、其中，tr表示求矩阵的迹；wi·表示权重矩阵第i行的所有元素，wj·表示权重矩阵第j行所有的元素。

17、优选的，步骤s3中，将γ和λ设为等价，得到如下表达式：

18、

19、全局二阶标签相关正则化器为：

20、

21、其中，lij＝1-sij；sij表示标签y·i和y·j之间的相关性，其中sij由标签y·i和yj·的余弦相似度计算得到；w·i表示权重矩阵第i列的所有元素，w·j表示权重矩阵第j列所有的元素。

22、优选的，步骤s3中，使用全局二阶标签相关正则化器重构步骤s1中具有不同稀疏性诱导范数的普通最小二乘函数来最小化特征空间与标签空间之间的相关性误差的过程，即将公式(1)重构为：

23、

24、其中，α控制二阶标签关联程度。

25、优选的，步骤s4中，目标函数为：

26、

27、其中，diag(b)旨在通过因果条件独立性检验获得一组特征和标签之间的因果权重。

28、优选的，步骤s5中，基于交替乘子的松弛更新步骤s4得到目标函数，以获得全局最优解，包括以下步骤：

29、s51、基于交替乘子的松弛更新目标函数：

30、

31、其中，θ(w)表示目标函数；

32、s52、将非负约束条件整合到θ(w)中：

33、

34、其中，表示拉格朗日乘子；

35、s53、对公式(9)中的w求导：

36、

37、其中，表示hadamard乘积；1d×d为d×d矩阵，其元素均为1；q∈rd×l用于松弛lasso范数，形式如下：

38、

39、其中，ε≥0；wij表示权重矩阵第i行j列的值，qij表示矩阵q第i行j列的值；

40、s54、利用kkt条件得：

41、

42、s55、得到w的更新规则如下：

43、

44、因此，本专利技术采用上述一种利用因果机制灵活探索稀疏多标签特征选择的方法，其技术效果如下：cmfs首先利用因果机制发现特征与标签之间的关系，然后得到一组因果权值；其次，cmfs通过引入基于因果权值的灵活正则化器实现高稀疏的个性化特征，识别低冗余的共享公共特征；在多个真实世界的多标签数据集上进行的大量实验表明，与最先进的方法相比，cmfs取得了显着的性能。

45、下面通过附图和实施例，对本专利技术的技术方案做进一步的详细描述。

本文档来自技高网...

【技术保护点】

1.一种利用因果机制灵活探索稀疏多标签特征选择的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种利用因果机制灵活探索稀疏多标签特征选择的方法，其特征在于，步骤S1中，通过具有不同稀疏性诱导范数的普通最小二乘函数来最小化特征空间与标签空间之间的相关性误差的表达式为：

3.根据权利要求2所述的一种利用因果机制灵活探索稀疏多标签特征选择的方法，其特征在于，步骤S2中，灵活的稀疏范数的表达式为：

4.根据权利要求3所述的一种利用因果机制灵活探索稀疏多标签特征选择的方法，其特征在于，步骤S3中，将γ和λ设为等价，得到如下表达式：

5.根据权利要求4所述的一种利用因果机制灵活探索稀疏多标签特征选择的方法，其特征在于，步骤S3中，使用全局二阶标签相关正则化器重构步骤S1中具有不同稀疏性诱导范数的普通最小二乘函数来最小化特征空间与标签空间之间的相关性误差的过程，即将公式(1)重构为：

6.根据权利要求5所述的一种利用因果机制灵活探索稀疏多标签特征选择的方法，其特征在于，步骤S4中，目标函数为：

7.根据权利要求

...

【技术特征摘要】

1.一种利用因果机制灵活探索稀疏多标签特征选择的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种利用因果机制灵活探索稀疏多标签特征选择的方法，其特征在于，步骤s1中，通过具有不同稀疏性诱导范数的普通最小二乘函数来最小化特征空间与标签空间之间的相关性误差的表达式为：

3.根据权利要求2所述的一种利用因果机制灵活探索稀疏多标签特征选择的方法，其特征在于，步骤s2中，灵活的稀疏范数的表达式为：

4.根据权利要求3所述的一种利用因果机制灵活探索稀疏多标签特征选择的方法，其特征在于，步骤s3中，将γ和λ设为等价，得到如下表达式：<...

【专利技术属性】
技术研发人员：高万夫，高珺，李永豪，郝娉婷，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人