一种基于动态流标签的多标签特征选择方法技术

技术编号：39679572 阅读：13 留言：0更新日期：2023-12-11 18:57

本发明专利技术涉及一种基于动态流标签的多标签特征选择方法

全部详细技术资料下载

【技术实现步骤摘要】
一种基于动态流标签的多标签特征选择方法、设备及介质

[0001]本专利技术涉及数据处理领域，尤其涉及一种基于动态流标签的多标签特征选择方法
、
设备及介质
。

技术介绍

[0002]多标签特征选择作为一种有效的降维技术，吸引了广泛的关注，因为它可以解决样本属于多个标签和特征空间高维度的问题
。
与传统的特征选择相比，多标签特征选择可以更好地适应实际应用场景的需求
。
[0003]在传统的多标签特征选择的研究中，一个基本的假设是在特征选择之前就提前得到所有的标签
。
然而，在许多实际应用场景中，显然不现实且代价高昂去获取所有的标签
。
相反，更常见的情况是标签可能以流式模式逐个到达，并且在学习之前我们无法知道准确的标签数量
。
例如，在事件检测任务中，被早期检测系统排除的新事件需要及时检查
。
在许多社交网络系统中，如
Facebook
和
MySpace
的帖子中，热门话题
(
标签
)
每天都在不断变化
。
[0004]目前，已经有一些算法尝试在标签流环境中进行特征选择
。
这类方法的主要思想是通过获取每个独立的流标签的类属特征，并利用融合策略实现类属特征的融合
。
尽管这些方法可以获得令人满意的预测结果，但它们往往假设流媒体标签相互无关，这是一个与现实不一致的理想化假设
。r/>在实践中，我们观察到标签是相互关联和相互影响的
。
例如，在一张被标为“草”和“帐篷”的照片中，它很有可能也会被贴上“户外”的标签
。
同样地，如果有“大象”和“狮子”的标签，那么“非洲”的标签很可能也会联系在一起
。
虽然许多关于多标签学习的研究已经证实，利用标签相关性可以为学习任务提供有价值的额外信息，但它们通常以静态的方式利用标签相关性，不能直接适用于流标签环境
。
[0005]同时，标签随时间动态增加时，很难捕捉到标签的不同重要性
。
通常，每个标签的重要程度本质上是不同的
。
例如，一篇新闻文档可以同时使用“体育”和“足球”等标签注释，这些标签在描述文档语义方面的重要性因主题的长度而异
。
类似的情况也发生在其他任务中，例如面部表情识别和年龄估计
。
因此，区分和揭示不同标签的相对重要性是至关重要的
。
目前，已经开发了许多方法，通过提取标签重要性等有价值的信息来促进特征选择
。
然而，这些方法在获得了完整的标签空间的假设下估计了标签的相对重要性，这不能很好地推广到流数据上
。

技术实现思路

[0006]为了解决上述问题，本专利技术提出了一种基于动态流标签的多标签特征选择方法
、
设备及介质
。
[0007]具体方案如下：
[0008]一种基于动态流标签的多标签特征选择方法，包括以下步骤：
[0009]S1
：基于多标签数据中各样本在特征空间上的邻域及正邻域集和负邻域集，计算当前到达标签相对于各样本的细描述度；
[0010]S2
：结合各历史到达标签细描述度，计算当前到达标签相对于各样本的相对标签重要性程度；
[0011]S3
：结合各历史到达标签的相对标签重要性程度，计算当前到达标签的隐形标签重要性程度；
[0012]S4
：计算关于特征空间内的每个特征，当前到达标签和各历史到达标签之间的标签相关性和特征相关性影响因子；
[0013]S5
：基于标签相关性和特征相关性影响因子，计算当前到达标签的增强特征相关性和特征冗余；
[0014]S6
：将增强特征相关性于特征冗余的差值最大作为目标函数，构建优选特征集，每次迭代后随机选择特征空间内的一个特征添加至优选特征集中，输出满足目标函数的优选特征集；
[0015]S7
：基于各到达标签对应的优选特征集中的各特征至特征空间的映射构建初始映射策略；结合各到达标签的初始映射策略和隐形标签重要性程度，构建最终映射策略；
[0016]S8
：将当前到达标签通过最终映射策略映射后的向量中的各元素的值按照从大到小的顺序排序，基于排序结果选择其中值最大的前
N
个特征组成已选特征集；
[0017]S9
：重复步骤
S1
‑
S8
，直至当前到达标签为多标签数据中的最后一个到达标签时，将所有到达标签对应的已选特征集进行融合，得到最终特征集输出
。
[0018]进一步的，当前到达标签
L
t
相对于样本
x
i
的细描述度的计算公式为：
[0019][0020]其中，表示样本
x
i
的正邻域集，表示样本
x
i
的负邻域集，
θ
F
(x
i
)
表示样本
x
i
在特征空间上的邻域，
|.|
表示取集合内元素的个数，表示正标签，表示负标签
。
[0021]进一步的，当前到达标签
L
t
相对于样本
x
i
的相对标签重要性程度的计算公式为：
[0022][0023]其中，表示当前到达标签
L
t
相对于样本
x
i
的细描述度，
A
表示当前到达的所有标签的集合，
|.|
表示取集合内元素的个数，
k
表示历史到达标签的序号，表示历史到达标签
L
k
相对于样本
x
i
的细描述度
。
[0024]进一步的，当前到达标签
L
t
的隐性标签重要性
Imp(L
t
)
的计算公式为：
[0025][0026]其中，
i
表示样本的序号，
n
表示样本的总数，表示当前到达标签
L
t
相对于样本
x
i
的相对标签重要性程度，
A
表示当前到达的所有标签的集合，
|.|
表示取集合内元素的个数，
k
表示历史到达标签的序号，表示历史到达标签
L
k
相对于样本
x
i
的相对标签重要性程度
。
[0027]进一步的，关于特征空间内的特征
F
i
，当前到达标签
L
t...

【技术保护点】

【技术特征摘要】
1.
一种基于动态流标签的多标签特征选择方法，其特征在于，包括以下步骤：
S1
：基于多标签数据中各样本在特征空间上的邻域及正邻域集和负邻域集，计算当前到达标签相对于各样本的细描述度；
S2
：结合各历史到达标签细描述度，计算当前到达标签相对于各样本的相对标签重要性程度；
S3
：结合各历史到达标签的相对标签重要性程度，计算当前到达标签的隐形标签重要性程度；
S4
：计算关于特征空间内的每个特征，当前到达标签和各历史到达标签之间的标签相关性和特征相关性影响因子；
S5
：基于标签相关性和特征相关性影响因子，计算当前到达标签的增强特征相关性和特征冗余；
S6
：将增强特征相关性于特征冗余的差值最大作为目标函数，构建优选特征集，每次迭代后随机选择特征空间内的一个特征添加至优选特征集中，输出满足目标函数的优选特征集；
S7
：基于各到达标签对应的优选特征集中的各特征至特征空间的映射构建初始映射策略；结合各到达标签的初始映射策略和隐形标签重要性程度，构建最终映射策略；
S8
：将当前到达标签通过最终映射策略映射后的向量中的各元素的值按照从大到小的顺序排序，基于排序结果选择其中值最大的前
N
个特征组成已选特征集；
S9
：重复步骤
S1
‑
S8
，直至当前到达标签为多标签数据中的最后一个到达标签时，将所有到达标签对应的已选特征集进行融合，得到最终特征集输出
。2.
根据权利要求1所述的基于动态流标签的多标签特征选择方法，其特征在于：当前到达标签
L
t
相对于样本
x
i
的细描述度的计算公式为：其中，表示样本
x
i
的正邻域集，表示样本
x
i
的负邻域集，
θ
F
(x
i
)
表示样本
x
i
在特征空间上的邻域，
|.|
表示取集合内元素的个数，表示正标签，表示负标签
。3.
根据权利要求1所述的基于动态流标签的多标签特征选择方法，其特征在于：当前到达标签
L
t
相对于样本
x
i
的相对标签重要性程度的计算公式为：其中，表示当前到达标签
L
t
相对于样本
x
i
的细描述度，
A
表示当前到达的所有标签的集合，
|.|
表示取集合内元素的个数，
k
表示历史到达标签的序号，表示历史到达标签
L
k
相对于样本
x
i
的细描述度
。4.
根据权利要求1所述的基于动态流标签的多标签特征选择方法，其特征在于：当前到达标签
L
t
的隐性标签重要性
Imp(L
t
)
的计算公式为：其中，
i
表示样本的序号，
n
表示样本的总数，表示当前到达标签
L
t
相对于样本
x
i
的相对标签重要性程度，
A
表示当前到达的所有标签的集合，
|.|
表示取集合内元素的个数，
k
表示历史到达标签的序号，表示历史到达标签
L
k
相对于样本
x
i
的相对标签重要性程度
。5.
根据权利要求1所述的基于动态流标签的多标签特征选择方法，其特征在于：关于特征空间内的特征
F
i
，当前到达标签
L
t
与历史到达标签
L
k
之间的标签相关性
Lco(F
i
，
L
t
，
L
k
)
的计算公式设定为：
Lco(F
i
，
L
t
，
L
k
)
＝
I(F
i
；
L
t
|L
k
)
‑
I(F
i
；
L
t
)
其中，
I(F
i
；
L
t
...

【专利技术属性】
技术研发人员：刘景华，魏威，杨丽洁，张洪博，
申请(专利权)人：华侨大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人