当前位置: 首页 > 专利查询>重庆大学专利>正文

一种半监督特征选择方法、系统、介质、设备及终端技术方案

技术编号:33775609 阅读:37 留言:0更新日期:2022-06-12 14:28
本发明专利技术属于机器学习和数据挖掘技术领域,公开了一种半监督特征选择方法、系统、介质、设备及终端,通过使用NLS评估缺少标签的数据集的局部数据结构,使用MIC计算标签和特征的相关性,利用数据集中的少量标签信息;根据邻域和标签之间的冲突比率自适应地组合NLS和MIC,确定特征的NMScore,从而评估重要性。本发明专利技术通过将自然邻融入半监督拉普拉斯方法改进产生自然拉普拉斯方法,能够对数据的局部数据结构有着更高的灵敏度;使用MIC进行标签与特征的相关性评估,并创新性的使用冲突系数进行两者的加权结合,得到最终的NM得分,使用该得分进行特征重要性排序能够很好的评估特征重要性,整个方法拥有更高的性能和效率。整个方法拥有更高的性能和效率。整个方法拥有更高的性能和效率。

【技术实现步骤摘要】
一种半监督特征选择方法、系统、介质、设备及终端


[0001]本专利技术属于机器学习和数据挖掘
,尤其涉及一种半监督特征选择方法、系统、介质、设备及终端。

技术介绍

[0002]目前,特征选择是一种数据预处理方法,特征选择方法从原始特征集合中选出相关特征子集,提高学习算法的性能,是数据挖掘和机器学习任务的常用数据预处理手段。特征选择的作用可以提高学习模型的可解释性、减少学习时间、避免“维度灾难”。但传统的有监督特征选择方法都是针对有标签数据进行处理,当数据中出现大量标签缺失时,有监督特征选择方法不能很好的利用所有数据的信息,同时特征子集的评估能力急剧下滑。针对这种缺陷,需要进行半监督特征选择。
[0003]半监督特征选择算法主要可分为过滤式方法、包裹式方法和嵌入式方法。一般而言,包裹式方法的性能取决于使用的分类器的性能,且由于包裹式方法使用单个分类模型或集成模型来预测未标记数据的标签,因而包裹式方法的效率非常低下,而嵌入式方法也有着这个缺陷。相较于包裹式方法和嵌入式方法,过滤式方法的选择过程不需要使用分类模型,独立于分类模型进行,只考虑数据的结构,因而性能更好,同时还拥有优秀的特征子集评估能力。
[0004]通过上述分析,现有技术存在的问题及缺陷为:
[0005](1)传统的有监督特征选择方法都是针对有标签数据进行处理,当数据中出现大量标签缺失时,有监督特征选择方法不能很好的利用所有数据的信息,同时特征子集的评估能力急剧下滑。
[0006](2)由于包裹式方法使用单个分类模型或集成模型来预测未标记数据的标签,因而包裹式方法的效率非常低下。
[0007]解决以上问题及缺陷的难度为:数据集标签的大量缺失使得只利用了标签数据的分类器的性能大大降低,导致分类器欠拟合,无法达到预期效果。同时,过多的冗余特征导致分类器时间性能降低。而针对标签大量缺失的数据:金融领域相关的数据,通常有着维度极高的特点,同时由于数据的标签难以获取,导致数据集大都是缺少大量标签的数据集。通常的特征选择是一种数据预处理方法,特征选择方法从原始特征集合中选出相关特征子集,提高学习算法的性能,是数据挖掘和机器学习任务的常用数据预处理手段。特征选择的作用可以提高学习模型的可解释性、减少学习时间、避免“维度灾难”。但传统的有监督特征选择方法都是针对有标签数据进行处理,当数据中出现大量标签缺失时,有监督特征选择方法不能很好的利用所有数据的信息,同时特征子集的评估能力急剧下滑。
[0008]解决以上问题及缺陷的意义为:通过半监督特征选择算法找出一个子集,提高分类器的效率,同时利用无标签的数据,提高分类器的精度。当前在有着非常庞大且复杂的数据,而很多数据通常有着维度极高的特点,同时由于数据的标签难以获取,导致金融数据集大都是缺少大量标签的数据集。而金融相关的数据由于其内容敏感,获取难度大,样例的标
签很有可能会出现大量缺失。大量缺失的标签会对分类器的精确度有很大的影响。针对数据集中标签大量缺失的情况,研究半监督特征选择以提高后续任务的分类精度。通过将金融数据集输入半监督特征选择算法,根据后续分类器的需求提取出特征子集,使用该特征子集训练后续的分类器以使得分类器性能更高。

技术实现思路

[0009]针对现有技术存在的问题,本专利技术提供了一种半监督特征选择方法、系统、介质、设备及终端,尤其涉及一种基于自然拉普拉斯分数(NLS)和最大互信息系数(MIC)的新型半监督特征选择方法、系统、介质、设备及终端。
[0010]本专利技术是这样实现的,一种半监督特征选择方法,所述特征选择方法通过使用NLS评估缺少标签的数据集的局部数据结构,同时使用MIC计算标签和特征的相关性,利用数据集中的少量标签信息;根据邻域和标签之间的冲突比率自适应地组合NLS和MIC,确定特征的NM Score,从而评估重要性。
[0011]进一步,所述特征选择方法包括以下步骤:
[0012]步骤一,根据数据的领域与标签的信息计算冲突次数;
[0013]步骤二,计算冲突比例;
[0014]步骤三,判断每一个特征是否都被评估,当数据的所有特征都被评估后,进行特征排序,否则继续进行评估;
[0015]步骤四,分别计算数据的MIC得分和NL得分;
[0016]步骤五,计算数据的最终得分NM Score;
[0017]步骤六,根据所有特征各自的NM得分,进行特征重要性排序;
[0018]步骤七,返回特征重要性排序结果。
[0019]步骤一和步骤二用于对数据集的自适应,完成算法的无参化,无参的算法使得该算法的应用场景更加广泛,同时不需要进行大量的人力投入和设备投入进行参数的优化。步骤三对特征进行评估,评估分数用于最后的特征排序,特征评估的质量决定了特征选择算法的优劣,一个好的特征评估标准能够较为精准的对特征的重要性进行评估。步骤四和步骤五为评估标准,可以计算出特征的重要性程度,特征的重要性程度决定了其特征排序的地位,排序越靠前说明特征越重要。步骤六和步骤七的特征重要性排序为最终结果,可根据需要采用特征,提高分类器性能,采取不同大小的特征子集还可以提高分类器的效率,同时研究更多的实验方式。
[0020]进一步,所述步骤一中的计算冲突比例包括:
[0021]计算数据中领域与标签信息的冲突次数,所述冲突次数的计算方法为:
[0022]当两个样例标签相同且两个样例不属于对方的自然邻居,则记作一次冲突;
[0023]当两个样例标签不同且两个样例属于对方的自然邻居,则记作一次冲突;
[0024]冲突比例按照计算,c为冲突次数,|Y|2为标签数量的平方。
[0025]进一步,所述步骤四中的计算数据的NL得分包括:
[0026]将自然邻融入半监督拉普拉斯算法,对拉普拉斯矩阵的构造过程进行修改:
[0027][0028][0029]最终NL得分计算如下:
[0030][0031]其中,f
r
为第r个特征,L
w
和L
b
分别为类内拉普拉斯矩阵和类间拉普拉斯矩阵。
[0032]所述计算数据的MIC得分包括:
[0033]MIC得分是一种最大互信息系数,用于衡量标签和特征之间的相关性,通过以下公式进行计算:
[0034][0035]MIC(U,V)=max
uv≤B(n,α)
{m
u,v
}。
[0036]进一步,所述步骤五中的计算数据的最终得分NM Score包括:
[0037]NM得分使用NL得分和MIC得分进行加权相加而得,权重系数使用冲突比例,计算公式如下:
[0038]S
NM
(f
k
)=λMIC(f
k
)

(1

λ)NLS(f
k
)。
[0039]进一步,所述步骤六中的特征重要性排序包括:
...

【技术保护点】

【技术特征摘要】
1.一种半监督特征选择方法,其特征在于,所述特征选择方法通过使用NLS评估缺少标签的数据集的局部数据结构,同时使用MIC计算标签和特征的相关性,利用数据集中的标签信息;根据邻域和标签之间的冲突比率自适应地组合NLS和MIC,确定特征的NM Score,评估重要性。2.如权利要求1所述半监督特征选择方法,其特征在于,所述特征选择方法包括以下步骤:步骤一,根据数据的领域与标签的信息计算冲突次数;步骤二,计算冲突比例;步骤三,判断每一个特征是否都被评估,当数据的所有特征都被评估后,进行特征排序,否则继续进行评估;步骤四,分别计算数据的MIC得分和NL得分;步骤五,计算数据的最终得分NM Score;步骤六,根据所有特征各自的NM得分,进行特征重要性排序;步骤七,返回特征重要性排序结果。3.如权利要求2所述半监督特征选择方法,其特征在于,所述步骤一中的计算冲突比例包括:计算数据中领域与标签信息的冲突次数,所述冲突次数的计算方法为:当两个样例标签相同且两个样例不属于对方的自然邻居,则记作一次冲突;当两个样例标签不同且两个样例属于对方的自然邻居,则记作一次冲突;冲突比例按照计算,c为冲突次数,|Y|2为标签数量的平方。4.如权利要求2所述半监督特征选择方法,其特征在于,所述步骤四中的计算数据的NL得分包括:将自然邻融入半监督拉普拉斯算法,对拉普拉斯矩阵的构造过程进行修改:督拉普拉斯算法,对拉普拉斯矩阵的构造过程进行修改:最终NL得分计算如下:其中,f
r
为第r个特征,L
w
和L
b
分别为类内拉普拉斯矩阵和类间拉普拉斯矩阵;所述计算数据的MIC得分包括:MIC得分是一种最大互信息系数,用于衡量标签和特征之间的相关性,通过以下公式进行计算:
MIC(U,V)=max
uv≤B(n,α)
{m
u,v
}。5.如权利要求2所述半监督特征选择方法,其特征在于,所述步骤五中的计算数据的最终得分NM Score包括:NM得分使用NL得分和MIC得分进行加权相加而得,权...

【专利技术属性】
技术研发人员:孙建勋曾洁吴全旺龚彦鹭李德辉
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1