【技术实现步骤摘要】
一种融合熵、方差和相关系数的权重分配特征评估与选择方法及计算机设备
[0001]本专利技术属于机器学习和数据挖掘
,特别涉及一种融合熵
、
方差和相关系数的权重分配特征评估与选择方法及计算机设备
。
技术介绍
[0002]特征选择是机器学习和数据挖掘中的一个重要任务,它旨在从原始数据中选择最相关
、
最有信息量的特征,以提高模型的性能和解释能力
。
特征选择技术在降低维度
、
消除冗余
、
提高模型训练效率和减少过拟合等方面具有重要作用
。
[0003]现有的特征选择技术主要包括以下几个类别,即过滤式特征选择
(Filter feature selection)
,包裹式特征选择
(Wrapper feature selection)
,嵌入式特征选择
(Embedded feature selection)。
过滤式方法独立于具体的机器学习算法,通过对特征进行评估和排序来选择特征
。
常用的评估指标包括方差
、
互信息
、
相关系数等
。
过滤式方法的优点是计算效率高,可以快速筛选出相关性较高的特征,但无法考虑特征与分类目标的交互作用
。
包裹式方法将特征选择作为一个子问题嵌入到特定的机器学习算法中
。
它通过搜索特征子集并使用评估指标来评估子集的性能,以选择最佳的
【技术保护点】
【技术特征摘要】
1.
一种融合熵
、
方差和相关系数的权重分配特征评估与选择方法,其特征在于,包括如下步骤:
S1
,确定需要进行特征选择的数据集
A
;
S2
,对
A
数据进行样本的划分;
S3
,基于
Spearman
相关系数,计算
S2
中每类样本每个特征的相关系数;
S4
,计算
S2
中每类样本每个特征的方差;
S5
,计算
S2
中每类样本每个特征的熵;
S6
,将
S3、S4、S5
中得到的特征指标进行缩放后再进行权重分配;
S7
,递归添加特征,选择出最重要的特征集合
。2.
根据权利要求1所述的一种融合熵
、
方差和相关系数的权重分配特征评估与选择方法,其特征在于,所述
S1
中,首先确定需要进行特征提取的数据集
A
,
A
含有高维的特征以及细分的标签类别
。3.
根据权利要求1所述的一种融合熵
、
方差和相关系数的权重分配特征评估与选择方法,其特征在于,所述
S2
中具体实现包括:假设
A
数据集中有
n
种不同的样本类型,且其中只有一类正类,其他类别统一称为负类;将
A
数据集按照标签进行划分,得到样本集合
A1,A2,
…
,A
n
。4.
根据权利要求3所述的一种融合熵
、
方差和相关系数的权重分配特征评估与选择方法,其特征在于,所述
S3
中具体实现包括:步骤
3.1
:对于
A1,A2,
…
,A
n
中的每一中样本
A
i
,使用
Spearman
特征选择技术,衡量特征与标签之间的单调相关程度,计算出
A
i'
中每一个特征的
Spearman
相关系数,其中,
Spearman
相关系数的计算公式如下所示:其中,
ρ
表示
Spearman
相关系数,
d
i
表示每对变量在等级上的差异,
n
表示样本数量;步骤
3.2
:规格化
Spearman
相关系数;由于
Spearman
相关系数的取值范围是
[
‑
1,1]
之间的任意值,而
Spearman
相关系数为0的时候代表变量之间不存在明显单调关系,且越接近两头代表相关性越高,因此,对
ρ
做如下处理:其中,
ρ
i
表示每一个特征的
ρ
值;步骤
3.3
:根据
ρ
的大小关系将特征进行排序,
ρ
越大,则特征与其标签之间的关系越大,代表特征重要性越强,对于每一类样本
i
,返回排序后的特征与等级分数的字典
R1
i
,
i
=1,2,
3...n
;步骤
3.4
:将所有样本的特征与等级分数字典放入统一的字典中,最终获得相关系数指标下的所有类型样本的特征与
ρ
的字典
R1
,即,
R1
=
R11∪R12∪
…
∪R1
n
。
5.
根据权利要求4所述的一种融合熵
、
方差和相关系数的权重分配特征评估与选择方法,其特征在于,所述
S4
中具体实现包括:步骤
4.1
:对于
A1,A2,
…
,A
n
中的每一中样本
A
i
,计算
A
i
中每一个特征的方差,其公式如下:其中,
x
ij
表示第
j
个样本在第
i
个特征上的取值,表示第
i
个特征在整个数据集上的均值,
N
表示该特征下的样本总数;步骤
4.2
:根据方差的大小进行排序,方差越大的数据分布越复杂信息量更多,返回特征与方差的字典
R2
i
,
i
=1,2,
3...n
;步骤
4.3
:将所有样本的特征与方差字典放入统一的字典中,最终获得方差指标下的所有类型样本的特征与方差的字典
R2
,即:
R2
=
R21∪R22∪
…
∪R2
n
。6.
根据权利要求5所述的一种融合熵
、
方差和相关系数的权重分配特征评估与选择方法,其特征在于,所述
S5
中具体实现包括:步骤
5.1
:对于
A1,A2,
…
,A
n
中的每一中样本
A
i
,计算
A
i
中每一个特征的熵,其公式如下:其中,
X
j
表示特征
j
,
x
表示特征
X
j
的取值,
P(x)
表示特征
X
j
取值为
x
的概率
。
步骤
5.2
:根据熵的大小进行排序,熵越大的特征所含信息量更丰富,返回特征与其熵的字典
R3
i
,
i
=1,2,
3...n
,如果出现负熵,直接丢弃该特征;步骤
5.3
:将所有样本的特征与熵字典放入统一的字典中,最终获得熵指标下的所有类型样本的特征与熵的字典
R3
,即:
R3
=
R31∪R32∪
…
∪R3
n
。7.
根据权利要求6所述的一种融合熵
、
方差和相关系数的权重分配特征评估与选择方法,其特征在于,所述
S6
中具体实现包括:步骤
6.1
:对于集合
A1,A2,
…
,A
n
中每种样本的
A
i
,取出其特征的三个指标字典
R1
i
,
R2
i
,
R3
i
,即对于
A
i'
中的每一个特征
j
,令,
score
j
=
k
1 r1 R1
j
+k
2 r2R2
j
+k
3 r3 R3
j
;其中,
k1,k2,k3分别表示每个特征在
R1
,
R2
,
R3
所对应指标中分配的权重;这个权重是根据指标重要性自行指定的定值,且
k1+k2+k3=1;
r1
,
r2
,
r3
为缩放比例系数,将过大或者过小的指标进行缩放,使得三个指标具有相似的数值范围,缩放比例可以根据指标的数值大小进行指定;步骤
6.2
:根据步骤
6.1
公式,对集合
A1,A2,
…
,A
n
中每一中样本
A
i
,可以获得
A
i
中每一个特征的综合得分
score
,根据综合得分
score
,对
A
i
中的每个特征进行最终排名,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。