当前位置: 首页 > 专利查询>江苏大学专利>正文

一种融合熵制造技术

技术编号:39600348 阅读:16 留言:0更新日期:2023-12-03 20:00
本发明专利技术公开了一种融合熵

【技术实现步骤摘要】
一种融合熵、方差和相关系数的权重分配特征评估与选择方法及计算机设备


[0001]本专利技术属于机器学习和数据挖掘
,特别涉及一种融合熵

方差和相关系数的权重分配特征评估与选择方法及计算机设备


技术介绍

[0002]特征选择是机器学习和数据挖掘中的一个重要任务,它旨在从原始数据中选择最相关

最有信息量的特征,以提高模型的性能和解释能力

特征选择技术在降低维度

消除冗余

提高模型训练效率和减少过拟合等方面具有重要作用

[0003]现有的特征选择技术主要包括以下几个类别,即过滤式特征选择
(Filter feature selection)
,包裹式特征选择
(Wrapper feature selection)
,嵌入式特征选择
(Embedded feature selection)。
过滤式方法独立于具体的机器学习算法,通过对特征进行评估和排序来选择特征

常用的评估指标包括方差

互信息

相关系数等

过滤式方法的优点是计算效率高,可以快速筛选出相关性较高的特征,但无法考虑特征与分类目标的交互作用

包裹式方法将特征选择作为一个子问题嵌入到特定的机器学习算法中

它通过搜索特征子集并使用评估指标来评估子集的性能,以选择最佳的特征子集

包裹式方法可以考虑特征之间的相互作用,但计算复杂度较高

嵌入式方法将特征选择与机器学习算法的训练过程结合在一起

它通过在模型训练过程中自动选择和调整特征权重来进行特征选择

常见的嵌入式方法包括
L1
正则化

决策树的特征重要性等

[0004]以上的特征选择技术,大多从数据的一个方面来进行考量,考虑了数据的统计特性,没有考虑到数据的信息量和相关系数

诚然,不同的数据集会表现出不一样的特点,仅从一个方面考虑有时是合理的,但如何选择正确的方面也是极为困难的,需要拥有一定的专家经验

[0005]基于以上考虑,急需设计一种特征选择方法,可以综合的考虑数据的各个方面并快速的找到最适合的特征,从而达到降低维度

消除冗余

提高模型训练效率和减少过拟合的目的


技术实现思路

[0006]本专利技术提出的结合熵

方差和相关系数的权重分配特征评估与选择方法,涉及数据的统计特性,信息特性以及相关系数特性等多个方面,同时考虑了单个特征与标签的多种关系,多个特征与标签之间的关联关系,以及特征之间的关联关系

通过设置权重,也可以仅从单个方面对数据的单个特性进行针对性的研究

[0007]为了实现上述目的,本专利技术的技术方案为:一种结合熵

方差和相关系数的权重分配特征评估与选择方法,包括以下步骤:
[0008](1)
确定需要进行特征选择的数据集
A

[0009](2)

A
数据进行样本的划分;
[0010](3)
基于
Spearman
相关系数,计算
(2)
中每类样本每个特征的相关系数;
[0011](4)
计算
(2)
中每类样本每个特征的方差;
[0012](5)
计算
(2)
中每类样本每个特征的熵;
[0013](6)

(3)(4)(5)
中得到的特征指标进行缩放后再进行权重分配;
[0014](7)
递归添加特征,选择出最重要的特征集合;
[0015](8)
合并经过特征选择后
(2)
中的每个样本,并进行特征维度检查

[0016]所述步骤
(1)
确定需要进行特征选择的数据集
A
;其步骤如下:
[0017]确定需要进行特征选择的数据集
A
;首先确定需要进行特征提取的数据集
A

A
应尽可能含有高维的特征以及细分的标签类别

[0018]进一步,所述步骤
(2)

A
数据进行样本的划分;其步骤如下:
[0019]对
A
数据集进行样本类别的划分

假设
A
数据集中有
n
种不同的样本类型
(
包括小样本,和大样本和正类样本
)
,并且
A
中只有一类为正类,其他类别统一称为负类;则将
A
数据集按照标签进行划分后,得到样本集合
A1,A2,

,A
n

[0020]进一步,所述步骤
(3)
基于
Spearman
相关系数,计算
(2)
中每类样本每个特征的相关系数;其步骤如下:
[0021]步骤
3.1
:对于
A1,A2,

,A
n
中的每一中样本
A
i
,使用
Spearman
特征选择技术,衡量特征与标签之间的单调相关程度,计算出
A
i
中每一个特征的
Spearman
相关系数

其中,
Spearman
相关系数的计算公式如下所示:
[0022][0023]其中,
ρ
表示
Spearman
相关系数,
d
i
表示每对变量在等级上的差异,
n
表示样本数量;
[0024]步骤
3.2
:规格化
Spearman
相关系数

由于
Spearman
相关系数的取值范围是
[

1,1]之间的任意值,而
Spearman
相关系数为0的时候代表变量之间不存在明显单调关系,且越接近两头代表相关性越高

因此,对最终的
ρ
做如下处理:
[0025][0026]其中,
ρ
i
表示每一个特征的
ρ
值;
[0027]步骤
3.3
:根据
ρ
的大小关系将特征进行排序,...

【技术保护点】

【技术特征摘要】
1.
一种融合熵

方差和相关系数的权重分配特征评估与选择方法,其特征在于,包括如下步骤:
S1
,确定需要进行特征选择的数据集
A

S2
,对
A
数据进行样本的划分;
S3
,基于
Spearman
相关系数,计算
S2
中每类样本每个特征的相关系数;
S4
,计算
S2
中每类样本每个特征的方差;
S5
,计算
S2
中每类样本每个特征的熵;
S6
,将
S3、S4、S5
中得到的特征指标进行缩放后再进行权重分配;
S7
,递归添加特征,选择出最重要的特征集合
。2.
根据权利要求1所述的一种融合熵

方差和相关系数的权重分配特征评估与选择方法,其特征在于,所述
S1
中,首先确定需要进行特征提取的数据集
A

A
含有高维的特征以及细分的标签类别
。3.
根据权利要求1所述的一种融合熵

方差和相关系数的权重分配特征评估与选择方法,其特征在于,所述
S2
中具体实现包括:假设
A
数据集中有
n
种不同的样本类型,且其中只有一类正类,其他类别统一称为负类;将
A
数据集按照标签进行划分,得到样本集合
A1,A2,

,A
n
。4.
根据权利要求3所述的一种融合熵

方差和相关系数的权重分配特征评估与选择方法,其特征在于,所述
S3
中具体实现包括:步骤
3.1
:对于
A1,A2,

,A
n
中的每一中样本
A
i
,使用
Spearman
特征选择技术,衡量特征与标签之间的单调相关程度,计算出
A
i'
中每一个特征的
Spearman
相关系数,其中,
Spearman
相关系数的计算公式如下所示:其中,
ρ
表示
Spearman
相关系数,
d
i
表示每对变量在等级上的差异,
n
表示样本数量;步骤
3.2
:规格化
Spearman
相关系数;由于
Spearman
相关系数的取值范围是
[

1,1]
之间的任意值,而
Spearman
相关系数为0的时候代表变量之间不存在明显单调关系,且越接近两头代表相关性越高,因此,对
ρ
做如下处理:其中,
ρ
i
表示每一个特征的
ρ
值;步骤
3.3
:根据
ρ
的大小关系将特征进行排序,
ρ
越大,则特征与其标签之间的关系越大,代表特征重要性越强,对于每一类样本
i
,返回排序后的特征与等级分数的字典
R1
i

i
=1,2,
3...n
;步骤
3.4
:将所有样本的特征与等级分数字典放入统一的字典中,最终获得相关系数指标下的所有类型样本的特征与
ρ
的字典
R1
,即,
R1

R11∪R12∪

∪R1
n

5.
根据权利要求4所述的一种融合熵

方差和相关系数的权重分配特征评估与选择方法,其特征在于,所述
S4
中具体实现包括:步骤
4.1
:对于
A1,A2,

,A
n
中的每一中样本
A
i
,计算
A
i
中每一个特征的方差,其公式如下:其中,
x
ij
表示第
j
个样本在第
i
个特征上的取值,表示第
i
个特征在整个数据集上的均值,
N
表示该特征下的样本总数;步骤
4.2
:根据方差的大小进行排序,方差越大的数据分布越复杂信息量更多,返回特征与方差的字典
R2
i

i
=1,2,
3...n
;步骤
4.3
:将所有样本的特征与方差字典放入统一的字典中,最终获得方差指标下的所有类型样本的特征与方差的字典
R2
,即:
R2

R21∪R22∪

∪R2
n
。6.
根据权利要求5所述的一种融合熵

方差和相关系数的权重分配特征评估与选择方法,其特征在于,所述
S5
中具体实现包括:步骤
5.1
:对于
A1,A2,

,A
n
中的每一中样本
A
i
,计算
A
i
中每一个特征的熵,其公式如下:其中,
X
j
表示特征
j

x
表示特征
X
j
的取值,
P(x)
表示特征
X
j
取值为
x
的概率

步骤
5.2
:根据熵的大小进行排序,熵越大的特征所含信息量更丰富,返回特征与其熵的字典
R3
i

i
=1,2,
3...n
,如果出现负熵,直接丢弃该特征;步骤
5.3
:将所有样本的特征与熵字典放入统一的字典中,最终获得熵指标下的所有类型样本的特征与熵的字典
R3
,即:
R3

R31∪R32∪

∪R3
n
。7.
根据权利要求6所述的一种融合熵

方差和相关系数的权重分配特征评估与选择方法,其特征在于,所述
S6
中具体实现包括:步骤
6.1
:对于集合
A1,A2,

,A
n
中每种样本的
A
i
,取出其特征的三个指标字典
R1
i

R2
i

R3
i
,即对于
A
i'
中的每一个特征
j
,令,
score
j

k
1 r1 R1
j
+k
2 r2R2
j
+k
3 r3 R3
j
;其中,
k1,k2,k3分别表示每个特征在
R1

R2

R3
所对应指标中分配的权重;这个权重是根据指标重要性自行指定的定值,且
k1+k2+k3=1;
r1

r2

r3
为缩放比例系数,将过大或者过小的指标进行缩放,使得三个指标具有相似的数值范围,缩放比例可以根据指标的数值大小进行指定;步骤
6.2
:根据步骤
6.1
公式,对集合
A1,A2,

,A
n
中每一中样本
A
i
,可以获得
A
i
中每一个特征的综合得分
score
,根据综合得分
score
,对
A
i
中的每个特征进行最终排名,...

【专利技术属性】
技术研发人员:李致远王鹤毕俊蕾刘璇
申请(专利权)人:江苏大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1