【技术实现步骤摘要】
一种面向高维复杂数据的在线流特征选择方法
[0001]本申请涉及数据处理领域,具体涉及一种面向高维复杂数据的在线流特征选择方法。
技术介绍
[0002]随着信息技术的飞速发展,许多应用领域的数据呈爆炸式增长,且数据维度越来越高。在数据挖掘过程中,维度过高将会造成维数灾难,同时会引入与学习任务不相关的特征,特征选择的原理是从原始数据中根据特征评价准则选择出满足条件的特征构成一个新的特征子集,这样不仅可有效减少特征的维度,增强模型的泛化能力,并能降低模型的过拟合风险和计算开销。当前,静态特征选择方法是假设在学习任务开始前已获取数据的所有特征,但是在许多应用场景中特征是动态流式产生的,特征随着时间变化不断流入,有时甚至特征空间未知,且静态特征选择方法通过不断搜索特征空间对特征进行评估度量,计算开销较大。同时,现实生活中数据的呈现形式多样复杂,往往出现名义型数据和数值型数据同时并存的情况,现有的方法无法直接处理上述高维复杂的数据,只能将数据转换为特定类型数据再作处理,将会丢失数据中大量丰富的语义信息。并且动态场景下现有的在线流特征选 ...
【技术保护点】
【技术特征摘要】
1.一种面向高维复杂数据的在线流特征选择方法,其特征在于,包括如下步骤:S100:输入决策表,所述决策表包括数据样本集合U=[x1,x2,x3,
…
,x
n
]、决策属性集D、候选特征子集B和待评估特征子集F1={f1,f2,
…
,f
m
},其中,x
n
为数据样本,f
m
为特征,候选特征子集S200:通过综合考虑特征依赖度和特征相关度的方式计算待评估特征子集F1的重要性Sig(F1|D);当待评估特征子集F1中在t时刻有特征f
t
流入时,度量特征f
t
的特征重要性,即综合考虑特征依赖度和特征相关度对特征的重要性进行分析,计算加入特征f
t
后的待评估特征子集F1’
的重要性Sig(F1’
|D),其中,F1′
={f1,f2,
…
,f
m
,f
t
};在计算特征子集的重要性时,特征依赖度用正域进行度量,特征相关度用邻域条件熵进行度量;S300:判断特征f
t
是否为候选特征,即将待评估特征子集F1’
的重要性Sig(F1’
|D)与待评估特征子集F1的重要性Sig(F1|D)进行比较,若Sig(F1’
|D)≥Sig(F1|D),则将特征f
t
加入候选特征子集B中,形成候选特征子集B1;S400:度量候选特征子集B1中所有特征的冗余性,判断特征是否冗余,如果存在特征冗余则将对应的特征从候选特征子集B1中剔除,得到最小候选特征子集B
min
;S500:判断是否有特征流入,如继续有特征流入,则重复步骤S100~400,如没有特征继续流入,则将步骤S400得到的最小候选特征子集B
min
作为最终的特征子集输出。2.根据权利要求1所述的一种面向高维复杂数据的在线流特征选择方法,其特征在于,通过综合考虑特征依赖度和特征相关度计算特征子集F的重要性Sig(F|D)的具体方法如下,其中,特征子集F为待评估特征子集F1或待评估特征子集F1’
:S201:将数据样本集合U中数据样本x
i
的邻域和特征子集F的正域POS
F
(D)初始化为空,即令S202:判断数据样本集合U中数据样本x
j
是否在数据样本x
i
的邻域内,其中,对象x
i
在特征子集F上的邻域定义为:计算数据样本x
i
与数据样本x
j
之间的距离Δ
F
(x
i
,x
j
),并与数据样本x
i
的邻域半径r进行比较;若Δ
F
(x
i
,x
j
)≤r,则将数据样本x
i
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。