【技术实现步骤摘要】
一种基于最大信息系数的未知流特征选择方法及装置
[0001]本申请涉及数据挖掘领域,尤其涉及一种基于最大信息系数的未知流特征选择方法及装置。
技术介绍
[0002]特征选择旨在从原始数据集中选择出一个最优的最小特征子集,已成为数据挖掘和机器学习之前不可或缺的预处理步骤,特别是在大数据时代。大多数特征选择方法都隐含地假设可以在学习之前知道特征类型(分类的、数值的或混合的),然后设计相应的度量来计算特征之间的相关性。
[0003]然而,在实际应用中,特性可能是动态生成的,随着时间的推移一个接一个地到达,我们称之为流特征。现有的大多数流特征选择方法都假设所有动态生成的特征都是同一类型的,或者我们可以动态地知道每个新到达特征的特征类型,但这是不合理和不现实的。
技术实现思路
[0004]针对上述问题,提出了一种基于最大信息系数的未知流特征选择方法及装置。
[0005]本申请第一方面提出了一种基于最大信息系数的未知流特征选择方法,包括:
[0006]根据公共数据集获取目标数据集,处理所述目标数据 ...
【技术保护点】
【技术特征摘要】
1.一种基于最大信息系数的未知流特征选择方法,其特征在于,包括:根据公共数据集获取目标数据集,处理所述目标数据集并转换所述目标数据集格式,得到所述数据集的条件特征空间与类标签;根据随机选择特征方法确定所述数据集内特征不断产生并到达的场景;计算所述场景中新到达的特征和所述目标数据集的类标签之间的第一相关性,根据所述第一相关性与第一特征子集的平均相关性大小差值,确定是否丢弃所述特征;若所述特征保留,确定所述特征与所述第一特征子集的第二相关性,并在所述第二相关性大于预设阈值时,将所述特征加入所述第一特征子集,生成第二特征子集;当没有特征到达所述场景或程序结束时,输出所述第二特征子集。2.根据权利要求1所述的方法,其特征在于,所述根据公共数据集获取目标数据集,包括:选取公共数据集UCI上特征类型混合的数据集作为所述目标数据集的选取目标。3.根据权利要求1所述的方法,其特征在于,所述计算所述场景中新到达的特征和所述目标数据集的类标签之间的第一相关性,包括:对于一个二维变量数据集D={(x1,y1),(x2,y2),
…
(x
n
,y
n
)},最大互信息系数MIC(D)的计算方法如下:MIC(D)=max{M(D)
k,l
},其中,MI(D,k,l)表示所述二维变量数据集D上按照整数(k,l)划分的互信息值,当一方互信息为最大值时,k和l的大小通过穷举法得到,其中,k
×
l≤B(n),B为样本容量为n的函数。4.根据权利要求1所述的方法,其特征在于,以如下公式计算所述第一特征子集的平均相关性大小,所述公式为:其中,MIC
Cor
是为所述第一特征子集的平均相关性,S
t
‑1为所述第一特征子集,f
i
为所述第一特征子集中第i个样本,C为所述目标数据集的类标签。5.根据权利要求1所述的方法,其特征在于,所述第一相关性与第一特征子集的平均相关性大小差值,确定是否丢弃所述特征,包括:对于新到达所述场景的特征f
t
,若MIC(f
t
;C)<MIC
Cor
(S
t
‑1,C),则丢弃所述特征f
t
;若MIC...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。