【技术实现步骤摘要】
一种重要特征的确定方法、装置、设备及存储介质
本专利技术实施例涉及计算机技术,尤其涉及一种重要特征的确定方法、装置、设备及存储介质。
技术介绍
随着信息时代的进步,信息量发生暴增,人们对海量数据的高效处理提出了很高的要求。确定重要特征以进行特征提取是解决信息爆炸的有效途径,被广泛的应用和研究。目前确定重要特征的方法是根据发散性或相关性对特征进行评分,根据评分的高低决定特征的重要程度;或者,先确定用来判断特征重要程度的目标函数,再将特征集合划分为各特征子集,随机选取特征集合中的特征子集,测试特征子集在目标函数上的得分或误差,根据得分或误差的高低确定特征的重要程度。但现有技术中的特征提取方法根据相关性或发散性确定特征的重要程度只能找出两两特征间的关系,对存在多个特征的情况处理效果很差;若是随机选取多个特征进行处理并采用目标函数进行评分,则确定重要特征的精确性低,耗费大量的时间,造成资源开销大,重要特征确定的效率低等问题。
技术实现思路
本专利技术实施例提供一种特征提取的方法、装置、设备及存储介 ...
【技术保护点】
1.一种重要特征的确定方法,其特征在于,包括:/n从目标集群的候选特征中获取至少一个选定特征;其中,所述选定特征包括选定特征的特征参数以及各参数分段的指标数据;/n根据所述选定特征的特征参数,从对比集群的候选对比特征中获取至少一个对比特征,并确定所述对比特征中各参数分段的指标数据;其中,对比特征的特征参数与选定特征的特征参数相同;/n根据选定特征中各参数分段的指标数据与对比特征中各参数分段的指标数据的分布差异,确定所述目标集群的重要特征。/n
【技术特征摘要】
1.一种重要特征的确定方法,其特征在于,包括:
从目标集群的候选特征中获取至少一个选定特征;其中,所述选定特征包括选定特征的特征参数以及各参数分段的指标数据;
根据所述选定特征的特征参数,从对比集群的候选对比特征中获取至少一个对比特征,并确定所述对比特征中各参数分段的指标数据;其中,对比特征的特征参数与选定特征的特征参数相同;
根据选定特征中各参数分段的指标数据与对比特征中各参数分段的指标数据的分布差异,确定所述目标集群的重要特征。
2.根据权利要求1所述的方法,其特征在于,所述选定特征中各参数分段的指标数据包括:
选定特征中各参数分段的指标数据表示为(N1,N2,...,Nn);其中,对选定特征的特征参数进行分段的段数为n;
所述对比特征中各参数分段的指标数据包括:
对比特征中各参数分段的指标数据表示为(N′1,N′2,...,N′n);其中,对对比特征的特征参数进行分段的段数为n;
相应的,所述根据选定特征中各参数分段的指标数据与对比特征中各参数分段的指标数据的分布差异,确定所述目标集群的重要特征,包括:
根据选定特征与对比特征的各相对应的参数分段的指标数据的差异性,确定所述目标集群的重要特征。
3.根据权利要求2所述的方法,其特征在于,所述根据选定特征与对比特征的各相对应的参数分段的指标数据的差异性,确定所述目标集群的重要特征,包括:
确定选定特征的各参数分段的指标数据的密度分布为Pi;并确定对比特征的各参数分段的指标数据的密度分布为Pi′;
根据选定特征与对比特征的各相对应的参数分段的密度分布的差异性,确定所述目标集群的重要特征。
4.根据权利要求3所述的方法,其特征在于,采用如下公式计算选定特征与对比特征的各相对应的参数分段的密度分布的差异性:
其中Diff∈[0,1];
其中,Diff表示对各相对应的参数分段的密度分布的差异性进行累加得到的选定特征与对比特征的差异值;
SumN为(N1,N2,...,Nn)的加和;SumN′为(N′1,N′2,...,N′n)的加和。
5.根据权利要求1所述的方法,其特征在于,所述根据选定特征中各参数分段的指标数据与对比特征中各参数...
【专利技术属性】
技术研发人员:汤益嘉,彭涛,唐黄,
申请(专利权)人:中国建设银行股份有限公司,建信金融科技有限责任公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。