数据的特征提取方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:26343523 阅读:78 留言:0更新日期:2020-11-13 20:46
本申请实施例属于人工智能领域,涉及一种数据的特征提取方法,包括:获取原始数据,根据所述原始数据提取特征形成特征集;对所述特征集进行过滤式特征筛选,得到稳定特征子集;将所述稳定特征子集输入嵌入式特征筛选模型,输出所述稳定特征子集中各特征在模型训练过程中提供的信息增益,并对所述稳定特征子集中各特征对应的信息增益进行排序,根据排序结果对所述稳定特征子集中的特征进行筛选,得到目标特征子集。本申请还提供一种数据的特征提取装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,目标特征子集的特征值可存储于区块链中。本申请采用过滤筛选后再通过嵌入式筛选进行特征提取,可获得稳定性高且信息冗余度低的特征子集。

【技术实现步骤摘要】
数据的特征提取方法、装置、计算机设备及存储介质
本申请涉及人工智能
,尤其涉及数据的特征提取方法、装置、计算机设备及存储介质。
技术介绍
随着数据日益膨胀,需要挖掘更多高价值信息以提升机器学习模型应用效果,但由此会导致特征维度扩张,特征的信息冗余度提升,而包含重复信息的特征不能提升模型效果,反而会增加模型训练复杂度、降低模型迭代效率,甚至会引入噪声信息降低模型效果,因此需要进行特征选择。现有基于分布稳定性、缺失率、预测能力的筛选方案,尚不能实现入模特征的信息去重;而利用相关系数实现信息去重仅能处理两两特征之间的信息重复,对于多特征之间的信息重复不能判别。
技术实现思路
本申请实施例的目的在于提出一种数据的特征提取方法、装置、计算机设备及存储介质,以解决现有技术中不能对多特征间的信息重复进行有效去重、无法获得稳定性高且信息冗余度低的特征集的问题。为了解决上述技术问题,本申请实施例提供一种数据的特征提取方法,采用了如下所述的技术方案:一种数据的特征提取方法,包括下述步骤:获取原始数据,根据所本文档来自技高网...

【技术保护点】
1.一种数据的特征提取方法,其特征在于,包括下述步骤:/n获取原始数据,根据所述原始数据提取特征形成特征集;/n对所述特征集进行过滤式特征筛选,得到稳定特征子集;/n将所述稳定特征子集输入嵌入式特征筛选模型,输出所述稳定特征子集中各特征在模型训练过程中提供的信息增益,并对所述稳定特征子集中各特征对应的信息增益进行排序,根据排序结果对所述稳定特征子集中的特征进行筛选,得到目标特征子集。/n

【技术特征摘要】
1.一种数据的特征提取方法,其特征在于,包括下述步骤:
获取原始数据,根据所述原始数据提取特征形成特征集;
对所述特征集进行过滤式特征筛选,得到稳定特征子集;
将所述稳定特征子集输入嵌入式特征筛选模型,输出所述稳定特征子集中各特征在模型训练过程中提供的信息增益,并对所述稳定特征子集中各特征对应的信息增益进行排序,根据排序结果对所述稳定特征子集中的特征进行筛选,得到目标特征子集。


2.根据权利要求1所述的数据的特征提取方法,其特征在于,所述根据排序结果对所述稳定特征子集中的特征进行筛选,得到目标特征子集的步骤包括:
选取所述稳定特征子集中信息增益排序靠前的特征,使得选取的各特征的信息增益之和占所述稳定特征子集的所有特征的信息增益总和的比例超过预设增益参数阈值,输出选取的各特征得到目标特征子集。


3.根据权利要求1或2所述的数据的特征提取方法,其特征在于,所述对所述特征集进行过滤式特征筛选,得到稳定特征子集的步骤具体包括:
获取特征评价维度,计算所述特征集中各特征在各特征评价维度的评价值;
获取各特征评价维度的阈值,比较所述特征集中各特征的评价值与对应的特征评价维度的阈值;
根据比较结果对所述特征集中各特征依次进行筛选过滤,输出剩余的特征得到稳定特征子集。


4.根据权利要求3所述的数据的特征提取方法,其特征在于,所述获取特征评价维度,计算所述特征集中各特征在各特征评价维度的评价值的步骤包括:
对所述原始数据涵盖的时间范围进行划分,得到多个时间分区,得到基于时间分区的特征评价维度;
计算所述特征集中各特征在各基于时间分区的特征评价维度的评价值,得到同一特征评价维度在不同时间分区的多个评价值。

【专利技术属性】
技术研发人员:张巧丽林荣吉
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1