用于源数据的特征构建方法、装置、电子设备及介质制造方法及图纸

技术编号:26342431 阅读:23 留言:0更新日期:2020-11-13 20:33
本发明专利技术公开了一种用于源数据的特征构建方法、装置、电子设备及存储介质,涉及数据处理技术领域,该方法通过获取待处理源数据以及对应的特征构建目标,其中,该特征构建目标包括目标度量、目标算子名称以及目标维度,解析该特征构建目标,根据目标算子名称、目标度量以及目标维度构建特征清单,其中,该特征清单包括若干个目标特征,针对该特征清单中的每一个目标特征:从预先生成的算子库中调取相应的算子函数,从该待处理源数据中提取相应维值下的相应度量的度量值,利用该算子函数对该度量值进行计算得到该目标特征的特征值,解决了对包括大量原始数据的数据集进行特征值的提取,存在提取效率低的问题,提高了特征值提取的效率。

Feature construction method, device, electronic device and medium for source data

【技术实现步骤摘要】
用于源数据的特征构建方法、装置、电子设备及介质
本专利技术涉及数据处理
,尤其涉及一种用于源数据的特征构建方法、装置、电子设备及存储介质。
技术介绍
数据时代带来的挑战不仅仅是数据量的爆发式增长,更重要是如何管理好、治理好、利用好这些数据。原始数据是大数据平台最底层的数据,是一种低价值的数据。随着数据的爆发式增长,企业很难直接通过原始数据进行应用,常常需要将原始数据加工应用于模型或策略机特征值,继而实现数据挖掘应用的商业价值。在相关技术中,对包括大量原始数据的数据集,往往通过需求驱动自定义开发,根据数据需求和开发需求,在得到结果反馈后进行特征工程,从而获得特征值,这种方法需要企业各方协作,因为各自为政的开发模式,使得目标特征的定义不一致造成特征值提取效率低下的问题。针对相关技术中,对包括大量原始数据的数据集进行特征值的提取,存在提取效率低的问题,目前尚未提出有效的解决方案。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供一种用于源数据的特征构建方法,以至少解决相关技术中对包括大量原始本文档来自技高网...

【技术保护点】
1.一种用于源数据的特征构建方法,其特征在于,所述方法包括:/n获取待处理源数据以及对应的特征构建目标,其中,所述特征构建目标包括目标度量、目标算子名称以及目标维度;/n解析所述特征构建目标,根据目标算子名称、目标度量以及目标维度构建特征清单,其中,所述特征清单包括若干个目标特征;/n针对所述特征清单中的每一个目标特征:从预先生成的算子库中调取相应的算子函数,从所述待处理源数据中提取相应维值下的相应度量的度量值;利用所述算子函数对所述度量值进行计算得到所述目标特征的特征值。/n

【技术特征摘要】
1.一种用于源数据的特征构建方法,其特征在于,所述方法包括:
获取待处理源数据以及对应的特征构建目标,其中,所述特征构建目标包括目标度量、目标算子名称以及目标维度;
解析所述特征构建目标,根据目标算子名称、目标度量以及目标维度构建特征清单,其中,所述特征清单包括若干个目标特征;
针对所述特征清单中的每一个目标特征:从预先生成的算子库中调取相应的算子函数,从所述待处理源数据中提取相应维值下的相应度量的度量值;利用所述算子函数对所述度量值进行计算得到所述目标特征的特征值。


2.如权利要求1所述的用于源数据的特征构建方法,其特征在于,所述解析所述特征构建目标,根据目标算子名称、目标度量以及目标维度构建特征清单,包括:对目标算子名称、目标度量以及目标维度下的维值进行任意组合得到所述特征清单。


3.如权利要求1所述的用于源数据的特征构建方法,其特征在于,所述目标维度包括主维度,所述主维度用于识别所述待处理源数据中的身份信息。


4.如权利要求3所述的用于源数据的特征构建方法,其特征在于,所述目标维度还包括条件维度,所述条件维度用于对所述待处理源数据进行维度筛选。


5.如权利要求4所述的用于源数据的特征构建方法,其特征在于,在所述条件维度包括时间维度的情况下,所述获取特征构建目标后,所述方法包括:对所述待处理源数据按照主维度和时间维度下的维值进行聚合,得到中间数据表;
针对所述特征清单中的每一个目标特征:从所述算子库中调取相应的算子函数,从所述中间数据表中提取相应维值下的相应度量的度量值;利用所述算子函数对所述度量值进行计算得到所述目标特征的特征值。

【专利技术属性】
技术研发人员:王兴武
申请(专利权)人:同盾控股有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1