特征提取方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:27818191 阅读:36 留言:0更新日期:2021-03-30 10:23
本申请提供了一种特征提取方法、装置、设备及计算机可读存储介质,应用于云技术领域,所述方法包括:在数据库中获取待处理数据;根据待处理数据对应的表达式确定特征提取流程;表达式用于将待处理数据转换为特征数据;特征提取流程包括有序排列的多个数据操作语句;每一数据操作语句由数据库对应的计算引擎提供的算子函数实现;根据多个数据操作语句对待处理数据进行处理,得到特征数据。通过本申请提供的特征提取方法,能够实现复杂特征的提取任务,提升特征提取的效率。提升特征提取的效率。提升特征提取的效率。

【技术实现步骤摘要】
特征提取方法、装置、设备及计算机可读存储介质


[0001]本申请涉及数据处理
,尤其涉及一种特征提取方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]在进行大数据处理的过程中,涉及人工智能的使用。在使用人工智能的过程中,通常使用大数据计算引擎,如SPARK将存储业务信息的多个数据表进行连接,以便通过对不同数据表进行聚合,从而利用数据表所表达的各种业务信息来实现特征提取任务。
[0003]相关技术中,大数据计算引擎只能提供简单的运算逻辑,难以实现复杂特征的提取。

技术实现思路

[0004]本申请实施例提供一种特征提取方法、装置、设备及计算机可读存储介质,能够实现复杂特征的提取任务,提升特征提取效率。
[0005]本申请实施例的技术方案是这样实现的:本申请实施例提供一种特征提取方法,包括在数据库中获取待处理数据;根据待处理数据对应的表达式确定特征提取流程;表达式用于将待处理数据转换为特征数据;特征提取流程包括有序排列的多个数据操作语句;每一数据操作语句由数据库提供的算子函数实现;根据多个数据操作语句本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种特征提取方法,其特征在于,包括:在数据库中获取待处理数据;根据所述待处理数据对应的表达式确定特征提取流程;所述表达式用于将所述待处理数据转换为特征数据;所述特征提取流程包括有序排列的多个数据操作语句;每一所述数据操作语句由所述数据库对应的计算引擎提供的算子函数实现;根据所述多个数据操作语句对所述待处理数据进行处理,得到所述特征数据。2.根据权利要求1所述的方法,其特征在于,所述根据所述待处理数据对应的表达式确定特征提取流程,包括:获取所述待处理数据对应的表达式,基于所述表达式确定所述多个数据处理任务和每一所述数据处理任务的优先级;将处于相同优先级的数据处理任务进行合并,得到至少一个任务组;每一所述任务组包括至少两个子任务;根据所述待处理数据和每一所述任务组的优先级,确定每一所述任务组对应的操作语句集合;所述操作语句集合包括所述任务组中至少一个所述子任务对应的数据操作语句;根据每一所述任务组对应的优先级和操作语句集合,确定所述特征提取流程。3.根据权利要求2所述的方法,其特征在于,所述根据所述待处理数据和每一所述任务组的优先级,确定每一所述任务组对应的操作语句集合,包括:将所述待处理数据确定为中间数据;按照优先级顺序,依次根据所述中间数据确定每一所述任务组对应的操作语句集合;所述操作语句集合用于对所述中间数据进行处理,以更新所述中间数据。4.根据权利要求3所述的方法,其特征在于,所述根据所述中间数据确定每一所述任务组对应的操作语句集合,包括:基于所述任务组中的每一所述子任务的任务类型,确定每一所述子任务的执行顺序;按照每一所述子任务的执行顺序,依次基于所述中间数据确定每一所述子任务对应的数据操作语句,并更新所述中间数据;按照所述执行顺序排列每一所述子任务对应的数据操作语句,以得到所述任务组对应的操作语句集合。5.根据权利要求4所述的方法,其特征在于,所述基于所述任务组中的每一所述子任务的任务类型,确定每一所述子任务的执行顺序,包括:获取所述任务组中的每一所述子任务的任务类型;根据任务类型对每一所述子任务进行分类,得到至少一个聚合任务和至少一个非聚合任务;基于每一所述聚合任务与每一所述非聚合任务之间的任务顺序,对每一所述聚合任务和每一所述非聚合任务进行排序,以得到每一所述子任务的执行顺序。6.根据权利要求5所述的方法,其特征在于,所述基于每一所述聚合任务与每一所述非聚合任务之间的任务顺序,对每一所述聚合任务和每一所述非聚合任务进行排序,以得到每一所述子任务的执行顺序,包括:在所述非聚合任务位于至少一个所述聚合任务之前的情况下,将所述非聚合任务确定为聚合前任务;
在所述非聚合任务位于至少一个所述聚合任务之后的情况下,将所述非聚合任务确定为聚合后任务;按照聚合前任务、聚合任务和聚合后任务的顺序对每一所述聚合任务和每一所述非聚合任务进行排序,以得到每一所述子任务的执行顺序。7.根据权利要求4所述的方法,其特征在于,所述基于所述中间数据确定每一所述子任务对应的数据操作语句,并更新所述中间数据,包括:基于所述中间数据确定所述子任务需要处理的数据信息;所述数据信息包括以下至少之一:所述子任务对应的操作标识、所述中间数据的数据标识和所述中间数据中所述子任务的输入特征名;根据所述数据信息和所述子任务对应的目标算子函数,确定所述子任务的输出特征名;根据所述数据信息、所述目标算子函数和所述输出特征名生成所述子任务对...

【专利技术属性】
技术研发人员:陶淳洪立涛黄薇屹韩宝昌苏函晶
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1