特征生成方法及装置、非易失性存储介质、处理器制造方法及图纸

技术编号:35270105 阅读:15 留言:0更新日期:2022-10-19 10:39
本申请公开了一种特征生成方法及装置、非易失性存储介质、处理器。其中,该方法包括:获取目标对象的原始数据,并对原始数据进行处理,得到目标数据;根据目标数据,设置可生成特征的特征元数据,其中,特征为用于对目标对象进行建模的机器学习模型的输入特征;根据特征元数据,设置可生成特征的特征语句;利用结构化查询语言执行特征语句,生成特征。本申请解决了目前机器学习模型所需要的输入特征通过人工整理原始数据得到,耗时耗力,且整理完成的数据难以重复使用的技术问题。的数据难以重复使用的技术问题。的数据难以重复使用的技术问题。

【技术实现步骤摘要】
特征生成方法及装置、非易失性存储介质、处理器


[0001]本申请涉及机器学习领域,具体而言,涉及一种特征生成方法及装置、非易失性存储介质、处理器。

技术介绍

[0002]当下人工智能技术普遍应用于各个领域,机器学习是人工智能发展的必然产物,在机器学习领域中,特征是使机器学习获得最佳效果的重要基础。质量高、数量合理的特征直接决定了机器学习是否能获取合理的最终效果。
[0003]特征通常来源于原始数据,由数据科学家或算法工程师进行人工整理以及加工。整理以及加工特征所要求的人工工作繁琐、耗时且整理以及加工完的数据难以重复使用,因此亟需一种方法,能够高效生成一批高质量的特征。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种特征生成方法及装置、非易失性存储介质、处理器,以至少解决目前机器学习模型所需要的输入特征通过人工整理原始数据得到,耗时耗力,且整理完成的数据难以重复使用的技术问题。
[0006]根据本申请实施例的一个方面,提供了一种特征生成方法,包括:获取目标对象的原始数据,并对原始数据进行处理,得到目标数据;根据目标数据,设置可生成特征的特征元数据,其中,特征为用于对目标对象进行建模的机器学习模型的输入特征;根据特征元数据,设置可生成特征的特征语句;利用结构化查询语言执行特征语句,生成特征。
[0007]可选地,目标数据通过以下至少之一形式表示:视图及表格;特征元数据包括:维度元数据、指标元数据以及过滤元数据。r/>[0008]可选地,维度元数据包括:简单维度元数据以及衍生维度元数据,其中,简单维度元数据的取值之间不存在交集,衍生维度元数据的取值之间存在交集。
[0009]可选地,根据特征元数据,设置可生成特征的特征语句,包括:将维度元数据、指标元数据以及过滤元数据进行拼接,得到拼接完成的语句;将拼接完成的语句确定为特征语句。
[0010]可选地,将维度元数据、指标元数据以及过滤元数据进行拼接,得到拼接完成的语句,包括:利用结构化查询语句中的指令将维度元数据、指标元数据以及过滤元数据进行拼接,得到拼接完成的语句。
[0011]可选地,如果维度元数据为简单维度元数据,得到的拼接完成的语句为单一语句;如果维度元数据为衍生维度元数据,得到的拼接完成的语句的数量为n个,其中,n为维度元数据的取值数量,为大于1的自然数。
[0012]可选地,利用结构化查询语言执行特征语句,生成特征,包括:根据指标元数据对应的指标输出类型,确定生成的特征对应的字段类型;按照字段类型生成特征。
[0013]可选地,利用结构化查询语言执行所述特征语句,生成所述特征之前,上述方法还包括:将维度元数据、指标元数据以及过滤元数据进行组合,生成特征列表。
[0014]根据本申请实施例的另一方面,还提供了一种特征生成装置,包括:获取模块,用于获取目标对象的原始数据,并对数据进行处理,得到目标数据;第一设置模块,用于根据目标数据,设置可生成特征的特征元数据,其中,特征为用于对目标对象进行建模的机器学习模型的输入特征;第二设置模块,用于根据特征元数据,设置可生成特征的特征语句;生成模块,用于利用结构化查询语言执行特征语句,生成特征。
[0015]根据本申请实施例的再一方面,还提供了一种非易失性存储介质,存储介质包括存储的程序,其中,程序运行时控制存储介质所在的设备执行以上的特征生成方法。
[0016]根据本申请实施例的再一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行以上的特征生成方法。
[0017]在本申请实施例中,采用获取目标对象的原始数据,并对原始数据进行处理,得到目标数据;根据目标数据,设置可生成特征的特征元数据,其中,特征为用于对目标对象进行建模的机器学习模型的输入特征;根据特征元数据,设置可生成特征的特征语句;利用结构化查询语言执行特征语句,生成特征的方式,通过结构化查询语言执行特征语句,达到了自动生成机器学习模型的高质量输入特征的目的,从而实现了减少了生成机器学习模型的输入特征的时间和成本,提高机器学习模型输出结果的精度的技术效果,进而解决了目前机器学习模型所需要的输入特征通过人工整理原始数据得到,耗时耗力,且整理完成的数据难以重复使用技术问题。
附图说明
[0018]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0019]图1是根据本申请实施例的一种特征生成方法的流程图;
[0020]图2是根据本申请实施例的一种特征生成装置的结构图。
具体实施方式
[0021]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0022]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0023]根据本申请实施例,提供了一种特征生成的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0024]图1是根据本申请实施例的一种特征生成方法的流程图,如图1所示,该方法包括如下步骤:
[0025]步骤S102,获取目标对象的原始数据,并对原始数据进行处理,得到目标数据。
[0026]机器学习模型通常会对一个指定主体进行建模,例如,预测用户是否高价值,主体即为用户。生成特征需要基于特征主体,将主体的所有明细数据进行关联,形成视图或表(即上述目标数据)。例如,对用户建模,主体是用户,其每一笔交易数据都属于明细数据,形成的视图或表中需要同时包括用户的标识(ID)和交易数据。
[0027]根据本申请的一个可选的实施例,在机器学习领域中,特征是机器学习模型获得最佳效果的重要基础。机器学习模型所需要的特征来源于原始数据。原始数据是的大量的、杂乱的、无序的、包含很多无用信息的数据。利用数据库软件可以将原始数据进行处理,得到能够进行特征挖掘的目标数据。并不是所有原始数本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种特征生成方法,其特征在于,包括:获取目标对象的原始数据,并对所述原始数据进行处理,得到目标数据;根据所述目标数据,设置可生成特征的特征元数据,其中,所述特征为用于对所述目标对象进行建模的机器学习模型的输入特征;根据所述特征元数据,设置可生成所述特征的特征语句;利用结构化查询语言执行所述特征语句,生成所述特征。2.根据权利要求1所述的方法,其特征在于,包括:所述目标数据通过以下至少之一形式表示:视图及表格;所述特征元数据包括:维度元数据、指标元数据以及过滤元数据。3.根据权利要求2所述的方法,其特征在于,包括:所述维度元数据包括:简单维度元数据以及衍生维度元数据,其中,所述简单维度元数据的取值之间不存在交集,所述衍生维度元数据的取值之间存在交集。4.根据权利要求1所述的方法,其特征在于,根据所述特征元数据,设置可生成所述特征的特征语句,包括:将所述维度元数据、所述指标元数据以及所述过滤元数据进行拼接,得到拼接完成的语句;将所述拼接完成的语句确定为所述特征语句。5.根据权利要求4所述的方法,其特征在于,将所述维度元数据、所述指标元数据以及所述过滤元数据进行拼接,得到拼接完成的语句,包括:利用结构化查询语句中的指令将所述维度元数据、所述指标元数据以及所述过滤元数据进行拼接,得到拼接完成的语句。6.根据权利要求4或5所述的方法,其特征在于,如果所述维...

【专利技术属性】
技术研发人员:丁若谷赵宏伟平先顺欧阳辰
申请(专利权)人:北京深演智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1