一种用于机器学习建模所需的专家特征维度的生成方法技术

技术编号:23445690 阅读:66 留言:0更新日期:2020-02-28 19:54
本发明专利技术提出了一种用于机器学习建模所需的专家特征维度的生成方法,包括:步骤S1,选择平台数据源节点并获取可被特征挖掘的样本数据表;步骤S2,连接平台可用于生成专家特征包的SQL节点,使用SQL编码对获取到的样本数据表进行专家特征挖掘,将生成专家特征的SQL算子节点存储为专家特征包;步骤S3,获取用于进行专家特征生成的数据表,将新获取的数据表字段替换专家公共特征包中的用于特征加工的字段,执行特征包算子节点运行计算,将替换匹配后得数据源字段进行特征包存储的特征加工逻辑处理,进行自动特征生成运算,生成专家特征字段。本发明专利技术降低了整体特征工程的使用门槛,提高了特征工程的易用性和特征的生成效率。

An expert feature dimension generation method for machine learning modeling

【技术实现步骤摘要】
一种用于机器学习建模所需的专家特征维度的生成方法
本专利技术涉及人工智能
,特别涉及一种用于机器学习建模所需的专家特征维度的生成方法。
技术介绍
当下人工智能技术深耕金融服务领域,机器学习是人工智能研究发展到一定阶段的必然产物,其致力于通过计算的手段,利用经验来改善系统应用在对应场景的性能。“经验”通常以“数据”形式存在,通过机器学习算法,可从数据中产生“模型”,数据都需要转换为包括各种特征变量的机器学习样本。而经验数据中的特征变量往往需要在进行机器学习前,结合统计学算法从数据中挖掘价值,即挖掘出特征,后再进行模型训练。传统机器学习前的特征工程环节需要技术人员通过写代码的方式来完成入模特征变量的挖掘。这需要技术人员对业务场景有深刻的理解,即,凭借业务经验来设定特征,对于技术人员往往对业务场景需求理解有偏差,且编码的方式时间投入成本高。另外,对于业务人员,他们对机器学习或特征挖掘可能只略懂一点,或者完全不懂,但更清楚了解真实业务场景需求,技术门槛高,生产效率低;对于资深领域专家(专家为既懂建模技术,又懂业务场景),则人力投入成本高。现市面上已有其他家平台有通过编码的形式做特征工程,但都存在耗时耗力的问题。
技术实现思路
本专利技术的目的旨在至少解决所述技术缺陷之一。为此,本专利技术的目的在于提出一种用于机器学习建模所需的专家特征维度的生成方法。为了实现上述目的,本专利技术的实施例提供一种用于机器学习建模所需的专家特征维度的生成方法,包括如下步骤:步骤S1,选择平台数据源节点并获取可被特征挖掘的样本数据表;步骤S2,连接平台可用于生成专家特征包的SQL节点,使用SQL编码对获取到的样本数据表进行专家特征挖掘,将生成专家特征的SQL算子节点存储为专家特征包;步骤S3,获取用于进行专家特征生成的数据表,将新获取的数据表字段替换专家公共特征包中的用于特征加工的字段,执行特征包算子节点运行计算,将替换匹配后得数据源字段进行特征包存储的特征加工逻辑处理,进行自动特征生成运算,生成专家特征字段。进一步,在所述步骤S1中,所述样本数据表的每条数据记录具有与各个字段相应的字段值。进一步,在所述步骤S2中,采用DAG图形式进行专家特征挖掘,选择要进行特征挖掘的数据源,每个数据源节点可以配置一个数据源,数据源节点对应的参数界面选择平台获取到的一个数据表,作为下游进行特征衍生SQL节点的输入。进一步,在所述步骤S2中,所述使用SQL编码对获取到的样本数据表进行专家特征挖掘,包括:使用内置SQL编辑器对获取到的数据表进行特征工程衍生,获取上游节点输出的数据源后,选择字段对数据中进行计算操作,生成专家特征。进一步,在所述步骤S2中,在获取上游节点输出的数据源后,选择字段对数据中进行计算操作,包括对数据进行最大、最小、平均、求和、合并、聚合的计算;对数据源或数据源之间的特征进行合并、组合、提取的操作。进一步,在所述步骤S3中,在所述获取用于进行专家特征生成的数据表之后,进一步包括:查看专家特征包可生成的特征、描述及所需要使用的前置表信息。进一步,在所述步骤S3中,所述将新获取的数据表字段替换专家公共特征包中的用于特征加工的字段,包括以下方式之一:(1)一键按照相同字段名匹配;(2)手动映射匹配,将一个原本加工逻辑中使用的字段对应选择一个现在获取到的数据的字段,匹配运行计算后会进行相同的处理;(3)直接修改SQL编码,匹配后直接替换SQL编码内的原始特征包字段。根据本专利技术实施例的用于机器学习建模所需的专家特征维度的生成方法,利用DAG图获取和传输数据,将数据通过特征挖掘、数据加工的运算、算法封装成特征包算子节点,再利用DAG图获取和传输新的可匹配特征包节点的数据源,对每个节点配置参数来做特征衍生的,这种形式的特征工程,操作简单,仅能凭个人对业务的理解和经验做特征加工。本专利技术通过专家对业务的理解和对特征加工经验积累,将专家特征挖掘过程进行封装并复用生成专家特征,解决了业务人员对特征加工的技术难题,解决了普通技术人员对业务理解的偏差不知使用那些有效数据,降低了整体特征工程的使用门槛,提高了特征工程的易用性和特征的生成效率。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术实施例的用于机器学习建模所需的专家特征维度的生成方法的流程图;图2为根据本专利技术实施例的机器学习DAG流程图;图3为根据本专利技术实施例的建模流程图;图4为根据本专利技术实施例的替换特征加工逻辑字段的流程图;图5为根据本专利技术实施例的手动匹配特征加工逻辑字段的流程图;图6为根据本专利技术实施例的专家公共特征包生成过程的流程图;图7为根据本专利技术实施例的专家公共特征复用过程的流程图。具体实施方式下面详细描述本专利技术的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。本专利技术提出一种用于机器学习建模所需的专家特征维度的生成方法,(1)利用数据样本及特征进行挖掘、加工并生成的特征,封装成公共特征包算子装置;补充机器学习建模所需的经验特征维度(2)在机器学习建模过程中获取包含特征包算子所需的特征维度的数据源样本,直接复用封装好的公共特征包算子,进入特征包算子装置,进行自动特征生成计算。如图1所示,本专利技术实施例的用于机器学习建模所需的专家特征维度的生成方法,包括如下步骤:步骤S1,选择平台数据源节点并获取可被特征挖掘的样本数据表。本专利技术充分利用专家经验将数据表中的样本数据结合统计学能力挖据出有价值的专家特征维度。进行挖掘的数据表中每条数据记录可包括多个属性信息(即,字段),而特征可指示各字段本身、或字段的组合等各种字段处理(或运算)结果,以便更好地反映数据分布以及字段间的内在关联与潜在含义。在本专利技术中,平台获取用户指定的数据表(每个读入数据节点可获取一张数据表),这里的数据表的一行对应一条数据记录,数据表的一列对应一个字段。即数据表中的每条数据记录具有与各个字段相应的字段值。例如在数据表中,每条数据记录可被看做一个事件的描述,即一个样本,每个字段可用于描述样本事件在某方面的性质(如:姓名、性别、年龄、学历、住房、办卡时间、消费记录、存款记录等)。系统识别获取到的100条数据,判断字段的类型(如:string、int、double、timestamp、boolean),用户可通过界面中的控件对字段类型做调整。步骤S2,连接平台可用于生成专家特征包的SQL节点,使用SQL编码对获取到的样本数据表进行专家特征挖掘,将生成专家特征的SQL算子节点本文档来自技高网...

【技术保护点】
1.一种用于机器学习建模所需的专家特征维度的生成方法,其特征在于,包括如下步骤:/n步骤S1,选择平台数据源节点并获取可被特征挖掘的样本数据表;/n步骤S2,连接平台可用于生成专家特征包的SQL节点,使用SQL编码对获取到的样本数据表进行专家特征挖掘,将生成专家特征的SQL算子节点存储为专家特征包;/n步骤S3,获取用于进行专家特征生成的数据表,将新获取的数据表字段替换专家公共特征包中的用于特征加工的字段,执行特征包算子节点运行计算,将替换匹配后得数据源字段进行特征包存储的特征加工逻辑处理,进行自动特征生成运算,生成专家特征字段。/n

【技术特征摘要】
1.一种用于机器学习建模所需的专家特征维度的生成方法,其特征在于,包括如下步骤:
步骤S1,选择平台数据源节点并获取可被特征挖掘的样本数据表;
步骤S2,连接平台可用于生成专家特征包的SQL节点,使用SQL编码对获取到的样本数据表进行专家特征挖掘,将生成专家特征的SQL算子节点存储为专家特征包;
步骤S3,获取用于进行专家特征生成的数据表,将新获取的数据表字段替换专家公共特征包中的用于特征加工的字段,执行特征包算子节点运行计算,将替换匹配后得数据源字段进行特征包存储的特征加工逻辑处理,进行自动特征生成运算,生成专家特征字段。


2.如权利要求1所述的用于机器学习建模所需的专家特征维度的生成方法,其特征在于,在所述步骤S1中,所述样本数据表的每条数据记录具有与各个字段相应的字段值。


3.如权利要求1所述的用于机器学习建模所需的专家特征维度的生成方法,其特征在于,在所述步骤S2中,采用DAG图形式进行专家特征挖掘,选择要进行特征挖掘的数据源,每个数据源节点可以配置一个数据源,数据源节点对应的参数界面选择平台获取到的一个数据表,作为下游进行特征衍生SQL节点的输入。


4.如权利要求1所述的用于机器学习建模所需的专家特征维度的生成方法,其特征在于,在所述步骤S2中,所...

【专利技术属性】
技术研发人员:崔晶晶任捷
申请(专利权)人:北京集奥聚合科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1