一种自动特征生成系统和方法技术方案

技术编号:27533282 阅读:17 留言:0更新日期:2021-03-03 11:14
本发明专利技术涉及一种自动特征生成系统,包括:数据表分析单元,用于对用户输入的数据表进行分析;用户接口单元,用于呈现数据表分析单元的分析结果,并接收用户的选择的使用字段,以及接收用户配置的数据表关联关系;数据处理单元,用于根据数据表关系结构提取样本对应的数据;特征生成单元,根据数据表关系结构,选择合适的特征生成算法进行特征生成;特征处理单元,特征处理单元对生成的特征数据进行特征分析。本发明专利技术还对应提出一种自动特征生成方法。本发明专利技术不要求使用人员有任何的技术能力和生成逻辑,仅需要提供少量关于使用哪些原始数据生成特征的信息,自动完成特征生成的全流程处理。理。理。

【技术实现步骤摘要】
一种自动特征生成系统和方法


[0001]本专利技术涉及机器学习
,更具体地,涉及一种自动特征生成系统和方法。

技术介绍

[0002]随着大数据人工智能技术的普及,通过机器学习算法进行数据分析处理的方法逐步被各个行业的工程人员所采用。机器学习算法的输入数据被称为特征,是通过一系列工程方法将原始数据加工而成的。目前,针对特征的自动建模方法或本专利技术的系统已经有了很多成熟的产品,但对于自动处理原始数据生成特征的本专利技术的系统产品仍然处于研究阶段。现有的包含特征生成的本专利技术的系统产品有以下几种:
[0003](1)集成人工提取特征功能的数据平台,此类平台支持用户在前端界面编写提取特征的代码,系统运行代码后将特征保存为可供建模的数据表,并支持导入建模平台。此类平台的输入是原始数据,缺点是特征生成逻辑依靠工程人员编写代码完成,需要用户有较高的技术能力,无法实现自动的特征生成过程。
[0004](2)集成特征衍生功能的自动建模平台,此类平台的特征衍生功能的主要目的是为了对已有的特征进行进一步衍生,以增强特征的表达能力,提高建模的效果。此类平台的输入是可以直接建模的特征,缺点是无法对不可建模的原始数据进行特
[0005](3)集成半自动特征生成功能的特征平台,此类平台支持用户在前端界面指定特征生成逻辑,系统自动根据特征生成逻辑在后台生成代码并执行,生成用户指定的特征。此类平台的输入是原始数据,不需要用户编写代码,但缺点是生成的特征数量和效果都依赖于用户的业务理解和生成逻辑,无法实现自动的特征生成过程。

技术实现思路

[0006]针对
技术介绍
中的问题,本专利技术的明目的是:自动对原始数据进行处理分析,生成正确的有效的特征。对于非专业技术人员,可以通过本专利技术的系统方便快捷的生成供模型建模使用的特征变量。对于专业技术人员,可以通过本专利技术的系统快速测试、分析或迭代特征。
[0007]本专利技术提出一种自动特征生成系统,包括:数据表分析单元,用于对用户输入的数据表进行分析;用户接口单元,用于呈现数据表分析单元的分析结果,并接收用户的选择的使用字段,以及接收用户配置的数据表关联关系;数据处理单元,用于根据数据表关系结构提取样本对应的数据;特征生成单元,根据数据表关系结构,选择合适的特征生成算法进行特征生成;特征处理单元,用于对生成的特征数据进行特征分析。
[0008]与现有技术相比,本专利技术的优点有:
[0009](1)本专利技术的系统不要求使用人员有任何的技术能力和生成逻辑,仅需要提供少量关于使用哪些原始数据生成特征的信息,系统自动完成特征生成的全流程处理。
[0010](2)本专利技术的系统集成对原始数据表的分析功能,自动分析原始数据的数据类型、统计指标,并对每个数据字段自动给出是否建议使用的建议。该功能帮助使用者详细了解
所选原始数据的基本情况,帮助判断使用该原始数据进行特征生成是否合理。
[0011](3)本专利技术的系统集成数据提取、清洗加工功能,自动根据用户指定的数据表及其关系,从原始数据表中提取样本对应的数据。可选的,系统可以自动的完成数据清洗、数据回溯、数据分窗等功能。
[0012](4)本专利技术的系统集成多种特征生成算法,自动根据用户指定的数据表及其关系,选择合适的算法进行特征加工。不同的特征生成算法保证了不同形式的数据表,如关系型数据表、宽表型数据表,都能够被正确的处理并生成效果较好的特征。
[0013](5)本专利技术的系统集成特征分析功能,自动对生成的特征进行分析和评价,系统会根据样本是否带有标签,选择合适的有监督或无监督指标进行计算,并根据用户的要求保留最优的特征。
[0014](6)本专利技术的系统支持对大数据的分布式处理,能够自动根据数据量的大小,调整算法中的参数设置。
附图说明
[0015]为了更容易理解本专利技术,将通过参照附图中示出的具体实施方式更详细地描述本专利技术。这些附图只描绘了本专利技术的典型实施方式,不应认为对本专利技术保护范围的限制。
[0016]图1为本专利技术的系统的一个实施例的结构原理图。
[0017]图2为本专利技术的系统的另一个实施例的流程图。
[0018]图3为本专利技术的系统的一个实施例的数据表。
[0019]图4为本专利技术的系统的另一个实施例的数据表。
[0020]图5为本专利技术的方法的另一个实施例的流程图。
具体实施方式
[0021]下面参照附图描述本专利技术的实施方式,其中相同的部件用相同的附图标记表示。在不冲突的情况下,下述的实施例及实施例中的技术特征可以相互组合。
[0022]图1显示了本专利技术的方法的流程图。图2显示了本专利技术的方法的一个实施例的流程图。下面参照图1-2来描述本专利技术。如图1所示,本专利技术的系统包括用户接口单元、算法选择单元、数据表分析单元、数据处理单元、特征生成单元、特征处理单元。
[0023]用户接口单元接受用户输入(例如通过用户界面上传或选择)的样本文件,样本文件为包含任务目标主体的数据,如姓名、手机号。
[0024]用户接口单元还用于接受用户输入(例如通过用户界面上传或选择)的数据表,数据表包含了样本目标主体的各种数据,如年龄、性别、资产等。此处用户可以选择多张数据表。
[0025]数据表分析单元,用于对用户输入的数据表进行分析,包括:
[0026]1)当数据表太大时,对数据表进行随机抽样。
[0027]2)对抽样的数据每一列进行字段类型判断,得到每一列字段最可能的数据类型,包括的数据类型有:数值型、离散型、分类型、时间型、ID型、字符型等。
[0028]3)对每一列字段,根据判断出的数据类型,计算对应的统计指标,如:数值型字段计算最大值、均值、方差、峰度等,字符型字段计算字符串最大长度、字符串是否包含中文
等。
[0029]4)对每一列字段,根据判断的数据类型以及对应的统计指标,判断是否建议使用该字段,如:离散型字段的众数占比超过90%则不建议使用该字段、数值型字段的空值率超过90%则不建议使用该字段等。
[0030]5)对以上内容生成数据表报告,展示字段、数据类型、是否建议使用、统计指标。
[0031]数据表分析单元将分析结果传输给用户接口单元,用户根据数据表分析结果选择使用字段,如不做修改则可按报告给出的建议进行下一步。
[0032]用户接口单元接收用户配置的数据表关联关系,从而确定各个表之间是如何进行关联的,如样本表.phone=数据表1.mobile,即用户告知系统样本表的phone字段与数据表1的mobile字段关联,该两列是标识同样的信息。当用户选择多张数据表时,存在数据表和数据表关联的情况,如数据表1.product_id=数据表2.product_id,即数据表1的product_id字段与数据表2的product_id字段标识相同的信息,此时用户配置完成后,会生成较深的纵向连接关系,如图3所示,此时该任务的数据表为关系型数据表。当用户选择一张数据表时,此时仅产生本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动特征生成系统,其特征在于,包括:数据表分析单元,用于对用户输入的数据表进行分析;用户接口单元,用于呈现数据表分析单元的分析结果,并接收用户的选择的使用字段,以及接收用户配置的数据表关联关系;数据处理单元,用于根据数据表关系结构提取样本对应的数据;特征生成单元,根据数据表关系结构,选择合适的特征生成算法进行特征生成;特征处理单元,用于对生成的特征数据进行特征分析。2.根据权利要求1所述的自动特征生成系统,其特征在于,还包括:算法选择单元,用于当用户选择多张数据表时,根据表的数量和关系选择不同的特征生成算法。3.根据权利要求1所述的自动特征生成系统,其特征在于,数据表分析单元完成如下操作:1)当数据表太大时,对数据表进行随机抽样;2)对抽样的数据每一列进行字段类型判断,得到每一列字段最可能的数据类型;3)对每一列字段,根据判断出的数据类型,计算对应的统计指标;4)对每一列字段,根据判断的数据类型以及对应的统计指标,判断是否建议使用该字段。4.根据权利要求3所述的自动特征生成系统,其特征在于,所述数据类型包括:数值型、离散型、分类型、时间型、ID型和字符型;所述统计指标包括:数值型字段计算最大值、均值、方差、峰度、字符型字段计算字符串最大长度以及字符串是否包含中文。5.根据权利要求4所述的自动特征生成系统,其特征在于,当离散型字段的众数占比超过90%则不使用该字段,和/或数...

【专利技术属性】
技术研发人员:杨帆周楚杰黄馨
申请(专利权)人:北京融七牛信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1