特征构建方法和装置、模型训练方法和装置、设备、介质制造方法及图纸

技术编号:34285021 阅读:59 留言:0更新日期:2022-07-27 08:13
本申请提供了一种特征构建方法和装置、模型训练方法和装置、电子设备、计算机可读存储介质,特征构建方法包括:获取第一数据;其中,第一数据包括:至少一个样本的第一特征数据,每一个样本的所述第一特征数据包括:至少一个第一特征的第一特征值和第一结果值;根据第一数据进行第一特征构建得到第二数据;其中,第二数据包括:至少一个样本的第二特征数据,每一个样本的所述第二特征数据包括:至少一个第二特征的第二特征值和第一结果值。二特征的第二特征值和第一结果值。二特征的第二特征值和第一结果值。

【技术实现步骤摘要】
特征构建方法和装置、模型训练方法和装置、设备、介质


[0001]本申请实施例涉及人工智能领域,特别涉及特征构建方法和装置、模型训练方法和装置、电子设备、计算机可读存储介质。

技术介绍

[0002]机器学习是人工智能领域的一个重要分支,通过机器学习可以进行模型训练,从而为很多领域提供应用。近年来,机器学习在金融服务、医疗保健、交通物流等领域取得了较好的效果。然而,在模型训练过程中,有很多环节严重依赖专业人员去完成,比如数据预处理、特征工程、模型选择、参数优化,这就限制了机器学习在更多工业领域的推动和发展。更准确的说,在机器学习应用中,进行数据预处理和特征工程耗费了很多时间,而算法和模型的优化往往仅仅占到工作量的20%。因此,特征工程方面的改进是非常有意义的。
[0003]自动机器学习试图将模型训练的全流程进行自动化,是机器学习当下最热的领域之一。广义来说,自动机器学习包含传统机器学习领域的自动机器学习(AUTOML,Automatic Machine Learning)和深度学习领域的自动深度学习(AutoDL,Automatic Deep Learning)。
[0004]然而目前的情况是,各种AutoML技术远没有真正达到全流程自动化。总体上看,AutoML关注的重点方向有如下几个:自动特征工程、自动模型选择、自动超参数选择。在自动模型选择和自动超参数选择方面,出现了一些公认比较有效的成熟框架。而自动特征工程主要包含特征变换、特征构建、特征选择和特征评估,目前在特征变换和特征构建方面尚无法实现完全的自动化。

技术实现思路

[0005]本申请实施例提供一种特征构建方法和装置、模型训练方法和装置、电子设备、计算机可读存储介质。
[0006]第一方面,本申请实施例提供一种特征构建方法,包括:
[0007]获取第一数据;其中,第一数据包括:至少一个样本的第一特征数据,每一个样本的第一特征数据包括:至少一个第一特征的第一特征值和第一结果值;
[0008]根据第一数据进行第一特征构建得到第二数据;其中,第二数据包括:至少一个样本的第二特征数据,每一个样本的第二特征数据包括:至少一个第二特征的第二特征值和第一结果值。
[0009]第二方面,本申请实施例提供一种模型训练方法,包括:
[0010]获取第一数据;其中,第一数据包括:至少一个样本的第一特征数据,每一个样本的第一特征数据包括:至少一个第一特征的第一特征值和第一结果值;
[0011]根据第一数据进行第一特征构建得到第二数据;其中,第二数据包括:至少一个样本的第二特征数据,每一个样本的第二特征数据包括:至少一个第二特征的第二特征值和第一结果值;
[0012]根据第二特征筛选规则从第二数据中获取第九数据;其中,第九数据包括:至少一个样本的第九特征数据,每一个样本的第九特征数据包括:至少一个第九特征的第二特征值和第一结果值;第九特征包括:第二特征中满足第二特征筛选规则的特征;
[0013]根据第九数据进行模型训练得到第一最佳模型。
[0014]第三方面,本申请实施例提供一种电子设备,包括:
[0015]至少一个处理器;
[0016]存储器,存储器上存储有至少一个程序,当至少一个程序被至少一个处理器执行时,实现上述任意一种特征构建方法,或上述任意一种模型训练方法。
[0017]第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述任意一种特征构建方法,或上述任意一种模型训练方法。
[0018]本申请实施例提供的特征构建方法,先获取第一数据,然后基于第一数据进行特征构建得到第二数据,实现了特征构建的完全自动化。
[0019]本申请实施例提供的模型训练方法,先获取第一数据,然后基于第一数据进行特征构建得到第二数据,再进行特征选择得到第九数据,最后基于第九数据进行模型训练得到第一最佳模型,由于实现了特征构建的自动化,进而实现了从特征构建开始的模型训练全过程的完全自动化。
附图说明
[0020]图1为本申请实施例基于AutoML的模型训练装置或系统的组成框图;
[0021]图2为本申请一个实施例提供的特征构建方法的流程图;
[0022]图3为本申请另一个实施例提供的模型训练方法的流程图;
[0023]图4为本申请实施例的示例1的模型训练方法的流程图;
[0024]图5为本申请实施例的示例2的模型训练方法的流程图;
[0025]图6为本申请另一个实施例提供的特征构建装置的组成框图;
[0026]图7为本申请另一个实施例提供的模型训练装置的组成框图。
具体实施方式
[0027]为使本领域的技术人员更好地理解本申请的技术方案,下面结合附图对本申请提供的特征构建方法和装置、模型训练方法和装置、电子设备、计算机可读存储介质进行详细描述。
[0028]在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本申请透彻和完整,并将使本领域技术人员充分理解本申请的范围。
[0029]在不冲突的情况下,本申请各实施例及实施例中的各特征可相互组合。
[0030]如本文所使用的,术语“和/或”包括至少一个相关列举条目的任何和所有组合。
[0031]本文所使用的术语仅用于描述特定实施例,且不意欲限制本申请。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由
……
制成”时,指定存在所述特征、整体、步骤、
操作、元件和/或组件,但不排除存在或添加至少一个其它特征、整体、步骤、操作、元件、组件和/或其群组。
[0032]除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本申请的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
[0033]在特征变换、特征构建方面,目前业界使用较多的工具是FeatureTools,它可以基于用户指定的多张表生成新特征,但生成特征的规则仍需用户定义,比如在用户需要明确生成特征所使用的操作,对于类别特征也许指定后才能对特征进行编码。所以FeatureTools的本质是为方便用户快速生成特征,是定义了一些生成特征的基本操作让方便用户来“拼出”自己需要的数据表,因此仍需进行较多人工干预,无法达到充分的自动化。
[0034]图1为本申请实施例基于AutoML的模型训练装置或系统的组成框图。如图1所示,模型训练装置或系统包括:自动特征工程模块101、自动模型选择模块102、自动超参数优化模块103和自动模型评估模块104本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特征构建方法,包括:获取第一数据;其中,所述第一数据包括:至少一个样本的第一特征数据,每一个所述样本的所述第一特征数据包括:至少一个第一特征的第一特征值和第一结果值;根据所述第一数据进行第一特征构建得到第二数据;其中,所述第二数据包括:至少一个所述样本的第二特征数据,每一个所述样本的所述第二特征数据包括:至少一个第二特征的第二特征值和第一结果值。2.根据权利要求1所述的特征构建方法,其中,所述根据第一数据进行第一特征构建得到第二数据包括:在存在与第一列相关性极强的第二列的情况下,将所述第一数据作为所述第二数据;其中,所述第一列为所述第一数据中包括所有所述样本的所述第一结果值的列,所述第二列为所述第一数据中包括所有所述样本的同一个所述第一特征的所述第一特征值的列。3.根据权利要求1所述的特征构建方法,其中,所述根据第一数据进行第一特征构建得到第二数据包括:在不存在与第一列相关性极强的第二列的情况下,根据所述第一数据进行第二特征构建得到所述第二数据;其中,所述第一列为所述第一数据中包括所有所述样本的所述第一结果值的列,所述第二列为所述第一数据中包括所有所述样本的同一个所述第一特征的所述第一特征值的列。4.根据权利要求3所述的特征构建方法,其中,所述根据第一数据进行第二特征构建得到第二数据包括:基于预先设置的第一特征筛选规则从所述第一数据中获取第三数据,根据所述第三数据进行一阶特征构造得到第四数据;在存在与所述第一列相关性极强的第三列的情况下,将所述第四数据作为所述第二数据;其中,所述第三数据包括:至少一个所述样本的第三特征数据,每一个所述样本的所述第三特征数据包括:至少一个第三特征的第一特征值和第一结果值;所述第三特征包括:所述第一特征中满足所述第一特征筛选规则的特征;所述第四数据包括:至少一个所述样本的第四特征数据,每一个所述样本的所述第四特征数据包括:至少一个第四特征的第三特征值和第一结果值;所述第四特征包括:所述第三特征,以及进行一阶特征构造得到的特征;所述第三列为所述第四数据中包括所有所述样本的同一个所述第四特征的所述第三特征值的列。5.根据权利要求4所述的特征构建方法,其中,所述根据第三数据进行一阶特征构造得到第四数据包括以下至少之一:计算所述第三数据中每一个所述样本的所述第三特征中的任意两个连续型特征的第一特征值之和,得到所述样本的所述第四特征的所述第三特征值;计算所述第三数据中每一个所述样本的所述第三特征中的任意两个连续型特征的第一特征值之差,得到所述样本的所述第四特征的所述第三特征值;
计算所述第三数据中每一个所述样本的所述第三特征中的任意两个连续型特征的所述第一特征值的乘积,得到所述样本的所述第四特征的所述第三特征值;计算所述第三数据中每一个所述样本的所述第三特征中的任意两个连续型特征的所述第一特征值的比值,得到所述样本的所述第四特征的所述第三特征值;计算所述第三数据中N个所述样本的所述第三特征中的任意一个连续型特征的所述第一特征值的均值,得到中间样本的所述第四特征的所述第三特征值;其中,N为整数;将所述第三数据中每一个所述样本的所述第三特征中的任意一个特征的所述第一特征值进行分箱处理,得到所述样本的所述第四特征的所述第三特征值;保留所述第三数据中每一个所述样本的所述第三特征中的任意一个离散型特征的所述第一特征值不变,得到所述样本的所述第四特征的所述第三特征值。6.根据权利要求4所述的特征构建方法,所述根据第一数据进行第二特征构建得到第二数据还包括:在不存在与所述第一列相关性极强的第三列的情况下,基于所述第一特征筛选规则从所述第四数据中获取第五数据,根据所述第五数据进行二阶特征构造得到第六数据,将所述第六数据作为所述第二数据;其中,所述第五数据包括:至少一个样本的第五特征数据,每一个所述样本的第五特征数据包括:至少一个第五特征的第三特征值和第一结果值;所述第五特征包括:所述第四特征中满足所述第一特征筛选规则的特征;所述第六数据包括:至少一个样本的第六特征数据,每一个所述样本的第六特征数据包括:至少一个第六特征的第四特征值和第一结果值;所述第六特征包括:所述第五特征,以及进行二阶特征构造得到的特征。7.根据权利要求6所述的特征构建方法,其中,所述根据第五数据进行二阶特征构造得到第六数据包括以下至少之一:计算所述第五数据中每一个所述样本的所述第五特征中的任意一个连续型特征的所述第三特征值的平方,得到所述样本的所述第六特征的所述第四特征值;计算所述第五数据中每一个所述样本的所述第五特征中的任意两个连续型特征的所述第三特征值的乘积,得到所述样本的所述第六特征的所述第四特征值;计算所述第五数据中每一个所述样本的所述第五特征中的任意一个连续型特征的所述第三特征值的方差,得到所述样本的所述第六特征的所述第四特征值;保持所述第五数据中每一个所述样本的所述第五特征中的任意一个离散型特征的所述第三特征值不变,得到所述样本的所述第六特征的所述第四特征值。8.根据权利要求4

7任意一项所述的特征构建方法,其中,所述第一特征筛选规则包括以下任意一种:选择方差最高的M个特征;选择与所述第一列相关性最高的M个第四列对应的特征;其中,所述第四列为某一个数据中包括所有所述样本的同一个特征的特征值的列;选择最大信息系数最高的M个特征;其中,M为整数。9.根据权利要求1

7任意一项所述的特征构建方法,其中,所述获取第一数据包括:
获取第七数据;其中,所述第七数据包括:至少一个样本的第七特征数据,每一个所述样本的第七特征数据包括:至少一个第七特征的第五特征值和第二结果值;将所述第七数据进行第一预处理得到第八数据;其中,所述第八数据包括:至少一个样本的第八特征数据,每一个所述样本的第八特征数据包括:至少一个第八特征的第六特征值和第二结果值;将所述第八数据进行第二预处理得到所述第一数据。10.根据权利要求9所述的特征构建方法,其中,所述将第七数据进行第一预处理得到第八数据包括以下至少之一:对所述第七数据中缺少的所述第五特征值进行填充,对所述第七数据中缺少的所述第二结果值进行填充;去除所述第七特征中冗余特征的所述第五特征值;对所述第七特征中的非高斯分布的连...

【专利技术属性】
技术研发人员:张梁
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1