【技术实现步骤摘要】
特征构建方法和装置、模型训练方法和装置、设备、介质
[0001]本申请实施例涉及人工智能领域,特别涉及特征构建方法和装置、模型训练方法和装置、电子设备、计算机可读存储介质。
技术介绍
[0002]机器学习是人工智能领域的一个重要分支,通过机器学习可以进行模型训练,从而为很多领域提供应用。近年来,机器学习在金融服务、医疗保健、交通物流等领域取得了较好的效果。然而,在模型训练过程中,有很多环节严重依赖专业人员去完成,比如数据预处理、特征工程、模型选择、参数优化,这就限制了机器学习在更多工业领域的推动和发展。更准确的说,在机器学习应用中,进行数据预处理和特征工程耗费了很多时间,而算法和模型的优化往往仅仅占到工作量的20%。因此,特征工程方面的改进是非常有意义的。
[0003]自动机器学习试图将模型训练的全流程进行自动化,是机器学习当下最热的领域之一。广义来说,自动机器学习包含传统机器学习领域的自动机器学习(AUTOML,Automatic Machine Learning)和深度学习领域的自动深度学习(AutoDL,Automatic Deep Learning)。
[0004]然而目前的情况是,各种AutoML技术远没有真正达到全流程自动化。总体上看,AutoML关注的重点方向有如下几个:自动特征工程、自动模型选择、自动超参数选择。在自动模型选择和自动超参数选择方面,出现了一些公认比较有效的成熟框架。而自动特征工程主要包含特征变换、特征构建、特征选择和特征评估,目前在特征变换和特征构建方面尚无法实现完全的 ...
【技术保护点】
【技术特征摘要】
1.一种特征构建方法,包括:获取第一数据;其中,所述第一数据包括:至少一个样本的第一特征数据,每一个所述样本的所述第一特征数据包括:至少一个第一特征的第一特征值和第一结果值;根据所述第一数据进行第一特征构建得到第二数据;其中,所述第二数据包括:至少一个所述样本的第二特征数据,每一个所述样本的所述第二特征数据包括:至少一个第二特征的第二特征值和第一结果值。2.根据权利要求1所述的特征构建方法,其中,所述根据第一数据进行第一特征构建得到第二数据包括:在存在与第一列相关性极强的第二列的情况下,将所述第一数据作为所述第二数据;其中,所述第一列为所述第一数据中包括所有所述样本的所述第一结果值的列,所述第二列为所述第一数据中包括所有所述样本的同一个所述第一特征的所述第一特征值的列。3.根据权利要求1所述的特征构建方法,其中,所述根据第一数据进行第一特征构建得到第二数据包括:在不存在与第一列相关性极强的第二列的情况下,根据所述第一数据进行第二特征构建得到所述第二数据;其中,所述第一列为所述第一数据中包括所有所述样本的所述第一结果值的列,所述第二列为所述第一数据中包括所有所述样本的同一个所述第一特征的所述第一特征值的列。4.根据权利要求3所述的特征构建方法,其中,所述根据第一数据进行第二特征构建得到第二数据包括:基于预先设置的第一特征筛选规则从所述第一数据中获取第三数据,根据所述第三数据进行一阶特征构造得到第四数据;在存在与所述第一列相关性极强的第三列的情况下,将所述第四数据作为所述第二数据;其中,所述第三数据包括:至少一个所述样本的第三特征数据,每一个所述样本的所述第三特征数据包括:至少一个第三特征的第一特征值和第一结果值;所述第三特征包括:所述第一特征中满足所述第一特征筛选规则的特征;所述第四数据包括:至少一个所述样本的第四特征数据,每一个所述样本的所述第四特征数据包括:至少一个第四特征的第三特征值和第一结果值;所述第四特征包括:所述第三特征,以及进行一阶特征构造得到的特征;所述第三列为所述第四数据中包括所有所述样本的同一个所述第四特征的所述第三特征值的列。5.根据权利要求4所述的特征构建方法,其中,所述根据第三数据进行一阶特征构造得到第四数据包括以下至少之一:计算所述第三数据中每一个所述样本的所述第三特征中的任意两个连续型特征的第一特征值之和,得到所述样本的所述第四特征的所述第三特征值;计算所述第三数据中每一个所述样本的所述第三特征中的任意两个连续型特征的第一特征值之差,得到所述样本的所述第四特征的所述第三特征值;
计算所述第三数据中每一个所述样本的所述第三特征中的任意两个连续型特征的所述第一特征值的乘积,得到所述样本的所述第四特征的所述第三特征值;计算所述第三数据中每一个所述样本的所述第三特征中的任意两个连续型特征的所述第一特征值的比值,得到所述样本的所述第四特征的所述第三特征值;计算所述第三数据中N个所述样本的所述第三特征中的任意一个连续型特征的所述第一特征值的均值,得到中间样本的所述第四特征的所述第三特征值;其中,N为整数;将所述第三数据中每一个所述样本的所述第三特征中的任意一个特征的所述第一特征值进行分箱处理,得到所述样本的所述第四特征的所述第三特征值;保留所述第三数据中每一个所述样本的所述第三特征中的任意一个离散型特征的所述第一特征值不变,得到所述样本的所述第四特征的所述第三特征值。6.根据权利要求4所述的特征构建方法,所述根据第一数据进行第二特征构建得到第二数据还包括:在不存在与所述第一列相关性极强的第三列的情况下,基于所述第一特征筛选规则从所述第四数据中获取第五数据,根据所述第五数据进行二阶特征构造得到第六数据,将所述第六数据作为所述第二数据;其中,所述第五数据包括:至少一个样本的第五特征数据,每一个所述样本的第五特征数据包括:至少一个第五特征的第三特征值和第一结果值;所述第五特征包括:所述第四特征中满足所述第一特征筛选规则的特征;所述第六数据包括:至少一个样本的第六特征数据,每一个所述样本的第六特征数据包括:至少一个第六特征的第四特征值和第一结果值;所述第六特征包括:所述第五特征,以及进行二阶特征构造得到的特征。7.根据权利要求6所述的特征构建方法,其中,所述根据第五数据进行二阶特征构造得到第六数据包括以下至少之一:计算所述第五数据中每一个所述样本的所述第五特征中的任意一个连续型特征的所述第三特征值的平方,得到所述样本的所述第六特征的所述第四特征值;计算所述第五数据中每一个所述样本的所述第五特征中的任意两个连续型特征的所述第三特征值的乘积,得到所述样本的所述第六特征的所述第四特征值;计算所述第五数据中每一个所述样本的所述第五特征中的任意一个连续型特征的所述第三特征值的方差,得到所述样本的所述第六特征的所述第四特征值;保持所述第五数据中每一个所述样本的所述第五特征中的任意一个离散型特征的所述第三特征值不变,得到所述样本的所述第六特征的所述第四特征值。8.根据权利要求4
‑
7任意一项所述的特征构建方法,其中,所述第一特征筛选规则包括以下任意一种:选择方差最高的M个特征;选择与所述第一列相关性最高的M个第四列对应的特征;其中,所述第四列为某一个数据中包括所有所述样本的同一个特征的特征值的列;选择最大信息系数最高的M个特征;其中,M为整数。9.根据权利要求1
‑
7任意一项所述的特征构建方法,其中,所述获取第一数据包括:
获取第七数据;其中,所述第七数据包括:至少一个样本的第七特征数据,每一个所述样本的第七特征数据包括:至少一个第七特征的第五特征值和第二结果值;将所述第七数据进行第一预处理得到第八数据;其中,所述第八数据包括:至少一个样本的第八特征数据,每一个所述样本的第八特征数据包括:至少一个第八特征的第六特征值和第二结果值;将所述第八数据进行第二预处理得到所述第一数据。10.根据权利要求9所述的特征构建方法,其中,所述将第七数据进行第一预处理得到第八数据包括以下至少之一:对所述第七数据中缺少的所述第五特征值进行填充,对所述第七数据中缺少的所述第二结果值进行填充;去除所述第七特征中冗余特征的所述第五特征值;对所述第七特征中的非高斯分布的连...
【专利技术属性】
技术研发人员:张梁,
申请(专利权)人:中兴通讯股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。