用于机器学习特征工程的参数优化方法和装置制造方法及图纸

技术编号:38139794 阅读:14 留言:0更新日期:2023-07-08 09:53
本公开提供了一种用于机器学习特征工程的参数优化方法和装置,所述方法包括:获取当前样本空间,对所述当前样本空间中的第一训练样本的维度特征进行重要性量化;根据量化结果对所述第一训练样本中的维度进行降序排序;在对神经网络模型进行训练的过程中,对于第i次训练,从所述第一训练样本中选取排序前i的维度特征形成与所述第一训练样本对应的第二训练样本,利用所述第二训练样本对所述神经网络模型进行训练,生成目标模型,其中,i为自然数,i小于等于n,n为第一训练样本的特征维度;对所述目标模型进行验证,选取满足预设条件的模型作为最终模型。以此方式,能够对特征进行自动化评估,进而提高工作效率和生成的模型的准确度。度。度。

【技术实现步骤摘要】
用于机器学习特征工程的参数优化方法和装置


[0001]本公开的实施例一般涉及机器学习
,并且更具体地,涉及一种用于机器学习特征工程的参数优化方法和装置。

技术介绍

[0002]特征工程是从原始数据中筛选出数据特征用以提升模型的训练效果。一般而言,机器学习过程的第一步就是先对样本的特征集进行定义,然后再根据所定义的特征选择合适的样本集进行训练。这个过程往往会经历比较耗时的调参数过程,即研究人员需要对数据可能的特征进行不同可能的组合选择和重新组合,以得到一个较好的满足需求的训练模型。从数学层面,很容易分析出n个特性可能的组合会有n!种。同时,在此分析过程当中,由于需要人工去调整和组合,对于n!种可能的组合,往往需要利用人类经验去筛选,以减少测试的空间。然而,找到合适的模型通常比较困难:不仅需要较高的经验,同时也会消耗相当多的时间。

技术实现思路

[0003]根据本公开的实施例,提供了一种用于机器学习特征工程的参数优化方案,用于对特征进行自动化评估,进而提高工作效率和生成的模型的准确度。
[0004]在本公开的第一方面,提供了一种用于机器学习特征工程的参数优化方法,包括:
[0005]获取当前样本空间,对所述当前样本空间中的第一训练样本的维度特征进行重要性量化;
[0006]根据量化结果对所述第一训练样本中的维度进行降序排序;
[0007]在对神经网络模型进行训练的过程中,对于第i次训练,从所述第一训练样本中选取排序前i的维度特征形成与所述第一训练样本对应的第二训练样本,利用所述第二训练样本对所述神经网络模型进行训练,生成目标模型,其中,i为自然数,i小于等于n,n为第一训练样本的特征维度;
[0008]对所述目标模型进行验证,选取满足预设条件的模型作为最终模型。
[0009]在一些实施例中,所述对所述当前样本空间中的第一训练样本的维度特征进行重要性量化,包括:
[0010]通过样本偏差值对所述第一训练样本的维度特征进行重要性量化,其中第i维特征的偏差指数w
i
通过以下方式计算:
[0011][0012]其中,w
i
为偏差指数,m为所述当前样本空间中的第一训练样本的数量。
[0013]在一些实施例中,所述根据量化结果对所述第一训练样本中的维度进行降序排序,包括:
[0014]按照样本偏差值由高到低的顺序对所述第一训练样本中的维度进行降序排序。
[0015]在一些实施例中,在所述根据量化结果对所述第一训练样本中的维度进行降序排序之后,还包括:将所述当前样本空间中的第一训练样本划分为训练集和验证集;
[0016]在对神经网络模型进行训练的过程中,从所述训练集中选取排序前i的维度特征形成与所述第一训练样本对应的第二训练样本对所述神经网络模型进行训练。
[0017]在一些实施例中,在所述生成目标模型之后,所述方法还包括:
[0018]利用所述验证集对所述目标模型进行验证。
[0019]在一些实施例中,所述利用所述验证集对所述目标模型进行验证,包括:
[0020]根据实际应用的需求,选择正确率、精准率、召回率或F1作为评价指标,利用所述验证集对所述目标模型进行验证。
[0021]在一些实施例中,所述对所述目标模型进行验证,选取满足预设条件的模型作为最终模型,包括:
[0022]对于生成的多个目标模型,根据利用所述验证集对所述目标模型进行验证的结果,选择模型识别准确率大于预设阈值的目标模型作为最终的目标模型。
[0023]在本公开的第二方面,提供了一种用于机器学习特征工程的参数优化装置,包括:
[0024]样本空间获取模块,用于获取当前样本空间,对所述当前样本空间中的第一训练样本的维度特征进行重要性量化;
[0025]维度排序模块,用于根据量化结果对所述第一训练样本中的维度进行降序排序;
[0026]模型训练模块,用于在对神经网络模型进行训练的过程中,对于第i次训练,从所述第一训练样本中选取排序前i的维度特征形成与所述第一训练样本对应的第二训练样本,利用所述第二训练样本对所述神经网络模型进行训练,生成目标模型,其中,i为自然数,i小于等于n,n为第一训练样本的特征维度;
[0027]模型验证模块,用于对所述目标模型进行验证,选取满足预设条件的模型作为最终模型。
[0028]在本公开的第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
[0029]在本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
[0030]通过本公开的用于机器学习特征工程的参数优化方法,能够对特征进行自动化评估,进而提高工作效率和生成的模型的准确度。
[0031]
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
[0032]结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
[0033]图1示出了本公开实施例一的用于机器学习特征工程的参数优化方法的流程图;
[0034]图2示出了本公开实施例二的用于机器学习特征工程的参数优化装置的结构示意图;
[0035]图3示出了用来实施本公开的实施例的电子设备的示意性框图。
具体实施方式
[0036]为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
[0037]另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0038]本公开实施例的用于机器学习特征工程的参数优化方法,能够实现特征评估过程的自动化,通过此过程能够有效的选择合适的特征参数,作为系统的特征工程模型,充分利用计算机实现了人工评估过程,不仅大大提高了工作效率,同时也有效地提高了模型的准确性。
[0039]具体地,如图1所示,为本公开实施例一的用于机器学习特征工程的参数优化方法的流程图。作为本公开的一个可选实施例,在本实施例中,所述用于机器学习特征工程的参数优化方法,可以包括以下步骤:
[0040]S101:获取当前样本空间,对所述当前样本空间中的第一训练样本的维度特征进行重要性量化。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.用于机器学习特征工程的参数优化方法,其特征在于,包括:获取当前样本空间,对所述当前样本空间中的第一训练样本的维度特征进行重要性量化;根据量化结果对所述第一训练样本中的维度进行降序排序;在对神经网络模型进行训练的过程中,对于第i次训练,从所述第一训练样本中选取排序前i的维度特征形成与所述第一训练样本对应的第二训练样本,利用所述第二训练样本对所述神经网络模型进行训练,生成目标模型,其中,i为自然数,i小于等于n,n为第一训练样本的特征维度;对所述目标模型进行验证,选取满足预设条件的模型作为最终模型。2.根据权利要求1所述的参数优化方法,其特征在于,所述对所述当前样本空间中的第一训练样本的维度特征进行重要性量化,包括:通过样本偏差值对所述第一训练样本的维度特征进行重要性量化,其中第i维特征的偏差指数w
i
通过以下方式计算:其中,w
i
为偏差指数,m为所述当前样本空间中的第一训练样本的数量。3.根据权利要求1所述的参数优化方法,其特征在于,所述根据量化结果对所述第一训练样本中的维度进行降序排序,包括:按照样本偏差值由高到低的顺序对所述第一训练样本中的维度进行降序排序。4.根据权利要求3所述的参数优化方法,其特征在于,在所述根据量化结果对所述第一训练样本中的维度进行降序排序之后,还包括:将所述当前样本空间中的第一训练样本划分为训练集和验证集;在对神经网络模型进行训练的过程中,从所述训练集中选取排序前i的维度特征形成与所述第一训练样本对应的第二训练样本对所述神经网络模型进行训练。5.根据权利要求4所述的参数优化方法,其特征在于,在所述生...

【专利技术属性】
技术研发人员:郝伟刘加瑞陈勇
申请(专利权)人:安徽华云安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1