用于机器学习特征工程的参数优化方法和装置制造方法及图纸

技术编号：38139794 阅读：14 留言：0更新日期：2023-07-08 09:53

本公开提供了一种用于机器学习特征工程的参数优化方法和装置，所述方法包括：获取当前样本空间，对所述当前样本空间中的第一训练样本的维度特征进行重要性量化；根据量化结果对所述第一训练样本中的维度进行降序排序；在对神经网络模型进行训练的过程中，对于第i次训练，从所述第一训练样本中选取排序前i的维度特征形成与所述第一训练样本对应的第二训练样本，利用所述第二训练样本对所述神经网络模型进行训练，生成目标模型，其中，i为自然数，i小于等于n，n为第一训练样本的特征维度；对所述目标模型进行验证，选取满足预设条件的模型作为最终模型。以此方式，能够对特征进行自动化评估，进而提高工作效率和生成的模型的准确度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
用于机器学习特征工程的参数优化方法和装置

[0001]本公开的实施例一般涉及机器学习
，并且更具体地，涉及一种用于机器学习特征工程的参数优化方法和装置。

技术介绍

[0002]特征工程是从原始数据中筛选出数据特征用以提升模型的训练效果。一般而言，机器学习过程的第一步就是先对样本的特征集进行定义，然后再根据所定义的特征选择合适的样本集进行训练。这个过程往往会经历比较耗时的调参数过程，即研究人员需要对数据可能的特征进行不同可能的组合选择和重新组合，以得到一个较好的满足需求的训练模型。从数学层面，很容易分析出n个特性可能的组合会有n！种。同时，在此分析过程当中，由于需要人工去调整和组合，对于n！种可能的组合，往往需要利用人类经验去筛选，以减少测试的空间。然而，找到合适的模型通常比较困难：不仅需要较高的经验，同时也会消耗相当多的时间。

技术实现思路

[0003]根据本公开的实施例，提供了一种用于机器学习特征工程的参数优化方案，用于对特征进行自动化评估，进而提高工作效率和生成的模型的准确度。
[0004]在本公开的第一方面，提供了一种用于机器学习特征工程的参数优化方法，包括：
[0005]获取当前样本空间，对所述当前样本空间中的第一训练样本的维度特征进行重要性量化；
[0006]根据量化结果对所述第一训练样本中的维度进行降序排序；
[0007]在对神经网络模型进行训练的过程中，对于第i次训练，从所述第一训练样本中选取排序前i的维度特征形成与所述第一训练样本对应的第二训练样本...

【技术保护点】

【技术特征摘要】
1.用于机器学习特征工程的参数优化方法，其特征在于，包括：获取当前样本空间，对所述当前样本空间中的第一训练样本的维度特征进行重要性量化；根据量化结果对所述第一训练样本中的维度进行降序排序；在对神经网络模型进行训练的过程中，对于第i次训练，从所述第一训练样本中选取排序前i的维度特征形成与所述第一训练样本对应的第二训练样本，利用所述第二训练样本对所述神经网络模型进行训练，生成目标模型，其中，i为自然数，i小于等于n，n为第一训练样本的特征维度；对所述目标模型进行验证，选取满足预设条件的模型作为最终模型。2.根据权利要求1所述的参数优化方法，其特征在于，所述对所述当前样本空间中的第一训练样本的维度特征进行重要性量化，包括：通过样本偏差值对所述第一训练样本的维度特征进行重要性量化，其中第i维特征的偏差指数w
i
通过以下方式计算：其中，w
i
为偏差指数，m为所述当前样本空间中的第一训练样本的数量。3.根据权利要求1所述的参数优化方法，其特征在于，所述根据量化结果对所述第一训练样本中的维度进行降序排序，包括：按照样本偏差值由高到低的顺序对所述第一训练样本中的维度进行降序排序。4.根据权利要求3所述的参数优化方法，其特征在于，在所述根据量化结果对所述第一训练样本中的维度进行降序排序之后，还包括：将所述当前样本空间中的第一训练样本划分为训练集和验证集；在对神经网络模型进行训练的过程中，从所述训练集中选取排序前i的维度特征形成与所述第一训练样本对应的第二训练样本对所述神经网络模型进行训练。5.根据权利要求4所述的参数优化方法，其特征在于，在所述生...

【专利技术属性】
技术研发人员：郝伟，刘加瑞，陈勇，
申请(专利权)人：安徽华云安科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人