融合人工经验和集成学习策略的机器学习方法及装置制造方法及图纸

技术编号:27937683 阅读:13 留言:0更新日期:2021-04-02 14:18
本申请实施例提供一种融合人工经验和集成学习策略的机器学习方法及装置,方法包括:根据预设训练数据和多个预设异质算法,生成多个独立的基模型;根据多个所述基模型得到对应的集成训练集和集成测试集;根据所述集成训练集采用交叉验证方法和超参数优化方法进行元模型训练,并根据所述集成测试集对所述元模型训练的结果进行效果评定,得到符合所述效果评定的合格条件的元模型;本申请能够将Auto ML与人工经验结合,二者在学习过程中共同进行决策,充分利用机器的执行效率和人工经验的先验知识指导作用,提升学习效果。

【技术实现步骤摘要】
融合人工经验和集成学习策略的机器学习方法及装置
本申请涉及机器学习领域,具体涉及一种融合人工经验和集成学习策略的机器学习方法及装置。
技术介绍
自动机器学习(AutoML,AutomatedMachineLearning)是2014年以来,机器学习和深度学习领域最炙手可热的方向之一。AutoML试图将模型训练过程中包括数据处理、特征提取、参数调节等在内的步骤实现全自动化处理,从而降低操作人员使用门槛并提升模型训练效率。AutoML划分为两个类别:传统的AutoML和深度AutoML。前者是为了解决传统机器学习的建模问题,它面向的是传统机器学习相关算法,如线性回归、逻辑回归、决策树等等;后者更多的是面向深度学习中神经网络的建模。目前业界已经出现若干开源AutoML框架如AutoSklearn、TPOT、ATM、AutoKeras等等,也有一些商业化工具如GoogleCloudAutoML、阿里PAI等等,这些都丰富了AutoML实现方法。然而AutoML并不是万能的,并不是所有的机器学习问题都能交由它来完成,它是针对特定领域所提供的自动化解决方案。缺陷和不足:(1)人工经验的浪费一方面,在一些场景下AutoML还不能保证百分百覆盖整个建模过程。AutoML主要实现的是机器学习关键、繁琐步骤的自动化以减少人力劳动,但如特殊格式数据组织、深层特征挖掘等等工作,都还需要人工参与才能完成。另一方面,AutoML的实现是以大量计算为代价的,因为过程中一切自动化决策都是通过计算得出的。而人工经验具有先验知识的作用,适当地融入人工经验不仅可以减少许多额外计算工作,在有些情况下能够避免机器的错误决策。因此,自动化学习结合人工经验辅助决策的方式,是一种可取的提升机器学习模型构建效果的方案。(2)次优模型的浪费机器学习最终选择的是一个最优模型(表现最好的),而过程中会产生很多次优模型,这些模型在某些评估指标表现优秀而其他指标不尽人意,最终综合评定不及最优模型而遭到淘汰。但这并不代表它们没有利用价值,正相反,它们往往表征了数据的某些特质,而这些特质在最优模型上未必表现出来(最优模型取综合评分最高,因此可能会忽略某些特性)。如果可以充分利用这些模型,让它们一同影响最终模型输出,则相比单一模型,整合输出的预测效果将得到很好的提升。
技术实现思路
针对现有技术中的问题,本申请提供一种融合人工经验和集成学习策略的机器学习方法及装置,能够将AutoML与人工经验结合,二者在学习过程中共同进行决策,充分利用机器的执行效率和人工经验的先验知识指导作用,提升学习效果。为了解决上述问题中的至少一个,本申请提供以下技术方案:第一方面,本申请提供一种融合人工经验和集成学习策略的机器学习方法,包括:根据预设训练数据和多个预设异质算法,生成多个独立的基模型;根据多个所述基模型得到对应的集成训练集和集成测试集;根据所述集成训练集采用交叉验证方法和超参数优化方法进行元模型训练,并根据所述集成测试集对所述元模型训练的结果进行效果评定,得到符合所述效果评定的合格条件的元模型。进一步地,在所述根据预设训练数据和多个预设异质算法,生成多个独立的基模型之前,包括:对原始训练数据进行数据和特征层面的分析处理过程进行封装,得到多个特征工程组件,所述特征工程组件包括数据概况分析组件、缺失值处理组件、格式转换组件、字典转换组件、特征编码组件、特征缩放组件、问题推测组件、数据碰撞组件、数据挖掘组件、数据预测组件中的至少一种。进一步地,所述根据预设训练数据和多个预设异质算法,生成多个独立的基模型,还包括:采用k折交叉验证训练方式,将训练数据进行划分,生成训练集和验证集;依次选取已确定的多个预设异质算法,一一对其进行搜索优化或贝叶斯优化。进一步地,所述根据多个所述基模型得到对应的集成训练集和集成测试集,包括:A.使用基模型1对训练集N进行预测,结果为一个1维n行的矩阵,记为N1;B.使用基模型1对测试集M进行预测,结果为一个1维m行的矩阵,记为M1;C.更换基模型,重复A、B步骤,直到K个模型均执行完毕,得到N1、N2、N3。。。NK和M1、M2、M3。。。MK;D.将N1、N2、N3。。。NK合并为一个K维n行的矩阵,记为N*;E.将M1、M2、M3。。。MK合并为一个K维m行的矩阵,记为M*;F.步骤中生成的N*和M*即为元模型训练使用的集成训练集和集成测试集。第二方面,本申请提供一种融合人工经验和集成学习策略的机器学习装置,包括:基模型确定模块,用于根据预设训练数据和多个预设异质算法,生成多个独立的基模型;集成训练集和集成测试集确定模块,用于根据多个所述基模型得到对应的集成训练集和集成测试集;元模型确定模块,用于根据所述集成训练集采用交叉验证方法和超参数优化方法进行元模型训练,并根据所述集成测试集对所述元模型训练的结果进行效果评定,得到符合所述效果评定的合格条件的元模型。进一步地,还包括:特征工程组件确定单元,用于对原始训练数据进行数据和特征层面的分析处理过程进行封装,得到多个特征工程组件,所述特征工程组件包括数据概况分析组件、缺失值处理组件、格式转换组件、字典转换组件、特征编码组件、特征缩放组件、问题推测组件、数据碰撞组件、数据挖掘组件、数据预测组件中的至少一种。进一步地,所述基模型确定模块包括:交叉验证单元,用于采用k折交叉验证训练方式,将训练数据进行划分,生成训练集和验证集;超参数优化单元,用于依次选取已确定的多个预设异质算法,一一对其进行搜索优化或贝叶斯优化。进一步地,所述集成训练集和集成测试集确定模块用于执行以下步骤:A.使用基模型1对训练集N进行预测,结果为一个1维n行的矩阵,记为N1;B.使用基模型1对测试集M进行预测,结果为一个1维m行的矩阵,记为M1;C.更换基模型,重复A、B步骤,直到K个模型均执行完毕,得到N1、N2、N3。。。NK和M1、M2、M3。。。MK;D.将N1、N2、N3。。。NK合并为一个K维n行的矩阵,记为N*;E.将M1、M2、M3。。。MK合并为一个K维m行的矩阵,记为M*;F.步骤中生成的N*和M*即为元模型训练使用的集成训练集和集成测试集。第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的融合人工经验和集成学习策略的机器学习方法的步骤。第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的融合人工经验和集成学习策略的机器学习方法的步骤。由上述技术方案可知,本申请提供一种融合人工经验和集成学习策略的机器学习方法及装置,通过将AutoML与人工经验结合,二者在本文档来自技高网
...

【技术保护点】
1.一种融合人工经验和集成学习策略的机器学习方法,其特征在于,所述方法包括:/n根据预设训练数据和多个预设异质算法,生成多个独立的基模型;/n根据多个所述基模型得到对应的集成训练集和集成测试集;/n根据所述集成训练集采用交叉验证方法和超参数优化方法进行元模型训练,并根据所述集成测试集对所述元模型训练的结果进行效果评定,得到符合所述效果评定的合格条件的元模型。/n

【技术特征摘要】
1.一种融合人工经验和集成学习策略的机器学习方法,其特征在于,所述方法包括:
根据预设训练数据和多个预设异质算法,生成多个独立的基模型;
根据多个所述基模型得到对应的集成训练集和集成测试集;
根据所述集成训练集采用交叉验证方法和超参数优化方法进行元模型训练,并根据所述集成测试集对所述元模型训练的结果进行效果评定,得到符合所述效果评定的合格条件的元模型。


2.根据权利要求1所述的融合人工经验和集成学习策略的机器学习方法,其特征在于,在所述根据预设训练数据和多个预设异质算法,生成多个独立的基模型之前,包括:
对原始训练数据进行数据和特征层面的分析处理过程进行封装,得到多个特征工程组件,所述特征工程组件包括数据概况分析组件、缺失值处理组件、格式转换组件、字典转换组件、特征编码组件、特征缩放组件、问题推测组件、数据碰撞组件、数据挖掘组件、数据预测组件中的至少一种。


3.根据权利要求1所述的融合人工经验和集成学习策略的机器学习方法,其特征在于,所述根据预设训练数据和多个预设异质算法,生成多个独立的基模型,还包括:
采用k折交叉验证训练方式,将训练数据进行划分,生成训练集和验证集;
依次选取已确定的多个预设异质算法,一一对其进行搜索优化或贝叶斯优化。


4.根据权利要求1所述的融合人工经验和集成学习策略的机器学习方法,其特征在于,所述根据多个所述基模型得到对应的集成训练集和集成测试集,包括:
A.使用基模型1对训练集N进行预测,结果为一个1维n行的矩阵,记为N1;
B.使用基模型1对测试集M进行预测,结果为一个1维m行的矩阵,记为M1;
C.更换基模型,重复A、B步骤,直到K个模型均执行完毕,得到N1、N2、N3…NK和M1、M2、M3…MK;
D.将N1、N2、N3…NK合并为一个K维n行的矩阵,记为N*;
E.将M1、M2、M3…MK合并为一个K维m行的矩阵,记为M*;
F.步骤中生成的N*和M*即为元模型训练使用的集成训练集和集成测试集。


5.一种融合人工经验和集成学习策略的机器学习装置,其特征在于,包括:
基模型确定模块,用于根据预设训练数据和多个预设异质算法,生成多个独立的基模型;
集成训练集和集成测试集确定模块,用于根...

【专利技术属性】
技术研发人员:陈卓孙启明汪利鹏李侃李延明郭显宽胡鹏
申请(专利权)人:南京三眼精灵信息技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1