融合人工经验和集成学习策略的机器学习方法及装置制造方法及图纸

技术编号：27937683 阅读：25 留言：0更新日期：2021-04-02 14:18

本申请实施例提供一种融合人工经验和集成学习策略的机器学习方法及装置，方法包括：根据预设训练数据和多个预设异质算法，生成多个独立的基模型；根据多个所述基模型得到对应的集成训练集和集成测试集；根据所述集成训练集采用交叉验证方法和超参数优化方法进行元模型训练，并根据所述集成测试集对所述元模型训练的结果进行效果评定，得到符合所述效果评定的合格条件的元模型；本申请能够将Auto ML与人工经验结合，二者在学习过程中共同进行决策，充分利用机器的执行效率和人工经验的先验知识指导作用，提升学习效果。

全部详细技术资料下载

【技术实现步骤摘要】
融合人工经验和集成学习策略的机器学习方法及装置
本申请涉及机器学习领域，具体涉及一种融合人工经验和集成学习策略的机器学习方法及装置。
技术介绍
自动机器学习(AutoML，AutomatedMachineLearning)是2014年以来，机器学习和深度学习领域最炙手可热的方向之一。AutoML试图将模型训练过程中包括数据处理、特征提取、参数调节等在内的步骤实现全自动化处理，从而降低操作人员使用门槛并提升模型训练效率。AutoML划分为两个类别：传统的AutoML和深度AutoML。前者是为了解决传统机器学习的建模问题，它面向的是传统机器学习相关算法，如线性回归、逻辑回归、决策树等等；后者更多的是面向深度学习中神经网络的建模。目前业界已经出现若干开源AutoML框架如AutoSklearn、TPOT、ATM、AutoKeras等等，也有一些商业化工具如GoogleCloudAutoML、阿里PAI等等，这些都丰富了AutoML实现方法。然而AutoML并不是万能的，并不是所有的机器学习问题都能交由它来完成，它是针对特定领域所提供的自动化解决方案。缺陷和不足：(1)人工经验的浪费一方面，在一些场景下AutoML还不能保证百分百覆盖整个建模过程。AutoML主要实现的是机器学习关键、繁琐步骤的自动化以减少人力劳动，但如特殊格式数据组织、深层特征挖掘等等工作，都还需要人工参与才能完成。另一方面，AutoML的实现是以大量计算为代价的，因为过程中一切自动化决策都是通过计...

【技术保护点】
1.一种融合人工经验和集成学习策略的机器学习方法，其特征在于，所述方法包括：/n根据预设训练数据和多个预设异质算法，生成多个独立的基模型；/n根据多个所述基模型得到对应的集成训练集和集成测试集；/n根据所述集成训练集采用交叉验证方法和超参数优化方法进行元模型训练，并根据所述集成测试集对所述元模型训练的结果进行效果评定，得到符合所述效果评定的合格条件的元模型。/n

【技术特征摘要】
1.一种融合人工经验和集成学习策略的机器学习方法，其特征在于，所述方法包括：
根据预设训练数据和多个预设异质算法，生成多个独立的基模型；
根据多个所述基模型得到对应的集成训练集和集成测试集；
根据所述集成训练集采用交叉验证方法和超参数优化方法进行元模型训练，并根据所述集成测试集对所述元模型训练的结果进行效果评定，得到符合所述效果评定的合格条件的元模型。

2.根据权利要求1所述的融合人工经验和集成学习策略的机器学习方法，其特征在于，在所述根据预设训练数据和多个预设异质算法，生成多个独立的基模型之前，包括：
对原始训练数据进行数据和特征层面的分析处理过程进行封装，得到多个特征工程组件，所述特征工程组件包括数据概况分析组件、缺失值处理组件、格式转换组件、字典转换组件、特征编码组件、特征缩放组件、问题推测组件、数据碰撞组件、数据挖掘组件、数据预测组件中的至少一种。

3.根据权利要求1所述的融合人工经验和集成学习策略的机器学习方法，其特征在于，所述根据预设训练数据和多个预设异质算法，生成多个独立的基模型，还包括：
采用k折交叉验证训练方式，将训练数据进行划分，生成训练集和验证集；
依次选取已确定的多个预设异质算法，一一对其进行搜索优化或贝叶斯优化。

4.根据权利要求1所述的融合人工经验和集成学习策略的机器学习方法，其特征在于，所述根据多个所述基模型得到对应的集成训练集和集成测试集，包括：
A.使用基模型1对训练集N进行预测，结果为一个1维n行的矩阵，记为N1；
B.使用基模型1对测试集M进行预测，结果为一个1维m行的矩阵，记为M1；
C.更换基模型，重复A、B步骤，直到K个模型均执行完毕，得到N1、N2、N3…NK和M1、M2、M3…MK；
D.将N1、N2、N3…NK合并为一个K维n行的矩阵，记为N*；
E.将M1、M2、M3…MK合并为一个K维m行的矩阵，记为M*；
F.步骤中生成的N*和M*即为元模型训练使用的集成训练集和集成测试集。

5.一种融合人工经验和集成学习策略的机器学习装置，其特征在于，包括：
基模型确定模块，用于根据预设训练数据和多个预设异质算法，生成多个独立的基模型；
集成训练集和集成测试集确定模块，用于根...

【专利技术属性】
技术研发人员：陈卓，孙启明，汪利鹏，李侃，李延明，郭显宽，胡鹏，
申请(专利权)人：南京三眼精灵信息技术有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人