可泛化的领域知识学习与计算引擎系统及方法技术方案

技术编号:31838421 阅读:15 留言:0更新日期:2022-01-12 13:17
本发明专利技术提供可泛化的领域知识学习与计算引擎系统及方法,涉及人工智能技术领域。该可泛化的领域知识学习与计算引擎系统,包括数据准备模块、学习集模块和模型输出模块:所述数据准备模块用于多源的数据采集,收集到尽可能多的数据维度,同时保证数据的质量,得到高质量的数据挖掘结果,所述学习集模块用于代替人工完成传统的特征工程、模型选择、超参数调优、模型评估,让计算机独立完成更复杂的任务,所述模型输出模块用于对学习集模块的数据进行统计分类,并根据模型特征输出结果。通过数据准备模块、学习集模块和模型输出模块,构建一个自动化的过程,减少时间和人力等资源的浪费。费。费。

【技术实现步骤摘要】
可泛化的领域知识学习与计算引擎系统及方法


[0001]本专利技术涉及人工智能
,具体为可泛化的领域知识学习与计算引擎系统及方法。

技术介绍

[0002]传统的机器学习在解决问题时,首先需要对问题进行定义,然后针对特定问题收集数据,由专家对数据特征进行标定、提取特征、选择特征,然后根据所选特征训练模型、对模型进行评估,最后部署到应用上,以解决最初提出的问题,但随着机器学习的不断发展,其复杂程度也在不断增高。
[0003]如果上述这些步骤都需要人工来操作,不仅耗时耗力,而且对专业人员的需求也比较大,结合现实生活中人们日益增长的需求,这限制了人工智能在其他领域的应用发展。

技术实现思路

[0004](一)解决的技术问题
[0005]针对现有技术的不足,本专利技术提供了可泛化的领域知识学习与计算引擎系统及方法,解决了传统机器学习需要人工来操作,耗时耗力的问题。
[0006](二)技术方案
[0007]为实现以上目的,本专利技术通过以下技术方案予以实现:可泛化的领域知识学习与计算引擎系统,包括数据准备模块、学习集模块和模型输出模块:
[0008]所述数据准备模块用于多源的数据采集,收集到尽可能多的数据维度,同时保证数据的质量,得到高质量的数据挖掘结果;
[0009]所述学习集模块用于代替人工完成传统的特征工程、模型选择、超参数调优、模型评估,让计算机独立完成更复杂的任务;
[0010]所述模型输出模块用于对学习集模块的数据进行统计分类,并根据模型特征输出结果。
[0011]优选的,所述数据准备模块包括自动化数据收集模块和数据清洗模块,所述自动化数据收集模块包括以下方式:
[0012]S1.传感器采集:通过温湿度传感器、气体传感器、视频传感器等外部硬件设备与系统进行通信,将传感器监测到的数据传至系统中进行采集使用;
[0013]S2.爬虫抓取:使用requests爬取内容,使用Xpath解析内容,使用pandas保存数据,通过编写网络爬虫,设置好数据源后进行有目标性的自动爬取数据;
[0014]S3.底层数据交换:通过获取软件系统的底层数据交换、软件客户端和数据库之间的网络流量包,基于底层IO请求与网络分析等技术,采集目标软件产生的所有数据,将数据转换与重新结构化,输出到新的数据库,供软件系统调用。
[0015]优选的,所述数据清洗模块的清洗步骤为:

去除或补全缺失的数据,

去除或修改格式和内容错误的数据,

去除修改逻辑错误数据,

去除不需要的数据,

关联性验
证。
[0016]优选的,所述学习集模块包括有自动特征工程模块、自动模型选择模块、自动参数调整模块、自动管道匹配模块和算法框架模块,所述算法框架模块包括元学习阶段、强化学习阶段和集成学习阶段。
[0017]优选的,所述元学习阶段包括以下运行步骤:
[0018]S1.收集数据集并提取出数据集的统计特征以及Landmark特征;
[0019]S2.运行自动化机器学习算法得到这些数据集的运行信息;
[0020]S3.当处理新的数据集时,基于元特征查找与新数据集最为相似的数据集并以该数据集的运行信息来初始化强化学习阶段,从而实现强化学习阶段的预热,加速强化学习阶段的收敛过程。
[0021]优选的,所述强化学习阶段包括以下运行步骤:
[0022]S1.将一个完整的机器学习流水线视为一个分为数据预处理算法、特征工程算法,分类算法三组;
[0023]S2.在预设的给定计算时间内,重复以下两个步骤:
[0024]①
.根据Q

table选择一个属于当前状态的方法,然后进入下一个状态;
[0025]当从一个状态切换到另一状态时,根据Q

learning算法更新Q

table的参数。
[0026]优选的,所述集成学习阶段包括以下运行步骤:
[0027]S1.对在验证集上表现良好的模型使用交叉验证得到训练集以及测试集的预测作为新的训练集和测试集的特征;
[0028]S2.使用新的训练集训练一个逻辑回归的高层分类器,然后根据高层分类器预测新的测试集来得到最终的预测结果。
[0029]优选的,所述自动模型选择模块的运行逻辑为将候选模型作为选择基础,并且为每个模型构建贝叶斯模型,每一轮候选模型验证过程中,根据贝叶斯超参数优化结果选择超参数。
[0030]优选的,所述自动特征工程模块包括以下运行步骤:
[0031]S1.自动化特征编码,所述自动化特征编码包括category特征编码、时间特征编码和多值特征编码;
[0032]S2.自动化特征组合,所述自动化特征组合包括cat

cat特征组合和cat

numeric特征组合;
[0033]S3.自动化特征选择,所述自动特征选择为过滤式特征选择。
[0034]优选的,可泛化的领域知识学习与计算引擎系统的方法:首先通过数据准备模块收集到尽可能多的数据维度,同时保证数据的质量,得到高质量的数据挖掘结果,为学习集模块提供数据基础,再通过学习集模块中的算法框架模块实现自动工程特征、模型选择、参数调整和管道匹配,其中算法框架模块包括元学习阶段、强化学习阶段和集成学习阶段,元学习阶段用于收集多个数据集进行预训练,实现强化学习阶段实现热启动,强化学习阶段用于将机器学习流水线自动化设计抽象成强化学习问题,并利用强化学习Q

learning算法选择最优的机器学习流水线,集成学习阶段用于对多个性能较好的机器学习流水线进行集成,提升算法鲁棒性,最后通过模型输出模块对学习集模块的数据进行统计分类,并根据模型特征输出结果。
[0035](三)有益效果
[0036]本专利技术提供了可泛化的领域知识学习与计算引擎系统及方法。具备以下有益效果:
[0037]本专利技术通过数据准备模块收集到尽可能多的数据维度,同时保证数据的质量,得到高质量的数据挖掘结果,为学习集模块提供数据基础,再通过学习集模块中的算法框架模块实现自动工程特征、模型选择、参数调整和管道匹配,其中算法框架模块包括元学习阶段、强化学习阶段和集成学习阶段,元学习阶段用于收集多个数据集进行预训练,实现强化学习阶段实现热启动,强化学习阶段用于将机器学习流水线自动化设计抽象成强化学习问题,并利用强化学习Q

learning算法选择最优的机器学习流水线,集成学习阶段用于对多个性能较好的机器学习流水线进行集成,提升算法鲁棒性,最后通过模型输出模块对学习集模块的数据进行统计分类,并根据模型特征输出结果,以此构建一个自动化的过程,实现自动特征工程、自动管道匹配、自动参数调整、自动模型选择的功能,从而减少时间和人力等资源的浪费。
附图说明
...

【技术保护点】

【技术特征摘要】
1.可泛化的领域知识学习与计算引擎系统,包括数据准备模块、学习集模块和模型输出模块,其特征在于:所述数据准备模块用于多源的数据采集,收集到尽可能多的数据维度,同时保证数据的质量,得到高质量的数据挖掘结果;所述学习集模块用于代替人工完成传统的特征工程、模型选择、超参数调优、模型评估,让计算机独立完成更复杂的任务;所述模型输出模块用于对学习集模块的数据进行统计分类,并根据模型特征输出结果。2.根据权利要求1所述的可泛化的领域知识学习与计算引擎系统,其特征在于:所述数据准备模块包括自动化数据收集模块和数据清洗模块,所述自动化数据收集模块包括以下方式:S1.传感器采集:通过温湿度传感器、气体传感器、视频传感器等外部硬件设备与系统进行通信,将传感器监测到的数据传至系统中进行采集使用;S2.爬虫抓取:使用requests爬取内容,使用Xpath解析内容,使用pandas保存数据,通过编写网络爬虫,设置好数据源后进行有目标性的自动爬取数据;S3.底层数据交换:通过获取软件系统的底层数据交换、软件客户端和数据库之间的网络流量包,基于底层IO请求与网络分析等技术,采集目标软件产生的所有数据,将数据转换与重新结构化,输出到新的数据库,供软件系统调用。3.根据权利要求2所述的可泛化的领域知识学习与计算引擎系统,其特征在于:所述数据清洗模块的清洗步骤为:

去除或补全缺失的数据,

去除或修改格式和内容错误的数据,

去除修改逻辑错误数据,

去除不需要的数据,

关联性验证。4.根据权利要求1所述的可泛化的领域知识学习与计算引擎系统,其特征在于:所述学习集模块包括有自动特征工程模块、自动模型选择模块、自动参数调整模块、自动管道匹配模块和算法框架模块,所述算法框架模块包括元学习阶段、强化学习阶段和集成学习阶段。5.根据权利要求4所述的可泛化的领域知识学习与计算引擎系统,其特征在于:所述元学习阶段包括以下运行步骤:S1.收集数据集并提取出数据集的统计特征以及Landmark特征;S2.运行自动化机器学习算法得到这些数据集的运行信息;S3.当处理新的数据集时,基于元特征查找与新数据集最为相似的数据集并以该数据集的运行信息来初始化强化学习阶段,从而实现强化学习阶段的预热,加速强化学习阶段的收敛过程。6.根据权利要求4所述的可泛化的领域知识学习与计算引擎系统,其特征在于:所述强化学习阶段包括以下...

【专利技术属性】
技术研发人员:陈子轩雷铭轩郑正华国明李禅郭尚
申请(专利权)人:杭州翔毅科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1