当前位置: 首页 > 专利查询>清华大学专利>正文

一种机器学习算法自动选择方法和系统技术方案

技术编号:17913331 阅读:45 留言:0更新日期:2018-05-10 18:48
本发明专利技术提供一种机器学习算法自动选择方法和系统,选择方法包括:确定待选算法集合;基于多个历史参数以及多个预设系数,确定待选算法集合中的每一待选算法的训练测试次序;按照训练测试次序,基于确定的训练集,依次对待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的多个综合评分参数;基于多个综合评分参数以及多个预设系数,获取每一待选算法的综合评分;将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。本发明专利技术提供的一种机器学习算法自动选择方法和系统,具有很强的学习分析能力,实现极其简单,能够得到效果很好的结果。

【技术实现步骤摘要】
一种机器学习算法自动选择方法和系统
本专利技术涉及计算机数据处理领域,更具体地,涉及一种机器学习算法自动选择方法和系统。
技术介绍
机器学习最近在许多应用领域取得了长足的进步,这促成了在各领域中全面普及机器学习方法的需求。相应地,越来越多的商业企业正在满足这一需求(例如,BigML.com,Wise.io,SkyTree.com,RapidMiner.com,Dato.com,Prediction.io,DataRobot.com,微软的Azure机器学习和亚马逊机器学习)。机器学习的核心是每一个有效的机器学习服务都需要解决决定在给定数据集上使用哪种机器学习算法,是否并且如何对其特征进行预处理以及如何设置所有超参数。选择一个具体的算法往往需要专家经验,从不同的方面考虑权衡,有很多因素会影响具体算法的选择,包括有如下因素:(1)数据的大小、质量及性质;(2)可用计算时间与计算空间;(3)任务的急迫性;(4)数据的使用用途。另外机器学习经过很长时间的发展,算法的数量也越来越来越多,每个算法都有各自的特点和优劣,所以对于很多的机器学习算法初学者来说,如何快速的选择一个合适的机器学习算法成为了一个有待解决的问题。
技术实现思路
本专利技术提供一种克服上述问题的一种机器学习算法自动选择方法和系统。根据本专利技术的一个方面,提供一种机器学习算法自动选择方法,包括:基于算法选择知识库,通过决策树选择法,确定待选算法集合;基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序;按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数;基于所述多个综合评分参数以及所述多个预设系数,获取所述待选算法集合中每一待选算法的综合评分;将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。优选地,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合之前还包括:确定所述待选算法的所处最大类别,所述所处最大类别包括:监督学习类、半监督学习类和无监督学习类;相应地,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合进一步包括:基于算法选择知识库中的决策树,通过确定的所述待选算法的所处最大类别,逐层选取所述待选算法,逐层选取的一个或多个所述待选算法作为所述待选算法集合。优选地,所述基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序进一步包括:基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,通过下式获取任一待选算法的历史评分:F′=aI′+bO′+cS′+dT′+eA′;其中,F′为任一待选算法的历史评分,a为预设的数据输入资源消耗值系数,I′为历史数据输入资源消耗值,b为预设的数据输出资源消耗值系数,O′为历史数据输出资源消耗值,c为预设的训练预测内存系数,S′为历史训练预测内存,d为预设的训练预测时间系数,T′为历史训练预测时间,e为预设的预测准确度系数,A′为历史预测准确度;将所有的待选算法的历史评分按照分数由高至低排列,将排列好的待选算法的次序作为待选算法的训练测试次序。优选地,所述按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数进一步包括:所述按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,并获取每一待选算法的训练数据输入资源消耗值、训练数据输出资源消耗值、训练时间和训练内存;基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的预测数据输入资源消耗值、预测数据输出资源消耗值、预测时间、预测内存和预测准确度;对所述训练数据输入资源消耗值和所述预测数据输入资源消耗值加权求和,获取数据输入资源消耗值;对所述训练数据输出资源消耗值和所述预测数据输出资源消耗值加权求和,获取数据输出资源消耗值;对所述训练时间和所述预测时间加权求和,获取训练预测时间;对所述训练内存和所述预测内存加权求和,获取训练预测内存;将所述数据输入资源消耗值、所述数据输出资源消耗值、所述训练预测时间、所述训练预测内存和所述预测准确度作为所述多个综合评分参数。优选地,所述基于所述多个综合评分参数以及所述多个预设系数,通过下式获取所述待选算法集合中每一待选算法的综合评分:F=aI+bO+cS+dT+eA;其中,F为任一待选算法的综合评分,a为预设的数据输入资源消耗值系数,I为数据输入资源消耗值,b为预设的数据输出资源消耗值系数,O为数据输出资源消耗值,c为预设的训练预测内存系数,S为训练预测内存,d为预设的训练预测时间系数,T为训练预测时间,e为预设的预测准确度系数,A为预测准确度。优选地,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合,和所述基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序之间还包括:对确定的数据集中的每一数据进行特征提取和特征选择,获取每一数据的特征;基于每一数据的特征和所有算法的类别,将所述确定的数据集中的数据划分为所述确定的训练集和所述确定的测试集,其中,所述所有算法来自于所述算法选择知识库。优选地,所述对确定的数据集中的每一数据进行特征提取和特征选择,获取每一数据的特征之后还包括:基于每一数据的特征,获取不适宜算法,并将所述不适宜算法从所述待选算法集合中删除。优选地,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合之前还包括:通过贝叶斯优化和元学习方法,辅助所述机器学习算法热启动。优选地,所述预测准确度为查准率、查全率、AUC值等指标中的任一种。根据本专利技术的另一个方面,提供一种机器学习算法自动选择系统,包括:确定待选算法集合模块,用于基于算法选择知识库,通过决策树选择法,确定待选算法集合;确定优先级模块,用于基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序;训练测试模块,用于按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数;获取综合评分模块,用于基于所述多个综合评分参数以及所述多个预设系数,获取所述待选算法集合中每一待选算法的综合评分;获取选择结果模块,用于将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。本专利技术提供的一种机器学习算法自动选择方法和系统,通过设置对决策树选择出的集合中的待选算法进行训练和预测,并获取综合评分最终确定选择结果,能够具有很强的学习分析能力,实现极其简单,能够得到效果很好的结果。由于使用算法选择知识库本文档来自技高网...
一种机器学习算法自动选择方法和系统

【技术保护点】
一种机器学习算法选择方法,其特征在于,包括:基于算法选择知识库,通过决策树选择法,确定待选算法集合;基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序;按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数;基于所述多个综合评分参数以及所述多个预设系数,获取所述待选算法集合中每一待选算法的综合评分;将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。

【技术特征摘要】
1.一种机器学习算法选择方法,其特征在于,包括:基于算法选择知识库,通过决策树选择法,确定待选算法集合;基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序;按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数;基于所述多个综合评分参数以及所述多个预设系数,获取所述待选算法集合中每一待选算法的综合评分;将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。2.根据权利要求1所述的选择方法,其特征在于,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合之前还包括:确定所述待选算法的所处最大类别,所述所处最大类别包括:监督学习类、半监督学习类和无监督学习类;相应地,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合进一步包括:基于算法选择知识库中的决策树,通过确定的所述待选算法的所处最大类别,逐层选取所述待选算法,逐层选取的一个或多个所述待选算法作为所述待选算法集合。3.根据权利要求1所述的选择方法,其特征在于,所述基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序进一步包括:基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,通过下式获取任一待选算法的历史评分:F′=aI′+bO′+cS′+dT′+eA′;其中,F′为任一待选算法的历史评分,a为预设的数据输入资源消耗值系数,I′为历史数据输入资源消耗值,b为预设的数据输出资源消耗值系数,O′为历史数据输出资源消耗值,c为预设的训练预测内存系数,S′为历史训练预测内存,d为预设的训练预测时间系数,T′为历史训练预测时间,e为预设的预测准确度系数,A′为历史预测准确度;将所有的待选算法的历史评分按照分数由高至低排列,将排列好的待选算法的次序作为待选算法的训练测试次序。4.根据权利要求3所述的选择方法,其特征在于,所述按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数进一步包括:所述按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,并获取每一待选算法的训练数据输入资源消耗值、训练数据输出资源消耗值、训练时间和训练内存;基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的预测数据输入资源消耗值、预测数据输出资源消耗值、预测时间、预测内存和预测准确度;对所述训练数据输入资源消耗值和所述预测数据输入资源消耗...

【专利技术属性】
技术研发人员:王建民龙明盛付博黄向东
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1