【技术实现步骤摘要】
一种机器学习算法自动选择方法和系统
本专利技术涉及计算机数据处理领域,更具体地,涉及一种机器学习算法自动选择方法和系统。
技术介绍
机器学习最近在许多应用领域取得了长足的进步,这促成了在各领域中全面普及机器学习方法的需求。相应地,越来越多的商业企业正在满足这一需求(例如,BigML.com,Wise.io,SkyTree.com,RapidMiner.com,Dato.com,Prediction.io,DataRobot.com,微软的Azure机器学习和亚马逊机器学习)。机器学习的核心是每一个有效的机器学习服务都需要解决决定在给定数据集上使用哪种机器学习算法,是否并且如何对其特征进行预处理以及如何设置所有超参数。选择一个具体的算法往往需要专家经验,从不同的方面考虑权衡,有很多因素会影响具体算法的选择,包括有如下因素:(1)数据的大小、质量及性质;(2)可用计算时间与计算空间;(3)任务的急迫性;(4)数据的使用用途。另外机器学习经过很长时间的发展,算法的数量也越来越来越多,每个算法都有各自的特点和优劣,所以对于很多的机器学习算法初学者来说,如何快速的选择一个合适的机器学习算法成为了一个有待解决的问题。
技术实现思路
本专利技术提供一种克服上述问题的一种机器学习算法自动选择方法和系统。根据本专利技术的一个方面,提供一种机器学习算法自动选择方法,包括:基于算法选择知识库,通过决策树选择法,确定待选算法集合;基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序;按照所述训练测试次序,基于确定的训练集,依 ...
【技术保护点】
一种机器学习算法选择方法,其特征在于,包括:基于算法选择知识库,通过决策树选择法,确定待选算法集合;基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序;按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数;基于所述多个综合评分参数以及所述多个预设系数,获取所述待选算法集合中每一待选算法的综合评分;将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。
【技术特征摘要】
1.一种机器学习算法选择方法,其特征在于,包括:基于算法选择知识库,通过决策树选择法,确定待选算法集合;基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序;按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数;基于所述多个综合评分参数以及所述多个预设系数,获取所述待选算法集合中每一待选算法的综合评分;将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。2.根据权利要求1所述的选择方法,其特征在于,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合之前还包括:确定所述待选算法的所处最大类别,所述所处最大类别包括:监督学习类、半监督学习类和无监督学习类;相应地,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合进一步包括:基于算法选择知识库中的决策树,通过确定的所述待选算法的所处最大类别,逐层选取所述待选算法,逐层选取的一个或多个所述待选算法作为所述待选算法集合。3.根据权利要求1所述的选择方法,其特征在于,所述基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序进一步包括:基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,通过下式获取任一待选算法的历史评分:F′=aI′+bO′+cS′+dT′+eA′;其中,F′为任一待选算法的历史评分,a为预设的数据输入资源消耗值系数,I′为历史数据输入资源消耗值,b为预设的数据输出资源消耗值系数,O′为历史数据输出资源消耗值,c为预设的训练预测内存系数,S′为历史训练预测内存,d为预设的训练预测时间系数,T′为历史训练预测时间,e为预设的预测准确度系数,A′为历史预测准确度;将所有的待选算法的历史评分按照分数由高至低排列,将排列好的待选算法的次序作为待选算法的训练测试次序。4.根据权利要求3所述的选择方法,其特征在于,所述按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数进一步包括:所述按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,并获取每一待选算法的训练数据输入资源消耗值、训练数据输出资源消耗值、训练时间和训练内存;基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的预测数据输入资源消耗值、预测数据输出资源消耗值、预测时间、预测内存和预测准确度;对所述训练数据输入资源消耗值和所述预测数据输入资源消耗...
【专利技术属性】
技术研发人员:王建民,龙明盛,付博,黄向东,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。