数据集分类学习算法自动选择系统及方法技术方案

技术编号:24331918 阅读:68 留言:0更新日期:2020-05-29 20:02
一种数据集分类学习算法自动选择系统及方法,属于机器学习技术领域。本发明专利技术针对现有数据处理中涉及到的学习算法的选择方式不具有通用性,若逐个进行尝试则计算量过大的问题。系统包括训练特征选择模块:选择各分类问题数据集,对每个分类问题数据集进行处理,获得相应的分类元知识;抉择器模块:从分类元知识中选择有效特征作为元特征,形成抉择器训练集,对元知识训练抉择器进行训练;算法选择模块:对待处理数据集进行处理,获得待处理元特征;再采用元知识训练抉择器进行分析,获得待处理数据集的最优学习算法;知识库模块,获得包括不同分类问题数据集与其对应学习算法一一对应关系的算法选择训练集。本发明专利技术可为数据集预测最优的学习算法。

Automatic selection system and method of data set classification learning algorithm

【技术实现步骤摘要】
数据集分类学习算法自动选择系统及方法
本专利技术涉及数据集分类学习算法自动选择系统及方法,属于机器学习

技术介绍
近年来机器学习技术蓬勃发展的趋势尤为显著,不断促使着IT互联网、金融、教育、医学等行业颠覆传统的运行方式,开启创新型AI发展模式。例如研发人工智能芯片,数据挖掘与金融分析,甚至推出个体化医疗方案及智能助理等AI服务,可见机器学习技术与其他领域相结合能够展现出巨大的应用前景和商业价值。在机器学习领域,分类(classification)问题作为最基础且最重要的研究方向,其它的很多AI应用都可以从分类问题演变而来,同时许多问题也可以转化成分类问题。例如计算机视觉中自然场景的图像分割可以转化为对每个像素点进行分类后赋予相应的标签。随着研究的深入,众多分类算法应运而生,它们被证明能有效地提取数据中隐藏的有效信息来解决实际问题。而对于任何给定的数据集,首要的问题是如何选择合适的机器学习算法。基本的策略是尝试执行多种算法进行实验比较,或从机器学习专家处获得建议。但这两者均存在一定的弊端,且选择一个不合适的算法可能会导致结果收敛很慢,甚至陷入局部最优解而只能得到次优解。因此,为没有经验的非专业人士及研究人员解决算法选择的问题极为必要。现有进行算法自动选择的相关方案一定程度上会涉及机器学习自动化工程的模型选择,但自动化机器学习仍然处于测试阶段,绝大多数研究成果还不能实现模型的自动选择。此前,对模型自动选择的研究主要有解析法和人工智能法。其中解析法普遍应用于统计学习中选择单一模型和组合模型,它基于目标线性规划模型的方法容易计算且具有良好的理论基础,可依靠模型使用的历史信息来选择最优模型;人工智能法相关的研究包括使用回归树或KNN模型进行预测评估,或对图片识别问题使用的不同复杂度的神经网络进行选择。模型自动选择中的解析法最早由Klein等人提出,用于选择单一模型和组合模型。这种基于目标线性规划模型的方法,依靠模型使用的历史信息来选择模型。其模型选择的过程是:1)对于某个特定的问题,排除不可能用到的模型;2)排除后剩余的模型,根据用户提出的问题特征定出线性规划表达式;3)对每个模型进行线性目标规划,以求出该模型与问题特征之间的距离;4)选择具有最短距离的模型。这些研究都在一定程度上实现了模型的自动选择。但此方案应用范围受限,不适合模型库的扩展,且多数算法仅限于理论的研究,具体实现存在很大困难。基于神经网络的模型选择方法旨在使用回归树模型进行预测,也可采用KNN模型。该方法最大的缺陷是,对算力与时间的巨大消耗导致其不能对充分多的数据集的特征进行实验,且一般选择的特征都是统计学中的部分数据,如中位数,均值,方差等,不能明确地通过实验证明这些属性的选择对实验结果的影响的大小与好坏。此外该类研究也没有进行更大范围的尝试,执行预测的算法较少,主要解决的实际情景也仅限于图片识别问题,即对不同复杂度的神经网络进行选择。另有相关研究仅以某种直觉上的联系对比几类可行算法得出结论,这将严重导致研究结果不够系统,且一定程度上缺乏问题的可迁移性。机器学习技术的研究与使用已持续多年,研究者们为解决实际问题已花费大量时间和精力创造出许多精妙可行的学习算法,而这些算法虽在解决某些特定问题上大放光彩,但其本身却又像大数据一样急剧增加。对于刚刚踏入机器学习研究的经验不足者来说,在众多功能和目的相似的算法中选择最合适的一个则极具挑战性。纷繁多样的算法似乎不再是人们解决问题的帮手,而成为人们选择时的阻碍。截止目前被创造出的分类算法数不胜数,例如支持向量机,决策树,KNN,AdaBoost算法及逻辑回归等,经验不足的从业者面对新的实际问题时往往束手无策,不知选择哪个算法最合适,倘若尝试所有的分类算法则耗时耗力又不切实际,咨询相关专家或许也无济于事,因此急需一种方法可以实现数据集处理中对分类学习算法的自动选择。
技术实现思路
针对现有数据处理中涉及到的学习算法的选择方式不具有通用性,若逐个进行尝试则计算量过大的问题,本专利技术提供一种数据集分类学习算法自动选择系统及方法。本专利技术提供的一种数据集分类学习算法自动选择系统,包括:训练特征选择模块:用于从UCI机器学习数据库和Kaggle数据集中选择各分类问题数据集,对每个分类问题数据集进行处理,获得相应的分类元知识;同时由知识库模块获得每个分类问题数据集对应的最优算法编号;抉择器模块:用于使用贝叶斯优化算法从所述分类元知识中选择有效特征作为元特征;采用所有所述元特征与其对应的最优算法编号构成抉择器训练集,对元知识训练抉择器进行训练,训练后的元知识训练抉择器针对每种元特征获取其最优算法编号;算法选择模块:用于对待处理数据集进行处理,获得待处理元特征;对待处理元特征采用元知识训练抉择器进行分析,获得待处理数据集的最优学习算法;知识库模块:用于获得各分类算法论文的有效信息,并进行知识处理,获得包括不同分类问题数据集与其对应学习算法一一对应关系的算法选择训练集;同时存储分类元特征与分类问题数据集的对应关系。根据本专利技术所述的数据集分类学习算法自动选择系统,所述抉择器模块获得抉择器训练集的过程包括:所述抉择器模块的分类问题数据集输入信息Records=(数据集编号,21个备选特征值A1,...,A21,最优算法编号),输出为训练特征列表;训练特征列表中的元特征包括采用贝叶斯优化算法从21个备选特征值中选择的有效特征;所述21个备选特征值包含数据在特征空间的分布结构;所述21个备选特征值包括的统计特征为连续、离散属性的方差,比例及最大值。根据本专利技术所述的数据集分类学习算法自动选择系统,所述知识库模块获得算法选择训练集的过程包括:将每篇论文的有效信息形成论文信息集{p1,p2,…,pn},其中pi表示第i篇论文的有效信息,i=1,2,3,……,n;计算每篇论文pi的可信度其中,ci表示论文pi的引用量,year是当年年份,yi则是论文pi的发表年份;获取每篇论文对应的分类问题数据集的数据集编号di,使用所述分类问题数据集的论文的可信度sj,j=1,2,3,……,n;以及所述分类问题数据集在每篇论文中的学习算法性能排名rij;对每个分类问题数据集的数据集编号di,通过学习算法性能排名rij找到最优算法aij;比较相同数据集编号di对应的分类问题数据集的论文的可信度sj,得到最大的可信度sj对应的最优算法aij作为数据集编号di对应的分类问题数据集的最优目标算法;输出算法选择训练集(di,max(aij))。根据本专利技术所述的数据集分类学习算法自动选择系统,所述论文的有效信息包括:论文名称、论文发表年份、论文的引用量、论文使用的数据集及论文使用的数据集对应的算法性能排名列表。根据本专利技术所述的数据集分类学习算法自动选择系统,所述分类问题数据集对应的最优算法包括11种算法:岭回归、感知机、被动攻击算法、最近邻算法、随机森林、L2惩罚项的支持向量机、L2惩罚项的逻辑回归、本文档来自技高网
...

【技术保护点】
1.一种数据集分类学习算法自动选择系统,其特征在于包括:/n训练特征选择模块:用于从UCI机器学习数据库和Kaggle数据集中选择各分类问题数据集,对每个分类问题数据集进行处理,获得相应的分类元知识;同时由知识库模块获得每个分类问题数据集对应的最优算法编号;/n抉择器模块:用于使用贝叶斯优化算法从所述分类元知识中选择有效特征作为元特征;采用所有所述元特征与其对应的最优算法编号构成抉择器训练集,对元知识训练抉择器进行训练,训练后的元知识训练抉择器针对每种元特征获取其最优算法编号;/n算法选择模块:用于对待处理数据集进行处理,获得待处理元特征;对待处理元特征采用元知识训练抉择器进行分析,获得待处理数据集的最优学习算法;/n知识库模块:用于获得各分类算法论文的有效信息,并进行知识处理,获得包括不同分类问题数据集与其对应学习算法一一对应关系的算法选择训练集;同时存储分类元特征与分类问题数据集的对应关系。/n

【技术特征摘要】
1.一种数据集分类学习算法自动选择系统,其特征在于包括:
训练特征选择模块:用于从UCI机器学习数据库和Kaggle数据集中选择各分类问题数据集,对每个分类问题数据集进行处理,获得相应的分类元知识;同时由知识库模块获得每个分类问题数据集对应的最优算法编号;
抉择器模块:用于使用贝叶斯优化算法从所述分类元知识中选择有效特征作为元特征;采用所有所述元特征与其对应的最优算法编号构成抉择器训练集,对元知识训练抉择器进行训练,训练后的元知识训练抉择器针对每种元特征获取其最优算法编号;
算法选择模块:用于对待处理数据集进行处理,获得待处理元特征;对待处理元特征采用元知识训练抉择器进行分析,获得待处理数据集的最优学习算法;
知识库模块:用于获得各分类算法论文的有效信息,并进行知识处理,获得包括不同分类问题数据集与其对应学习算法一一对应关系的算法选择训练集;同时存储分类元特征与分类问题数据集的对应关系。


2.根据权利要求1所述的数据集分类学习算法自动选择系统,其特征在于,
所述抉择器模块获得抉择器训练集的过程包括:
所述抉择器模块的分类问题数据集输入信息Records=(数据集编号,21个备选特征值A1,...,A21,最优算法编号),输出为训练特征列表;训练特征列表中的元特征包括采用贝叶斯优化算法从21个备选特征值中选择的有效特征;所述21个备选特征值包含数据在特征空间的分布结构;所述21个备选特征值包括的统计特征为连续、离散属性的方差,比例及最大值。


3.根据权利要求2所述的数据集分类学习算法自动选择系统,其特征在于,
所述知识库模块获得算法选择训练集的过程包括:
将每篇论文的有效信息形成论文信息集{p1,p2,…,pn},其中pi表示第i篇论文的有效信息,i=1,2,3,……,n;计算每篇论文pi的可信度其中,ci表示论文pi的引用量,year是当年年份,yi则是论文pi的发表年份;
获取每篇论文对应的分类问题数据集的数据集编号di,使用所述分类问题数据集的论文的可信度sj,j=1,2,3,……,n;以及所述分类问题数据集在每篇论文中的学习算法性能排名rij;
对每个分类问题数据集的数据集编号di,通过学习算法性能排名rij找到最优算法aij;
比较相同数据集编号di对应的分类问题数据集的论文的可信度sj,得到最大的可信度sj对应的最优算法aij作为数据集编号di对应的分类问题数据集的最优目标算法;
输出算法选择训练集(di,max(aij))。


4.根据权利要求3所述的数据集分类学习算法自动选择系统,其特征在于,所述论文的有效信息包括:
论文名称、论文发表年份、论文的引用量、论文使用的数据集及论文使用的数据集对应的算法性能排名列表。


5.根据权利要求4所述的数据集分类学习算法自动选择系统,其特征在于,
所述分类问题数据集对应的最优算法包括11种算法:岭回归、感知机、被动攻击算法、最近邻算法、随机森林、L2惩罚项的支持向量机、L2惩罚项的逻辑回归、L1惩罚项的支持向量机、L1惩罚项的逻辑回归、最...

【专利技术属性】
技术研发人员:王宏志王春楠张天赐陈含笑
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1