数据集分类学习算法自动选择系统及方法技术方案

技术编号：24331918 阅读：75 留言：0更新日期：2020-05-29 20:02

一种数据集分类学习算法自动选择系统及方法，属于机器学习技术领域。本发明专利技术针对现有数据处理中涉及到的学习算法的选择方式不具有通用性，若逐个进行尝试则计算量过大的问题。系统包括训练特征选择模块：选择各分类问题数据集，对每个分类问题数据集进行处理，获得相应的分类元知识；抉择器模块：从分类元知识中选择有效特征作为元特征，形成抉择器训练集，对元知识训练抉择器进行训练；算法选择模块：对待处理数据集进行处理，获得待处理元特征；再采用元知识训练抉择器进行分析，获得待处理数据集的最优学习算法；知识库模块，获得包括不同分类问题数据集与其对应学习算法一一对应关系的算法选择训练集。本发明专利技术可为数据集预测最优的学习算法。

Automatic selection system and method of data set classification learning algorithm

全部详细技术资料下载

【技术实现步骤摘要】
数据集分类学习算法自动选择系统及方法
本专利技术涉及数据集分类学习算法自动选择系统及方法，属于机器学习

技术介绍
近年来机器学习技术蓬勃发展的趋势尤为显著，不断促使着IT互联网、金融、教育、医学等行业颠覆传统的运行方式，开启创新型AI发展模式。例如研发人工智能芯片，数据挖掘与金融分析，甚至推出个体化医疗方案及智能助理等AI服务，可见机器学习技术与其他领域相结合能够展现出巨大的应用前景和商业价值。在机器学习领域，分类(classification)问题作为最基础且最重要的研究方向，其它的很多AI应用都可以从分类问题演变而来，同时许多问题也可以转化成分类问题。例如计算机视觉中自然场景的图像分割可以转化为对每个像素点进行分类后赋予相应的标签。随着研究的深入，众多分类算法应运而生，它们被证明能有效地提取数据中隐藏的有效信息来解决实际问题。而对于任何给定的数据集，首要的问题是如何选择合适的机器学习算法。基本的策略是尝试执行多种算法进行实验比较，或从机器学习专家处获得建议。但这两者均存在一定的弊端，且选择一个不合适的算...

【技术保护点】
1.一种数据集分类学习算法自动选择系统，其特征在于包括：/n训练特征选择模块：用于从UCI机器学习数据库和Kaggle数据集中选择各分类问题数据集，对每个分类问题数据集进行处理，获得相应的分类元知识；同时由知识库模块获得每个分类问题数据集对应的最优算法编号；/n抉择器模块：用于使用贝叶斯优化算法从所述分类元知识中选择有效特征作为元特征；采用所有所述元特征与其对应的最优算法编号构成抉择器训练集，对元知识训练抉择器进行训练，训练后的元知识训练抉择器针对每种元特征获取其最优算法编号；/n算法选择模块：用于对待处理数据集进行处理，获得待处理元特征；对待处理元特征采用元知识训练抉择器进行分析，获得待处理...

【技术特征摘要】
1.一种数据集分类学习算法自动选择系统，其特征在于包括：
训练特征选择模块：用于从UCI机器学习数据库和Kaggle数据集中选择各分类问题数据集，对每个分类问题数据集进行处理，获得相应的分类元知识；同时由知识库模块获得每个分类问题数据集对应的最优算法编号；
抉择器模块：用于使用贝叶斯优化算法从所述分类元知识中选择有效特征作为元特征；采用所有所述元特征与其对应的最优算法编号构成抉择器训练集，对元知识训练抉择器进行训练，训练后的元知识训练抉择器针对每种元特征获取其最优算法编号；
算法选择模块：用于对待处理数据集进行处理，获得待处理元特征；对待处理元特征采用元知识训练抉择器进行分析，获得待处理数据集的最优学习算法；
知识库模块：用于获得各分类算法论文的有效信息，并进行知识处理，获得包括不同分类问题数据集与其对应学习算法一一对应关系的算法选择训练集；同时存储分类元特征与分类问题数据集的对应关系。

2.根据权利要求1所述的数据集分类学习算法自动选择系统，其特征在于，
所述抉择器模块获得抉择器训练集的过程包括：
所述抉择器模块的分类问题数据集输入信息Records＝(数据集编号，21个备选特征值A1,...,A21，最优算法编号)，输出为训练特征列表；训练特征列表中的元特征包括采用贝叶斯优化算法从21个备选特征值中选择的有效特征；所述21个备选特征值包含数据在特征空间的分布结构；所述21个备选特征值包括的统计特征为连续、离散属性的方差，比例及最大值。

3.根据权利要求2所述的数据集分类学习算法自动选择系统，其特征在于，
所述知识库模块获得算法选择训练集的过程包括：
将每篇论文的有效信息形成论文信息集{p1,p2,…,pn}，其中pi表示第i篇论文的有效信息，i＝1,2,3,……，n；计算每篇论文pi的可信度其中，ci表示论文pi的引用量，year是当年年份，yi则是论文pi的发表年份；
获取每篇论文对应的分类问题数据集的数据集编号di，使用所述分类问题数据集的论文的可信度sj，j＝1,2,3,……，n；以及所述分类问题数据集在每篇论文中的学习算法性能排名rij；
对每个分类问题数据集的数据集编号di，通过学习算法性能排名rij找到最优算法aij；
比较相同数据集编号di对应的分类问题数据集的论文的可信度sj，得到最大的可信度sj对应的最优算法aij作为数据集编号di对应的分类问题数据集的最优目标算法；
输出算法选择训练集(di,max(aij))。

4.根据权利要求3所述的数据集分类学习算法自动选择系统，其特征在于，所述论文的有效信息包括：
论文名称、论文发表年份、论文的引用量、论文使用的数据集及论文使用的数据集对应的算法性能排名列表。

5.根据权利要求4所述的数据集分类学习算法自动选择系统，其特征在于，
所述分类问题数据集对应的最优算法包括11种算法：岭回归、感知机、被动攻击算法、最近邻算法、随机森林、L2惩罚项的支持向量机、L2惩罚项的逻辑回归、L1惩罚项的支持向量机、L1惩罚项的逻辑回归、最...

【专利技术属性】
技术研发人员：王宏志，王春楠，张天赐，陈含笑，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：黑龙;23

全部详细技术资料下载我是这个专利的主人