【技术实现步骤摘要】
本专利技术属于自动机器学习领域,具体涉及一种基于协同过滤的分布式自动机器学习方法。
技术介绍
1、机器学习已成功应用于各个领域,例如金融,工业,医疗保健,生物学和量子物理学。随着人工智能的进步,机器学习将会应用更广泛。然而,完成一个机器学习任务需要大量调参工作,这给开发者带来了不便。自动机器学习(automl)的目标是以一种数据驱动的、客观的、自动化的方式做出这些决策:用户只需提供数据,automl系统会自动确定最适合这个特定领域应用的方法。因此,automl使那些对机器学习应用感兴趣但没有资源详细了解其背后的技术的领域科学家可以使用最先进的机器学习方法。
2、automl框架的研究主要有两种思路:一种是结合超参数优化算法反复迭代优化以探索性能更好的模型管道;另一种是在离线阶段搭建良好的元知识库,并用其预训练一个代理模型,在线阶段直接使用代理模型进行元知识库中机器学习管道性能的预测。
3、基于超参数优化的automl框架多数是将其视为一个算法选择及超参数优化问题,即通过在新数据集训练集上训练大量的模型,期间包括切
...【技术保护点】
1.一种基于协同过滤的分布式自动机器学习方法,其特征在于,该方法包括:
2.如权利要求1所述的基于协同过滤的分布式自动机器学习方法,其特征在于,所述步骤S1所述的元知识库包括三个子数据库:
3.如权利要求2所述的基于协同过滤的分布式自动机器学习方法,其特征在于,所述步骤S1所述的元特征子集的权重是通过贝叶斯优化算法迭代出来的,首先从元知识库中的数据集的46个元特征中选择信息丰富的元特征,然后对选择出的元特征进行聚类分组得到元特征子集;构造目标函数与元特征子集之间的黑盒函数关系,并利用贝叶斯优化学习元特征子集的权重,直至达到收敛;最终利用W1-n
...【技术特征摘要】
1.一种基于协同过滤的分布式自动机器学习方法,其特征在于,该方法包括:
2.如权利要求1所述的基于协同过滤的分布式自动机器学习方法,其特征在于,所述步骤s1所述的元知识库包括三个子数据库:
3.如权利要求2所述的基于协同过滤的分布式自动机器学习方法,其特征在于,所述步骤s1所述的元特征子集的权重是通过贝叶斯优化算法迭代出来的,首先从元知识库中的数据集的46个元特征中选择信息丰富的元特征,然后对选择出的元特征进行聚类分组得到元特征子集;构造目标函数与元特征子集之间的黑盒函数关系,并利用贝叶斯优化学习元特征子集的权重,直至达到收敛;最终利用w1-norm计算数据集间的相似度。
4.如权利要求3所述的基于协同过滤的分布式自动机器学习方法,其特征在于,所述的元特征的聚类包括如下步骤:通过距离相关系数研究元特征集合中两两元特征之间的相关性,通过剔除带有缺失值的元特征以及意义相同的元特征,将剩下的元特征根据其物理意义聚类为8类元特征子集。
5.如权利要求4所述的基于协同过滤的分布式自动机器学习方法,其特...
【专利技术属性】
技术研发人员:刘朋杰,陈美玲,吴楠,张宁,高彤,王浩枫,叶亚峰,田明昊,任建新,礼冬雪,
申请(专利权)人:北京计算机技术及应用研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。