一种基于协同过滤的分布式自动机器学习方法技术

技术编号:43906176 阅读:26 留言:0更新日期:2025-01-03 13:16
本发明专利技术涉及一种基于协同过滤的分布式自动机器学习方法,属于自动机器学习领域。本发明专利技术为元知识库中的每个数据集搜索前N个模型并将它们存储在哈希字典中,并计算元知识库中的数据集的元特征子集的权重;基于协同过滤的分布式AutoML框架CF‑DAML,首先通过模型推荐模块计算新数据集的元特征并为其推荐合适的模型,然后,CF‑DAML在指定的时间限制内使用分布式模型训练系统DSTM在新数据集的训练集上训练推荐出的模型,并在其验证集上评估训练的模型,最后,CF‑DAML采用选择性堆叠集成系统MSSE集成几个高性能模型为新数据集的测试集预测标签。本发明专利技术在保证分类准确率提升的基础上大大降低了时间复杂度。

【技术实现步骤摘要】

本专利技术属于自动机器学习领域,具体涉及一种基于协同过滤的分布式自动机器学习方法


技术介绍

1、机器学习已成功应用于各个领域,例如金融,工业,医疗保健,生物学和量子物理学。随着人工智能的进步,机器学习将会应用更广泛。然而,完成一个机器学习任务需要大量调参工作,这给开发者带来了不便。自动机器学习(automl)的目标是以一种数据驱动的、客观的、自动化的方式做出这些决策:用户只需提供数据,automl系统会自动确定最适合这个特定领域应用的方法。因此,automl使那些对机器学习应用感兴趣但没有资源详细了解其背后的技术的领域科学家可以使用最先进的机器学习方法。

2、automl框架的研究主要有两种思路:一种是结合超参数优化算法反复迭代优化以探索性能更好的模型管道;另一种是在离线阶段搭建良好的元知识库,并用其预训练一个代理模型,在线阶段直接使用代理模型进行元知识库中机器学习管道性能的预测。

3、基于超参数优化的automl框架多数是将其视为一个算法选择及超参数优化问题,即通过在新数据集训练集上训练大量的模型,期间包括切换算法调优超参数等操本文档来自技高网...

【技术保护点】

1.一种基于协同过滤的分布式自动机器学习方法,其特征在于,该方法包括:

2.如权利要求1所述的基于协同过滤的分布式自动机器学习方法,其特征在于,所述步骤S1所述的元知识库包括三个子数据库:

3.如权利要求2所述的基于协同过滤的分布式自动机器学习方法,其特征在于,所述步骤S1所述的元特征子集的权重是通过贝叶斯优化算法迭代出来的,首先从元知识库中的数据集的46个元特征中选择信息丰富的元特征,然后对选择出的元特征进行聚类分组得到元特征子集;构造目标函数与元特征子集之间的黑盒函数关系,并利用贝叶斯优化学习元特征子集的权重,直至达到收敛;最终利用W1-norm计算数据集间的...

【技术特征摘要】

1.一种基于协同过滤的分布式自动机器学习方法,其特征在于,该方法包括:

2.如权利要求1所述的基于协同过滤的分布式自动机器学习方法,其特征在于,所述步骤s1所述的元知识库包括三个子数据库:

3.如权利要求2所述的基于协同过滤的分布式自动机器学习方法,其特征在于,所述步骤s1所述的元特征子集的权重是通过贝叶斯优化算法迭代出来的,首先从元知识库中的数据集的46个元特征中选择信息丰富的元特征,然后对选择出的元特征进行聚类分组得到元特征子集;构造目标函数与元特征子集之间的黑盒函数关系,并利用贝叶斯优化学习元特征子集的权重,直至达到收敛;最终利用w1-norm计算数据集间的相似度。

4.如权利要求3所述的基于协同过滤的分布式自动机器学习方法,其特征在于,所述的元特征的聚类包括如下步骤:通过距离相关系数研究元特征集合中两两元特征之间的相关性,通过剔除带有缺失值的元特征以及意义相同的元特征,将剩下的元特征根据其物理意义聚类为8类元特征子集。

5.如权利要求4所述的基于协同过滤的分布式自动机器学习方法,其特...

【专利技术属性】
技术研发人员:刘朋杰陈美玲吴楠张宁高彤王浩枫叶亚峰田明昊任建新礼冬雪
申请(专利权)人:北京计算机技术及应用研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1