一种面向机器学习的数据模型管理系统技术方案

技术编号:39602735 阅读:9 留言:0更新日期:2023-12-03 20:03
本发明专利技术提供了一种面向机器学习的数据模型管理系统,涉及计算资源管理领域

【技术实现步骤摘要】
一种面向机器学习的数据模型管理系统


[0001]本专利技术涉及计算资源管理领域,尤其涉及一种面向机器学习的数据模型管理系统


技术介绍

[0002]机器学习是一门多领域交叉学科,研究计算机如何模拟或实现人类的学习行为,通过利用数据来提高某些任务的性能的方法

机器学习是通过样本数据

训练算法和模型训练建立一个预测模型,以便在没有明确编程的情况下做出预测或决定

[0003]云计算平台是一种为提供硬件租赁

数据存储

样本使用等综合服务平台,用户通过云计算平台完成一些需要综合服务的计算任务;其中,最为常见的便是机器学习相关的计算任务,这也是最为占用算力资源和计算能耗的业务

[0004]然而很多用户的需求是相同或相似的,所训练得到的预测模型也是为了得到一些差不多的预测或决定;如用户1通过成都市三环内交通数据样本训练得到了成都市要道流量预测模型,用户2通过成都市金牛区交通数据样本训练得到了金牛区要道流量预测模型,但其实通过用户1训练得到的成都市要道流量预测模型就能满足用户2的业务需求

[0005]通过上述案例我们不难看出:云计算平台在满足用户多样化需求的同时,并未充分利用现存的预测模型,这就出现了“重复造车”的情况,造成平台资源浪费和用户体验降低,不利于云计算平台“降本增效”的发展目的

[0006]因此,有必要提供一种面向机器学习的数据模型管理系统来解决上述技术问题


技术实现思路

[0007]为解决上述技术问题,本专利技术提供的一种面向机器学习的数据模型管理系统,部署在云计算平台上,包括样本数据管理系统

学习算法管理系统

预测模型管理系统和数据模型管理系统;其中,所述样本数据管理系统用于对样本数据进行分区存储管理,按照用户配置的训练数据配置文件,调用对应的样本数据组成训练数据集;其中,包括样本数据存储单元和训练数据配置单元;所述学习算法管理系统用于对用户提供学习算法编辑空间和存储空间,并在训练时根据用户限权调用从存储空间中输出对应的学习算法;其中,包括学习算法编辑单元和学习算法存储单元;所述预测模型管理系统用于根据用户新建的模型训练任务,调用硬件层设备执行模型训练任务,得到满足预测精度的预测模型并进行存储;其中,包括训练任务配置单元

预测模型训练单元和预测模型存储单元;所述数据模型管理系统用于通过训练数据分析各预测模型的相似特征,在预测模型存储单元找出与用户采用相似训练数据集且处于共享状态的预测模型,供以用户选择使用实现模型共享复用;其中,包括数据模型管理单元

数据模型匹配单元和数据模型测试单


[0008]作为更进一步的解决方案,所述数据模型管理单元通过如下步骤进行数据模型管理:步骤1:判断训练数据配置单元中是否有用户新建训练数据配置文件,若是则在该用户
WEB
界面上进行弹窗提醒,询问用户是否需要推荐数据模型;若需要,则进行步骤3;若不需要,则进行步骤2;步骤2:启动学习算法编辑单元供用户进行学习算法编辑,并在完成编辑后存入学习算法存储单元;用户通过训练任务配置单元配置训练参数,预测模型训练单元按照训练参数通过训练数据集对学习算法进行学习处理,得到满足预测精度的预测模型;将预测模型存储至预测模型存储单元中,并跳转至步骤5;步骤3:在用户许可的情况下,获取用户的训练数据配置文件并进行解析,得到训练数据所调用的样本数据;查询所调用样本数据的标注项,得到并统计所调用样本数据的标注标签,得到训练数据标签集合;步骤4:数据模型匹配单元通过训练数据标签集合进行数据模型匹配,在预测模型共享库中筛选采用相似训练数据的预测模型,得到候选预测模型;数据模型测试单元对候选预测模型进行模型测试,用户根据模型测试结果选择下载预测模型并进行自行调试;步骤5:判断预测模型存储单元中是否有用户存入新的预测模型,若是则判断预测模型是否具备共享价值,若具备则在该用户
WEB
界面上进行弹窗提醒,询问用户是否同意数据模型共享;若同意则进行步骤6;否则进行步骤7;步骤6:在用户
WEB
界面启动用例填写弹窗,用户填写预测模型用例说明;完成用例填写后,将当前预测模型

训练数据标签集合和预测模型用例说明一并打包,得到共享预测模型数据包;步骤7:关闭用户
WEB
界面弹窗,验证共享预测模型数据包一致性和完整性,并在通过验证后接收共享预测模型数据包,完成一次数据模型管理;重复步骤1至步骤7,直至云计算平台结束数据模型管理

[0009]作为更进一步的解决方案,在步骤3中,在用户许可的情况下获取用户
ID
编号,并通过用户
ID
编号在训练数据配置单元中检索对应的训练数据配置文件;其中,所述训练数据配置文件用于链接样本数据存储单元中样本数据并组成训练数据集;所述样本数据存储单元包括内源数据存储单元和外源数据存储单元;所述内源数据存储单元用于存储云计算平台提供的样本数据供以用户选择,所述外源数据存储单元用于存储用户上传的样本数据

[0010]作为更进一步的解决方案,在步骤4中,所述数据模型匹配单元提取训练数据标签集合中各标注标签的标签名称,并对标标签名称进行文本向量化处理,得到标签名称向量集合;在进行数据模型匹配时:所述数据模型匹配单元通过计算各标签名称向量集合之间的文本向量相似度,并通过文本向量相似度进行数据模型匹配;当用户设置的训练数据标签集合与共享预测模型数据包中训练数据标签集合之间的文本向量相似度达到预设相似度阈值,则该共享预测模型数据包所对应的预测模型判断为候选预测模型

[0011]作为更进一步的解决方案,在步骤4中,通过如下步骤进行模型测试:用户选择需要进行测试的候选预测模型,并预载至数据模型测试单元中;
获取候选预测模型对应的预测模型用例说明并下发给用户;用户根据预测模型用例说明设置模型测试输入量;待用户上传模型测试输入量后,将模型测试输入量输入至候选预测模型;在云端完成模型计算并得到模型测试输出量并下发给用户;用户根据模型测试输出量判断是否下载使用该预测模型

[0012]作为更进一步的解决方案,在步骤5中,通过如下步骤判断是否具备共享价值:采集预测模型训练成本;其中,预测模型训练成本由算力使用成本

设备占用成本和平台运维成本组成;采集预测模型共享成本;其中,预测模型共享成本由网络负载成本

模型存储成本和模型管理成本组成;比较预测模型训练成本和预测模型共享成本;若预测模型训练成本高于预测模型共享成本,则进行下一步判断;否则,不具备共享价值;计算预测模型节约成本;其中,预测模型节约成本为预测模型训练成本减去预测模型共享成本的差值;设置预测模型共享利润;其中,预测模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种面向机器学习的数据模型管理系统,部署在云计算平台上,其特征在于,包括样本数据管理系统

学习算法管理系统

预测模型管理系统和数据模型管理系统;其中,所述样本数据管理系统用于对样本数据进行分区存储管理,按照用户配置的训练数据配置文件,调用对应的样本数据组成训练数据集;其中,包括样本数据存储单元和训练数据配置单元;所述学习算法管理系统用于对用户提供学习算法编辑空间和存储空间,并在训练时根据用户限权调用从存储空间中输出对应的学习算法;其中,包括学习算法编辑单元和学习算法存储单元;所述预测模型管理系统用于根据用户新建的模型训练任务,调用硬件层设备执行模型训练任务,得到满足预测精度的预测模型并进行存储;其中,包括训练任务配置单元

预测模型训练单元和预测模型存储单元;所述数据模型管理系统用于通过训练数据分析各预测模型的相似特征,在预测模型存储单元找出与用户采用相似训练数据集且处于共享状态的预测模型,供以用户选择使用实现模型共享复用;其中,包括数据模型管理单元

数据模型匹配单元和数据模型测试单元
。2.
根据权利要求1所述的一种面向机器学习的数据模型管理系统,其特征在于,所述数据模型管理单元通过如下步骤进行数据模型管理:步骤1:判断训练数据配置单元中是否有用户新建训练数据配置文件,若是则在该用户
WEB
界面上进行弹窗提醒,询问用户是否需要推荐数据模型;若需要,则进行步骤3;若不需要,则进行步骤2;步骤2:启动学习算法编辑单元供用户进行学习算法编辑,并在完成编辑后存入学习算法存储单元;用户通过训练任务配置单元配置训练参数,预测模型训练单元按照训练参数通过训练数据集对学习算法进行学习处理,得到满足预测精度的预测模型;将预测模型存储至预测模型存储单元中,并跳转至步骤5;步骤3:在用户许可的情况下,获取用户的训练数据配置文件并进行解析,得到训练数据所调用的样本数据;查询所调用样本数据的标注项,得到并统计所调用样本数据的标注标签,得到训练数据标签集合;步骤4:数据模型匹配单元通过训练数据标签集合进行数据模型匹配,在预测模型共享库中筛选采用相似训练数据的预测模型,得到候选预测模型;数据模型测试单元对候选预测模型进行模型测试,用户根据模型测试结果选择下载预测模型并进行自行调试;步骤5:判断预测模型存储单元中是否有用户存入新的预测模型,若是则判断预测模型是否具备共享价值,若具备则在该用户
WEB
界面上进行弹窗提醒,询问用户是否同意数据模型共享;若同意则进行步骤6;否则进行步骤7;步骤6:在用户
WEB
界面启动用例填写弹窗,用户填写预测模型用例说明;完成用例填写后,将当前预测模型

训练数据标签集合和预测模型用例说明一并打包,得到共享预测模型数据包;步骤7:关闭用户
WEB
界面弹窗,验证共享预测模型数据包一致性和完整性,并在通过验证后接收共享预测模型数据包,完成一次数据模型管理;重复步骤1至步骤7,直至云计算平台结束数据模型管理
。3.
根据权利要求2所述的一种面向机器学习的数据模型管理系统,其特征在于,在步骤
3
中,在用户许可的情况下获取用户
ID
编号,并通过用户
ID
编号在训练数据配置单元中检索对应的训练数据配置文件;其中,所述训练数据配置文件用于链接样本数据存储单元中样本数据并组成训练数据集;所述样本数据存储单元包括内源数据存储单元和外源数据存储单元;所述内源数据存储单元用于存储云计算平台提供的样本数据供以用户选择,所述外源数据存储单元用于存储用户上传的样本数据
。4.
根据权利要求2所述的一种面向机器学习的数据模型管理系统,其特征在于,在步骤4中,所述数据模型匹配单元提取训练数据...

【专利技术属性】
技术研发人员:吕超星丁鹏丁翔
申请(专利权)人:北京万界数据科技有限责任公司武汉分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1