一种模型训练数据的管理方法、装置及电子设备制造方法及图纸

技术编号:37291653 阅读:18 留言:0更新日期:2023-04-21 03:22
本发明专利技术公开一种模型训练数据的管理方法、装置及电子设备,通过获取目标数据集;对目标数据集进行衍生处理,得到衍生数据集;根据目标数据集及衍生数据集,确定目标数据集的衍生链路;根据衍生链路,对数据集进行管理。如此,在模型训练前的数据集准备阶段,可以更好的基于复杂数据准备逻辑下的数据管理过程优化,方便数据集的查找和使用。通过以数据集为管理的基本单位,进行集合式的数据管理,清晰了解数据集的衍生过程,从而支持以数据集为单位的数据处理流程记录和血缘跟踪,实现处理流程的局部更新,降低处理流程中重复工作造成的负载压力和效率降低。力和效率降低。力和效率降低。

【技术实现步骤摘要】
一种模型训练数据的管理方法、装置及电子设备


[0001]本专利技术涉及数据处理
,尤其涉及一种模型训练数据的管理方法、装置及电子设备。

技术介绍

[0002]在进行人工智能模型设计和实现的过程中,需要通过数据对模型进行训练的过程。对于较为复杂的智能化项目,往往是对原始数据进行多步操作,利用多个模型,完成一个最终的智能处理目标。这也导致项目会从统一原始数据,经过不同的处理,构建出多个用于不同模型训练的训练集。这使得数据集间存在一些衍生和继承的联系,当这些操作和衍生过多时,对数据的管理和查找也会变得过度复杂。
[0003]因此,如何方便的管理这些训练数据是我们目前需要解决的问题。

技术实现思路

[0004]鉴于上述问题,提出了本专利技术以便提供一种模型训练数据的管理方法、装置及电子设备,可以方便了解数据衍化流程,从而实现以数据集为整体的管理。
[0005]依据本专利技术的第一个方面,提供了一种模型训练数据的管理方法,包括:
[0006]获取目标数据集;
[0007]对目标数据集进行衍生处理,得到衍生数据集;
[0008]根据目标数据集及衍生数据集,确定目标数据集的衍生链路;
[0009]根据衍生链路,对数据集进行管理。
[0010]可选的,对目标数据集进行衍生处理,包括:
[0011]获取预设的衍生处理方法;
[0012]根据预设的衍生处理方法,对目标数据集进行衍生处理。
[0013]可选的,管理方法还包括:
[0014]确定用于衍生处理的目标数据集的筛选条件、数据处理方式、衍生数据集类别;
[0015]根据用于衍生处理的源数据集条件、数据处理方式、衍生数据集类别,确定衍生处理方法。
[0016]可选的,数据处理方式包括:缩放处理、变色处理、裁剪处理。
[0017]可选的,目标数据集进行衍生处理,包括:
[0018]对目标数据集进行标注,确定得到带有标注信息的目标数据集;
[0019]对带有标注信息的目标数据集进行修校。
[0020]可选的,标注包括人工标注以及模型标注。
[0021]可选的,在获取目标数据集之前,还包括:
[0022]获取初始数据集;
[0023]将新增数据扩充至初始数据集;
[0024]将初始数据集的新增数据设置为目标数据集。
[0025]依据本专利技术的第二个方面,提供一种模型训练数据的管理装置,包括:
[0026]数据获取模块,用于获取目标数据集;
[0027]衍生处理模块,用于对目标数据集进行衍生处理,得到衍生数据集;
[0028]链路确定模块,用于根据目标数据集及衍生数据集,确定目标数据的衍生链路;
[0029]管理模块,用于根据衍生链路,对数据进行管理。
[0030]依据本专利技术的第三个方面,提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现前述的模型训练数据的管理方法。
[0031]依据本专利技术的第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述的模型训练数据的管理方法。
[0032]本说明书实施例中的上述一个或多个技术方案,至少具有如下技术效果:
[0033]本说明书实施例提供的一种模型训练数据的管理方法、装置及电子设备,获取目标数据集;对目标数据集进行衍生处理,得到衍生数据集;根据目标数据集及衍生数据集,确定目标数据集的衍生链路;根据衍生链路,对数据集进行管理。如此,在模型训练前的数据集准备阶段,可以更好的基于复杂数据准备逻辑下的数据管理过程优化,方便数据集的查找和使用。通过以数据集为管理的基本单位,进行集合式的数据管理。清晰了解数据集的衍生过程,从而支持以数据集为单位的数据处理流程记录和血缘跟踪,实现处理流程的局部更新,降低处理流程中重复工作造成的负载压力和效率降低。同时提供了数据标注和校验,还可以自定义处理和数据集类型,实现定制化的管理设计。
[0034]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0035]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考图形表示相同的部件。
[0036]在附图中:
[0037]图1示出了本专利技术实施例中的一种电子设备的示意图。
[0038]图2示出了本专利技术实施例中的一种模型训练数据的管理方法的流程图。
[0039]图3示出了本专利技术实施例中的一种模型训练数据的管理装置的方框示意图。
[0040]图标:
[0041]100

电子设备;10

模型训练数据的管理装置;11

数据获取模块;12

衍生处理模块;13

链路确定模块;14

管理模块;20

存储器;30

处理器;40

通信单元。
具体实施方式
[0042]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施
例的组件可以以各种不同的配置来布置和设计。
[0043]因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0044]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0045]在本专利技术的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。
[0046]请参阅图1,图1为本实施例提供的一种电子设备100的结构框图。如图1所示,电子设备可以包括模型训练数据的管理装置10、存储器20、处理器30及通信单元40,存储器20存储有处理器30可执行的机器可读指令,当电子设备10本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练数据的管理方法,其特征在于,包括:获取目标数据集;对所述目标数据集进行衍生处理,得到衍生数据集;根据所述目标数据集及所述衍生数据集,确定所述目标数据集的衍生链路;根据所述衍生链路,对数据集进行管理。2.根据权利要求1所述的模型训练数据的管理方法,其特征在于,所述对所述目标数据集进行衍生处理,包括:获取预设的衍生处理方法;根据所述预设的衍生处理方法,对所述目标数据集进行衍生处理。3.根据权利要求2所述的模型训练数据的管理方法,其特征在于,所述管理方法还包括:确定用于衍生处理的目标数据集的筛选条件、数据处理方式、衍生数据集类别;根据用于衍生处理的源数据集条件、数据处理方式、衍生数据集类别,确定衍生处理方法。4.根据权利要求3所述的模型训练数据的管理方法,其特征在于,所述数据处理方式包括:缩放处理、变色处理、裁剪处理。5.根据权利要求1所述的模型训练数据的管理方法,其特征在于,所述对目标数据集进行衍生处理,包括:对所述目标数据集进行标注,确定得到带有标注信息的目标数据集;对带有标注信息的目标数据集进行修校。6.根据权利要求5所述...

【专利技术属性】
技术研发人员:宋扬陈星苏睿聪官泽张斌杨昆刘凯史若圻
申请(专利权)人:北京首钢自动化信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1