一种元宇宙原始数据的标记方法及标记系统技术方案

技术编号:35149487 阅读:21 留言:0更新日期:2022-10-05 10:27
本发明专利技术提供一种元宇宙原始数据的标记方法及标记系统,所述标记方法包括以下步骤:导入用于数据挖掘的挖掘集和带有训练目标的数据集,设置挖掘策略;训练初始模型;准备迭代数据,通过MetaDataLabeler的模型迭代流程对初始模型进行迭代;对待挖掘的数据集进行数据挖掘;对没有标签的数据进行标注;将标注好的数据集合并到训练集中生成新的训练集版本,再次进行模型训练生成新的模型版本。本发明专利技术从海量数据中挖掘出对模型能力提高最有利的数据,仅针对这部分数据进行标注,对原本的训练数据集进行高效扩充,使用更新后的数据集再次训练模型来提高模型能力,减少了对低质量数据的标注成本,扩充了高质量数据,提升了模型能力。提升了模型能力。提升了模型能力。

【技术实现步骤摘要】
一种元宇宙原始数据的标记方法及标记系统


[0001]本专利技术涉及元宇宙
,具体而言,涉及一种元宇宙原始数据的标记方法及标记系统。

技术介绍

[0002]目前人工智能商业化在算力、算法和技术方面,已基本达到阶段性成熟,AI行业高速发展,智能驾驶、智能终端等领域不断发展,应用落地不断加速,通过算法和应用的落地来真正解决行业具体难点。
[0003]随着AI应用场景的丰富,对AI数据服务将产生长期海量的需求,需要采集大量人工智能相关的原始数据,并经过标注处理后做算法训练支撑。数据和标签是AI模型训练的必要条件,深度学习模型的训练需要大量带标签的数据。以计算机视觉为例,一个新场景的开发支持需要上万张甚至数十万张不等的经过采集和标注的图片。
[0004]然而在实际情况下,对于海量的数据采集和标注,传统的数据采集、标注与管理的方法需花费很长时间,效率低下。现实中存在的是大量没有标签的数据,如果全部由标注人员手工打上标签,人力和时间成本过高。

技术实现思路

[0005]鉴于此,本专利技术的目的在于通过主动学习的方法,首先通过本地导入或者少量数据来训练出一个初始模型,使用该初始模型,在海量数据中快速寻找到对模型优化最有利的数据,降低标注成本,减少迭代时间,保障模型的持续迭代。
[0006]MetaDataLabeler是一个数据驱动的算法训练平台,能够做到以无代码开发的方式,实现数据管理、数据标注、数据挖掘、模型训练、模型验证等功能。
[0007]本专利技术在传统的数据采集与标注解决方案基础上,将数据导入、数据清洗、数据标注、标注审核、标签管理等功能集成在MetaDataLabeler平台上,解决了数据管理与标注问题。
[0008]本专利技术提供一种元宇宙原始数据的标记方法,包括以下步骤:
[0009]A、导入用于数据挖掘的挖掘集(可以不需要包含标注文件),以及带有训练目标的数据集,设置对应的数据集和挖掘策略,用于训练初始模型;
[0010]所述带有训练目标的数据集包括:训练集、测试集;
[0011]B、选择训练集,选择测试集,选择训练目标,选择前置预训练模型、训练镜像、训练类型、算法框架、骨干网络结构、GPU个数以及配置训练参数中的一种或多种的组合,训练初始模型;
[0012]训练成功后,可跳转到模型列表界面,查看到相应的训练进度和信息,完成后可查看模型的效果(mAP值);
[0013]C、完成所述初始模型的训练后,对所述初始模型设置准备迭代数据,通过MetaDataLabeler提供的标准化的模型迭代流程进行迭代;
[0014]MetaDataLabeler在每一步操作中帮助用户默认填入上一次的操作结果,普通用户按照既定步骤操作,即可完成完整的模型迭代流程;
[0015]D、使用初始模型对待挖掘的数据集进行数据挖掘;对挖掘出来的没有标签的数据进行标注;将标注好的数据集合并到训练集中,并将合并结果生成为一个新的训练集版本,合并完成后,再次进行模型训练,生成新的模型版本;
[0016]由于在模型训练的初期,很难一次性找到大量的优质数据来进行训练,导致初始模型的精度不够;因此,寻找有利于模型训练的数据一直是人工智能算法开发的一大问题,在这个过程中,往往会对算法工程师的人力资源产生很大消耗;在此基础上,MetaDataLabeler提供成熟的挖掘算法,支持百万级数据挖掘,在海量数据中快速寻找到对模型优化最有利的数据,降低标注成本,减少迭代时间,保障模型的持续迭代;
[0017]默认原数据集为上次挖掘数据准备的结果数据集,默认模型为迭代准备中设置的初始模型,输入筛选测试TOPK=500(前500张成功挖掘的图像)和设定自定义参数(自定义参数提供默认值,默认参数中key值不可修改,value值可修改,如需添加参数可以自行添加);创建成功后,跳转到数据集管理界面,查看到相应的挖掘进度和信息,挖掘完成后可查挖掘出的结果数据集;
[0018]默认原数据集为上次挖掘得到的结果数据集,输入标注人员邮箱(需要提前去标注系统注册,点击最下方“注册标注平台账号”即可跳转到Label Studio标注平台注册标注账号),选择标注目标(helmet_head,no_helmet_head),如需自行到标注平台查看,请勾选“到标注平台查看”,填写自己的标注平台账号(同样需要提前注册),如对标注有更详细的要求,则可以上传标注说明文档供标注人员参考。点击创建,创建成功后,跳转到数据集管理界面,可以查看到相应的标注进度和信息,标注完成后,系统自动获取完成结果,生成带有新标注的数据集;
[0019]进一步地,所述A步骤之前还包括:根据AI模型的训练目标创建项目,并设置所述训练目标的mAP值、迭代轮次目标信息。
[0020]进一步地,所述A步骤的数据集的导入支持四种方法:公共数据集导入、网络导入、本地导入和路径导入;
[0021]所述公共数据集导入的方法包括:导入公共用户内置的数据集,该数据集存储在公共用户上,以复制的形式导入到当前的操作用户上;
[0022]所述网络导入的方法包括:输入数据集对应的url路径;
[0023]所述本地导入的方法包括:上传本地数据集的压缩包;
[0024]所述路径导入的方法:输入数据集在服务器中的绝对路径。
[0025]进一步地,所述公共数据集导入的所述以复制的形式导入到当前的操作用户上的方法包括:
[0026]选择数据集,根据需求选择是否要同步导入公共数据集包含的标签。
[0027]进一步地,所述路径导入的方法包括以下步骤:
[0028]1)通过在网络中下载开源数据集VOC2012,解压缩后按要求修改文件夹名称,再分别压缩为符合导入要求的zip包;
[0029]2)把VOC2012放到workplace/sharing下面;
[0030]3)选择路径导入,填上路径地址voc2012。
[0031]进一步地,所述D步骤的对挖掘出来的没有标签的数据进行标注的方法包括:
[0032]将MetaDataLabeler无缝对接标注工具LabelFree,支持大量标注步骤快捷键操作,提供一键标注服务,支持多人协作完成同一标注任务并实现任务自动分发。
[0033]进一步地,所述D步骤之后还包括:
[0034]对达到预期的模型进行下载,或继续进入下一轮迭代,进一步优化模型。
[0035]本专利技术还提供一种元宇宙原始数据的标记系统,执行如上述所述的元宇宙原始数据的标记方法,包括:
[0036]导入数据集模块:用于导入用于数据挖掘的挖掘集,以及带有训练目标的数据集,设置对应的数据集和挖掘策略,用于训练初始模型;
[0037]训练初始模型模块:用于选择训练集,选择测试集,选择训练目标,选择前置预训练模型、训练镜像、训练类型、算法框架、骨干网络结构、GPU个数以及配置训练参数中的一种或多种的组合,训练初始模型;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种元宇宙原始数据的标记方法,其特征在于,包括以下步骤:A、导入用于数据挖掘的挖掘集,以及带有训练目标的数据集,设置对应的数据集和挖掘策略,用于训练初始模型;所述带有训练目标的数据集包括:训练集、测试集;B、选择训练集,选择测试集,选择训练目标,选择前置预训练模型、训练镜像、训练类型、算法框架、骨干网络结构、GPU个数以及配置训练参数中的一种或多种的组合,训练初始模型;C、完成所述初始模型的训练后,对所述初始模型设置准备迭代数据,通过MetaDataLabeler提供的标准化的模型迭代流程进行迭代;D、使用初始模型对待挖掘的数据集进行数据挖掘;对挖掘出来的没有标签的数据进行标注;将标注好的数据集合并到训练集中,并将合并结果生成为一个新的训练集版本,合并完成后,再次进行模型训练,生成新的模型版本。2.根据权利要求1所述的元宇宙原始数据的标记方法,其特征在于,所述A步骤之前还包括:根据AI模型的训练目标创建项目,并设置所述训练目标的mAP值、迭代轮次目标信息。3.根据权利要求1所述的元宇宙原始数据的标记方法,其特征在于,所述A步骤的数据集的导入支持四种方法:公共数据集导入、网络导入、本地导入和路径导入;所述公共数据集导入的方法包括:导入公共用户内置的数据集,该数据集存储在公共用户上,以复制的形式导入到当前的操作用户上;所述网络导入的方法包括:输入数据集对应的url路径;所述本地导入的方法包括:上传本地数据集的压缩包;所述路径导入的方法包括:输入数据集在服务器中的绝对路径。4.根据权利要求3所述的元宇宙原始数据的标记方法,其特征在于,所述公共数据集导入的所述以复制的形式导入到当前的操作用户上的方法包括:选择数据集,根据需求选择是否要同步导入公共数据集包含的标签。5.根据权利要求3所述的元宇宙原始数据的标记方法,其特征在于,所述路径导入的方法包括以下步骤:1)通过在网络中下载开源数据集VOC2012,解压缩后按要求修改文件夹名称,再分别压缩为符合导入要求的zip包;2)把VOC2012放到workplace/sharing下面;3)选择路径导入,...

【专利技术属性】
技术研发人员:谭久林杨志芳李小龙
申请(专利权)人:新疆元宇宙人工智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1