数据集的构建方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:32273816 阅读:22 留言:0更新日期:2022-02-12 19:38
本公开提供了一种数据集的构建方法、装置、计算机设备及存储介质,其中,该方法包括:获取待添加至样本标签集合的目标标签;基于所述目标标签与所述样本标签集合的匹配关系,将所述目标标签添加至所述样本标签集合的标签层级结构中;获取所述样本标签集合所包含的标签分别对应的样本数据,并基于所述样本数据和所述样本标签集合构建样本数据集。所述样本标签集合构建样本数据集。所述样本标签集合构建样本数据集。

【技术实现步骤摘要】
数据集的构建方法、装置、计算机设备及存储介质


[0001]本公开涉及计算机
,具体而言,涉及一种数据集的构建方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着人工智能技术的飞速发展,各种模型的规模越来越大,同时对模型的精度要求也越来越高,使得在相关模型的训练过程中,需要使用大量的训练数据对模型进行训练,以提高模型的训练效果。
[0003]相关技术中,训练模型时所使用的样本数据往往来自预先构建的样本数据集,因此如何合理且高效的构建数据集成为了相关领域中亟待解决的问题。

技术实现思路

[0004]本公开实施例至少提供一种数据集的构建方法、装置、计算机设备及存储介质。
[0005]第一方面,本公开实施例提供了一种数据集的构建方法,包括:
[0006]获取待添加至样本标签集合的目标标签;
[0007]基于所述目标标签与所述样本标签集合的匹配关系,将所述目标标签添加至所述样本标签集合的标签层级结构中;
[0008]获取所述样本标签集合所包含的标签分别对应的样本数据,并基于所述样本数本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据集的构建方法,其特征在于,包括:获取待添加至样本标签集合的目标标签;基于所述目标标签与所述样本标签集合的匹配关系,将所述目标标签添加至所述样本标签集合的标签层级结构中;获取所述样本标签集合所包含的标签分别对应的样本数据,并基于所述样本数据和所述样本标签集合构建样本数据集。2.根据权利要求1所述的方法,其特征在于,所述获取待添加至样本标签集合的目标标签,包括:针对所述样本标签集合中的第一标签,将所述第一标签对应的关联词确定为所述目标标签;所述基于所述目标标签与所述样本标签集合的匹配关系,将所述目标标签添加至所述样本标签集合的标签层级结构中,包括:将所述目标标签添加至,与所述目标标签具有同一语义的第一标签所在的标签层级结构中。3.根据权利要求1或2所述的方法,其特征在于,所述获取待添加至样本标签集合的目标标签,包括:获取具有层级关系的多个第二标签;基于所述多个第二标签之间的层级关系,以及所述样本标签集合的标签层级结构,确定添加至所述样本标签集合中的目标标签。4.根据权利要求3所述的方法,其特征在于,所述基于所述多个第二标签之间的层级关系,以及所述样本标签集合的标签层级结构,确定添加至所述样本标签集合中的目标标签,包括:确定所述多个第二标签中,对应的层级关系满足预设要求的第二目标标签;针对任一第二目标标签,从所述多个第二标签中,确定与所述任一第二目标标签具有层级关系的至少一个待匹配标签;在检测到所述待匹配标签与所述样本标签集合中的任一标签匹配的情况下,将所述任一第二目标标签确定为所述目标标签。5.根据权利要求4所述的方法,其特征在于,所述基于所述目标标签与所述样本标签集合的匹配关系,将所述目标标签添加至所述样本标签集合的标签层级结构中,包括:确定所述样本标签集合中与所述待匹配标签匹配的标签的第一层级位置;将所述任一第二目标标签添加至所述样本标签集合中所述第一层级位置的下一层级中。6.根据权利要求1~5任一所述的方法,其特征在于,所述获取待添加至样本标签集合的目标标签,包括:获取至少一个第三标签;其中,所述第三标签中包含有至少两个词语;确定各第三标签分别对应的待匹配中心词;确定至少一个待匹配中心词中与所述样本标签集合中任一标签匹配的目标中心词,并将所述目标中心词对应的第三标签确定为所述目标标签。7.根据权利要求6所述的方法,其特征在于...

【专利技术属性】
技术研发人员:张元瀚孙庆宏周弋淳何泽欣尹榛菲王坤邵婧
申请(专利权)人:北京市商汤科技开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1