一种数据集的确定方法、装置、计算机设备以及存储介质制造方法及图纸

技术编号:31020379 阅读:16 留言:0更新日期:2021-11-30 03:07
本公开提供了一种数据集的确定方法、装置、计算机设备以及存储介质,其中,该方法包括:获取包含多个语义信息的语义数据库;基于所述语义数据库创建多个标签数据;每个标签数据对应一个语义类别,每个标签数据包含所属于对应语义类别的物体标签;所述多个标签数据对应的语义类别为能够对待测试模型进行全方位表示测试的类别;基于预设数据集合,为各个所述标签数据的物体标签确定相匹配数据,并基于所述相匹配数据确定每个所述标签数据对应的测试数据集合,得到多个测试数据集合。得到多个测试数据集合。得到多个测试数据集合。

【技术实现步骤摘要】
一种数据集的确定方法、装置、计算机设备以及存储介质


[0001]本公开涉及计算机
,具体而言,涉及一种数据集的确定方法、装置、计算机设备以及存储介质。

技术介绍

[0002]在计算机视觉领域,需要对设计好的模型进行性能测试,此时,可以根据相应的测试集对设计好的模型进行性能测试。然而,现有的测试集通常为预先已经设定好的数据集,例如,ImageNet数据集等。由于现有的测试集中包含在各种场景下包含多种类型的物体的测试数据,因此,通过现有的测试集对模型进行测试时,无法反应出该模型针对各种类型的物体所对应的测试数据的测试性能。此时,在采用现有的测试集对模型进行性能测试时,将影响该模型的鲁棒性,从而影响该模型的处理精度。

技术实现思路

[0003]本公开实施例至少提供一种数据集的确定方法、装置、计算机设备以及存储介质。
[0004]第一方面,本公开实施例提供了一种数据集的确定方法,包括:获取包含多个语义信息的语义数据库;基于所述语义数据库创建多个标签数据;每个标签数据对应一个语义类别,每个标签数据包含所属于对应语义类别的物体标签;所述多个标签数据对应的语义类别为能够对待测试模型进行全方位表示测试的类别;基于预设数据集合,为各个所述标签数据的物体标签确定相匹配数据,并基于所述相匹配数据确定每个所述标签数据对应的测试数据集合,得到多个测试数据集合。
[0005]通过上述描述可知,本公开实施例通过对语义数据库进行处理得到对应多个语义类别的标签数据,并基于确定出的多个标签数据创建对应多个语义类别的测试数据集合的方式,可以得到对应多个语义类别的测试数据集合,在通过确定出的多个测试数据集合对待测试模型进行性能测试时,可以实现全方位对待测试模型进行测试,从而得到待测试模型的全方位表示性能。通过该测试方式,可以提高待测试模型的鲁棒性,进而提高待测试模型的模型处理精度。
[0006]一种可选的实施方式中,所述语义数据库为多个,所述基于所述语义数据库创建多个标签数据,包括:将多个语义数据库中的语义信息进行融合,得到融合语义数据库;其中,所述融合语义数据库中包含多个融合语义信息和多个融合语义信息之间的层次信息;确定待划分的多个语义类别,并按照所述多个语义类别对所述融合语义数据库划分为所述多个标签数据。
[0007]通过上述描述可知,通过将多个语义数据库进行语义融合,可以得到更加全面的语义数据库,即融合语义数据库。在根据该融合语义数据库确定多个标签数据时,就可以得到语义类别更加丰富的标签数据,通过该多个标签数据所对应测试数据集合对待测试模型进行测试时,可以实现待测试模型的全方位测试,从而得到待测试模型的全方位表示性能。
[0008]一种可选的实施方式中,所述将多个语义数据库中的语义信息进行融合,得到融
合语义数据库,包括:在所述多个语义数据库的第一语义数据库中确定待融合语义信息;所述待融合语义信息在所述第一语义数据库中不包含下一层级的语义信息;基于所述第一语义数据库中语义信息间的层次信息,确定所述待融合语义信息所在的语义路径,所述语义路径包含至少一个语义信息;基于所述语义路径中位于所述待融合语义信息之前的高层次语义信息,将所述待融合语义信息和第二语义数据库中的语义信息进行融合,得到所述融合语义数据库,所述第二语义数据库为所述多个语义数据库中除所述第一语义数据库之外的数据库。
[0009]通过上述描述可知,通过基于语义信息之间的层次信息确定待融合语义信息所在的语义路径,进而根据该语义路径将待融合语义信息和第二语义数据库中的语义信息进行融合的方式,可以更加快速准确的确定出待融合语义信息和第二语义数据库中语义信息之间的映射关系,从而能够实现最大可能将每个待融合语义信息和第二语义数据库中的语义信息进行融合,进而得到包含更加全面的语义信息的融合语义数据库。
[0010]一种可选的实施方式中,所述基于所述语义路径中位于所述待融合语义信息之前的高层次语义信息,将所述待融合语义信息和第二语义数据库中的语义信息进行融合,得到所述融合语义数据库,包括:按照由高到低的层次顺序,在所述高层次语义信息中确定目标语义信息;所述目标语义信息在所述第二语义数据库中包含相对应的语义信息;将所述待融合语义信息和所述第二语义数据库中与所述目标语义信息相对应的语义信息的下一层次的语义信息进行融合,得到所述融合语义数据库。
[0011]在本公开实施例中,通过将多个语义数据库中的语义信息进行融合,得到融合语义数据库的方式,可以得到包含更加丰富、更加全面的语义信息,在基于该融合语义数据库确定多个标签数据时,就可以得到对应多种语义类型的标签数据,从而实现对待测试模型进行全方位表示测试,进而提高待测试模型的鲁棒性,同时提高该待测试模型的适用范围,以提高该待测试模型的处理精度。
[0012]一种可选的实施方式中,所述融合语义数据库为树形结构的数据库;所述按照所述多个语义类别对所述融合语义数据库划分为所述多个标签数据,包括:在所述树形结构的数据库中确定与每个语义类别相对应的节点,得到多个目标节点;将每个所述目标节点作为根节点,对所述树形结构的数据库进行划分,划分得到多个子树形结构的数据库,其中,每个子树形结构的数据库对应一个目标节点;基于所述多个子树形结构的数据库确定所述多个标签数据,其中,每个标签数据中的物体标签为对应子树形结构的数据库中的语义信息。
[0013]在本公开实施例中,根据需要划分的语义类别,将融合语义数据库划分为对应多个语义类别的标签数据,再根据该多个标签数据确定多个测试数据集合,可以得到能够对待测试模型进行全方位表示测试的数据集合,在根据该多个测试数据集合进行模型测试时,可以确定出待测试模型在每个语义类别上的性能表现。
[0014]一种可选的实施方式中,所述预设数据集合中包含多个数据和多个数据的数据标签;所述基于预设数据集合,为各个所述标签数据的物体标签确定相匹配数据,包括:确定每个标签数据中所包含的物体标签;将所述预设数据集合中的数据标签与所述物体标签进行匹配,确定至少一组匹配标签;在所述预设数据集合中确定与每组匹配标签中的数据标签相对应的至少一个数据,并将所述相对应的至少一个数据确定为与该组匹配标签中的物
体标签相匹配的数据。
[0015]在本公开实施例中,上述预设数据集合可以选择为以下两个数据集:ImageNet和Places。由于数据集ImageNet和Places中包含大量的自然图片,因此,在基于数据集ImageNet和Places来确定多个测试数据集合时,可以得到更加全面的数据集合,在根据该多个测试数据集合对待测试模型进行测试时,可以确定出待测试模型在每个语义类别上的性能表现。
[0016]一种可选的实施方式中,所述方法还包括:通过每个测试数据集合对所述待测试模型进行测试处理,得到多个测试结果;计算所述多个测试结果的平均值,并将所述平均值确定为对所述待测试模型进行全方位表示测试的测试结果。
[0017]在本公开实施例中,通过对待测试模型在多个测试数据集上进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据集的确定方法,其特征在于,包括:获取包含多个语义信息的语义数据库;基于所述语义数据库创建多个标签数据;每个标签数据对应一个语义类别,每个标签数据包含所属于对应语义类别的物体标签;所述多个标签数据对应的语义类别为能够对待测试模型进行全方位表示测试的类别;基于预设数据集合,为各个所述标签数据的物体标签确定相匹配数据,并基于所述相匹配数据确定每个所述标签数据对应的测试数据集合,得到多个测试数据集合。2.根据权利要求1所述的方法,其特征在于,所述语义数据库为多个,所述基于所述语义数据库创建多个标签数据,包括:将多个语义数据库中的语义信息进行融合,得到融合语义数据库;其中,所述融合语义数据库中包含多个融合语义信息和多个融合语义信息之间的层次信息;确定待划分的多个语义类别,并按照所述多个语义类别对所述融合语义数据库划分为所述多个标签数据。3.根据权利要求2所述的方法,其特征在于,所述将多个语义数据库中的语义信息进行融合,得到融合语义数据库,包括:在所述多个语义数据库的第一语义数据库中确定待融合语义信息;所述待融合语义信息在所述第一语义数据库中不包含下一层级的语义信息;基于所述第一语义数据库中语义信息间的层次信息,确定所述待融合语义信息所在的语义路径,所述语义路径包含至少一个语义信息;基于所述语义路径中位于所述待融合语义信息之前的高层次语义信息,将所述待融合语义信息和第二语义数据库中的语义信息进行融合,得到所述融合语义数据库,所述第二语义数据库为所述多个语义数据库中除所述第一语义数据库之外的数据库。4.根据权利要求3所述的方法,其特征在于,所述基于所述语义路径中位于所述待融合语义信息之前的高层次语义信息,将所述待融合语义信息和第二语义数据库中的语义信息进行融合,得到所述融合语义数据库,包括:按照由高到低的层次顺序,在所述高层次语义信息中确定目标语义信息;所述目标语义信息在所述第二语义数据库中包含相对应的语义信息;将所述待融合语义信息和所述第二语义数据库中与所述目标语义信息相对应的语义信息的下一层次的语义信息进行融合,得到所述融合语义数据库。5.根据权利要求2所述的方法,其特征在于,所述融合语义数据库为树形结构的数据库;所述按照所述多个语义类别对所述融合语义数据库划分为所述多个标签数据,包括:在所述树形结构的数据库中确定与每个语义类别相对应的节点,得到多个目标节点;将每个所述目标节点作为根节点,对所述树形结构的数据库进行划分,划分得到多个子树形结构的数据库,其中,每个子树形结构的数据库对应一个目标节点;基于所述多个子树形结构的数据库确定所述多个标签数据,其中,每个标签数据中的物体标签为对应子树形结构的数据库中的语义信息。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述预设数据集合中包含多个...

【专利技术属性】
技术研发人员:张元瀚黄耿石刘冬阳滕家宁王坤尹榛菲邵婧
申请(专利权)人:北京市商汤科技开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1