公开图像训练数据集的整合方法及装置制造方法及图纸

技术编号:24035822 阅读:56 留言:0更新日期:2020-05-07 01:52
本发明专利技术公开了一种公开图像训练数据集的整合方法及装置,该方法包括:获取多个公开图像训练数据集的资源数据;从所述资源数据中拆解得到图像的相关信息,其中,所述图像的相关信息包括图像的URL信息、图像的标签、目标物体在图像中的位置信息和目标物体在图像中的外形轮廓信息;将与预设标签相同的标签对应的图像的URL信息和标签融合生成资源数据集合,并利用所述资源数据集合生成资源数据库。

Integration method and device of open image training data set

【技术实现步骤摘要】
公开图像训练数据集的整合方法及装置
本专利技术涉及训练数据集
,更具体地,涉及一种公开图像训练数据集的整合方法、一种公开图像训练数据集的整合装置。
技术介绍
随着云计算、大数据等技术的演进,人工智能技术因为硬件的突破和训练数据的爆炸性增长再次迎来了春天。训练数据集的质量和数量直接影响着人工智能模型的精确程度。现阶段,图像训练数据集是训练数据集使用较为广泛的数据集,例如,适用于所有领域的MSCOCO、ImageNet等图像训练数据集,也有适用于特定领域的图像集,如Food-101、Pic2Recipe等图像训练数据集。目前,随着图像训练数据集的增多、图像训练数据集内不同领域的数据量的增加,在训练特定领域模型的过程中,大量与该特定领域无关的图像数据被同时下载。在利用与该特定领域无关的图像数据训练模型时,不能方便快捷地实现训练模型的训练、验证和测试。
技术实现思路
本专利技术的一个目的是提供一种用于整合公开图像训练数据集的新技术方案。根据本专利技术的第一方面,提供了一种公开图像训练数据集的整合方法,包括:获取多个公开图像训练数据集的资源数据;从所述资源数据中拆解得到图像的相关信息,其中,所述图像的相关信息包括图像的URL信息、图像的标签、目标物体在图像中的位置信息和目标物体在图像中的外形轮廓信息;将与预设标签相同的标签对应的图像的URL信息和标签融合生成资源数据集合,并利用所述资源数据集合生成资源数据库。可选地,所述方法还包括:检测所述多个公开图像训练数据集是否出现更新资源数据;在至少一个公开图像训练数据集出现更新资源数据的情况下,获取更新资源数据;从所述更新资源数据中拆解得到更新图像的相关信息;将所述更新图像的相关信息融合到对应的资源数据集合。可选地,检测所述多个公开图像数据训练集是否出现更新资源数据,包括:获取各公开图像数据训练集的版本号信息或更新时间信息;根据所述版本号信息或者所述更新时间信息分别确定各公开图像训练集是否出现更新资源数据。可选地,所述方法还包括:在图像的标签与任一预设标签均不相同的情况下,生成新的预设标签,其中,所述新的预设标签与图像的标签相同;将与新的预设标签相同的标签对应的图像的相关信息融合生成资源数据集合。可选地,所述将与预设标签相同的标签对应的图像的相关信息融合生成资源数据集合,包括:将与预设标签相同的标签对应的图像的URL信息、图像的标签、目标物体在图像中的位置信息和目标物体在图像中的外形轮廓信息按照导出规则进行排列,生成资源数据集合。根据本专利技术的第二方面,提供了一种公开图像训练数据集的整合装置,包括:获取模块,用于获取多个公开图像训练数据集的资源数据;拆解模块,用于从所述资源数据中拆解得到图像的相关信息,其中,所述图像的相关信息包括图像的URL信息、图像的标签、目标物体在图像中的位置信息和目标物体在图像中的外形轮廓信息;整合模块,用于将与预设标签相同的标签对应的图像的URL信息和标签整合生成资源数据集合,并利用所述资源数据集合生成资源数据库。可选地,所述装置还包括:检测模块,用于检测所述多个公开图像训练数据集是否出现更新资源数据;所述获取模块进一步用于在至少一个公开图像训练数据集出现更新资源数据的情况下,获取更新资源数据;所述拆解模块进一步用于从所述更新资源数据中拆解得到更新图像的相关信息;所述整合模块进一步用于将所述更新图像的相关信息整合到对应的资源数据集合。可选地,所述装置还包括:预设标签生成模块,用于在图像的标签与任一预设标签均不相同的情况下,生成新的预设标签,其中,所述新的预设标签与图像的标签相同;所述整合模块进一步用于将与新的预设标签相同的标签对应的图像的相关信息整合生成资源数据集合。可选地,所述整合模块进一步用于:将与预设标签相同的标签对应的图像的URL信息、图像的标签、目标物体在图像中的位置信息和目标物体在图像中的外形轮廓信息按照导出规则进行排列,生成资源数据集合。根据本专利技术的第三方面,提供了一种公开图像训练数据集的整合装置,包括存储器和处理器,所述存储器用于存储指令,所述指令用于控制所述处理器进行操作以执行根据第一方面中任一项所述的方法。本专利技术的一个实施例的有益效果在于,实现了将多个公开图像训练数据集的整合,通过整合得到的资源数据库可以直接获取与特定领域相关的图像以作为训练数据,不再获取到与特定领域不相关的图像,这样可以提升训练模型训练和测试的速度和准确性。通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。附图说明被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并且连同其说明一起用于解释本专利技术的原理。图1是根据本专利技术一个实施例的公开图像训练数据集的整合方法的处理流程图。图2是根据本专利技术一个实施例的公开图像训练数据集的整合装置的结构示意图。图3是根据本专利技术一个实施例的公开图像训练数据集的整合装置的硬件结构示意图。具体实施方式现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本专利技术的范围。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。<方法实施例>图1是根据本专利技术一个实施例的公开图像训练数据集的整合方法的处理流程图。根据图1所示,该公开图像训练数据集的整合方法至少包括以下步骤:步骤S1100,获取多个公开图像训练数据集的资源数据。本专利技术实施例中,资源数据包括图像本身和图像的相关信息。图像的相关信息至少包括图像的URL(UniformResourceLocator,统一资源定位符)信息、图像的标签、目标物体在图像中的位置信息和目标物体在图像中的外形轮廓信息。图像的标签用于标识图像中目标物体的类型。一个图像的标签并不限于一个。当一个图像显示有多种不同类型的目标物体时,该图像的标签为多个。例如,某一图像显示有人、狗和羊三类目标物体,那么该图像的标签为人、狗和羊。步骤S1200,从资源数据中拆解得到图像的相关信息,其中,图像的相关信息至少包括图像的URL信息、图像的标签、本文档来自技高网...

【技术保护点】
1.一种公开图像训练数据集的整合方法,其特征在于,包括:/n获取多个公开图像训练数据集的资源数据;/n从所述资源数据中拆解得到图像的相关信息,其中,所述图像的相关信息包括图像的URL信息、图像的标签、目标物体在图像中的位置信息和目标物体在图像中的外形轮廓信息;/n将与预设标签相同的标签对应的图像的URL信息和标签融合生成资源数据集合,并利用所述资源数据集合生成资源数据库。/n

【技术特征摘要】
1.一种公开图像训练数据集的整合方法,其特征在于,包括:
获取多个公开图像训练数据集的资源数据;
从所述资源数据中拆解得到图像的相关信息,其中,所述图像的相关信息包括图像的URL信息、图像的标签、目标物体在图像中的位置信息和目标物体在图像中的外形轮廓信息;
将与预设标签相同的标签对应的图像的URL信息和标签融合生成资源数据集合,并利用所述资源数据集合生成资源数据库。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
检测所述多个公开图像训练数据集是否出现更新资源数据;
在至少一个公开图像训练数据集出现更新资源数据的情况下,获取更新资源数据;
从所述更新资源数据中拆解得到更新图像的相关信息;
将所述更新图像的相关信息融合到对应的资源数据集合。


3.根据权利要求2所述的方法,其特征在于,检测所述多个公开图像数据训练集是否出现更新资源数据,包括:
获取各公开图像数据训练集的版本号信息或更新时间信息;
根据所述版本号信息或者所述更新时间信息确定各公开图像训练集是否出现更新资源数据。


4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在图像的标签与任一预设标签均不相同的情况下,生成新的预设标签,其中,所述新的预设标签与图像的标签相同;
将与新的预设标签相同的标签对应的图像的相关信息融合生成资源数据集合。


5.根据权利要求1-4中任一所述的方法,其特征在于,所述将与预设标签相同的标签对应的图像的相关信息融合生成资源数据集合,包括:
将与预设标签相同的标签对应的图像的URL信息、图像的标签、目标物体在图像中的位置信息和目标物体在图像中的外形轮廓信息按照导出规则进行排列,生成资源数据集合。


6....

【专利技术属性】
技术研发人员:薛子育郭沛宇王磊
申请(专利权)人:国家新闻出版广电总局广播科学研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1