数据处理方法和装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号:19745295 阅读:19 留言:0更新日期:2018-12-12 04:45
本公开提供了一种数据处理方法和装置、电子设备和计算机可读存储介质,其中所述方法包括:按照层级扩展的方式,获取基于种子标签的多层级标签结构,以及获取所述多层级标签结构中各标签对应的数据,其中所述多层级标签结构中的第i+1层的标签是由第一层至第i层对应的标签形成的组合标签的扩展标签,其中i为大于或者等于1且小于N的正整数,N为所述多层级标签结构的层数,且N大于1;基于所述多层级标签结构,获取至少一个数据集合,所述数据集合包括至少一个数据以及该数据对应的标签。本公开实施例能够利用少量的种子标签获取海量标签及对应的数据。

【技术实现步骤摘要】
数据处理方法和装置、电子设备和计算机可读存储介质
本公开涉及计算机
,特别涉及一种数据处理方法和装置、电子设备和计算机可读存储介质。
技术介绍
近年来,深度神经网络在多个智能领域(例如计算机视觉、自然语言处理、游戏博弈等领域)取得了前所未有的技术突破。在视觉理解领域,随着互联网通讯技术的迅猛发展,视觉数据(以图像数据、视频数据为主)的采集成本不断降低,获取并利用海量图像数据(亿级)持续稳定地提升分类神经网络的判别能力与泛化能力成为了可能。然而,海量图像数据分类任务的建模是很复杂的,大规模的数据构建和标签分类都会有很多挑战。现有技术中,大规模数据积累过程通常可以仅使用公开数据集的种子标签作为关键词或使用WordNet(语义网络)语义拓展出的同义词标签作为关键词,再从互联网搜索引擎抓取网络数据,这两种方式都会因其关键词固定使积累数据库的语义概念、样本量及训练模型的迁移性受到限制。其次,学习图像上层信息的深度神经网络建模需要依赖大量高质量、结构化、标签化的数据,但因人工标注成本巨大,在无任何手动数据清洗和人工标注的情况下仍然保证海量数据的结构化和多样化是海量数据构建的难点。
技术实现思路
有鉴于此,本公开提出了一种可以方便的基于少量的种子标签获取海量标签及数据的数据处理方法和装置、电子设备和计算机可读存储介质。根据本公开的第一方面,提供了一种数据处理方法,其包括:按照层级扩展的方式,获取基于种子标签的多层级标签结构,以及获取所述多层级标签结构中各标签对应的数据,其中所述多层级标签结构中的第i+1层的标签是由第一层至第i层对应的标签形成的组合标签的扩展标签,其中i为大于或者等于1且小于N的正整数,N为所述多层级标签结构的层数,且N大于1;基于所述多层级标签结构,获取至少一个数据集合,所述数据集合包括至少一个数据以及该数据对应的标签。在本公开实施例中,所述按照层级扩展的方式,获取基于种子标签的多层级标签结构包括:将所述种子标签作为与其对应的所述多层级标签结构的第一层标签;将第i层的第一标签以及前i-1层与所述第一标签对应的第二标签组合形成组合标签;获取所述组合标签的扩展标签,所述扩展标签为所述多层级标签结构的第i+1层与所述组合标签对应的标签。在本公开实施例中,所述获取所述组合标签的扩展标签包括:通过查询第一数据库,获取所述组合标签的扩展标签,其中所述第一数据库中包括各标签及其扩展标签;或者通过向网络搜索引擎请求获取组合标签的扩展标签。在本公开实施例中,所述获取所述多层级标签结构中各标签对应的数据包括:获得与所述种子标签对应的第一数据;以及将第i层的第一标签以及前i-1层与所述第一标签对应的第二标签组合形成组合标签;获得与所述组合标签对应的第二数据。在本公开实施例中,所述获得与所述种子标签对应的第一数据包括:通过查询第二数据库,获得与所述种子标签对应的第一数据,所述第二数据库中包括多个第一数据,每个第一数据对应有至少一种标签;或者利用网络搜索引擎获取所述种子标签对应的第一数据。在本公开实施例中,所述获得与所述组合标签对应的第二数据包括:通过查询第二数据库,获得与所述组合标签对应的第二数据,所述第二数据库中包括标签以及与该标签对应的数据;或者利用网络搜索引擎获取所述组合标签对应的第二数据。在本公开实施例中,所述基于所述多层级标签结构,获取至少一个数据集合包括:利用预设筛选方式,从获得的数据中获取第三数据;获取第三数据中各数据对应的第三标签;基于所述第三标签和第三数据形成所述数据集合,其中,所述预设筛选方式包括随机筛选方式或者基于数据对应的标签的类别执行筛选的方式。在本公开实施例中,所述基于所述多层级标签结构,获取至少一个数据集合包括:对所述多层级标签结构中的各标签进行归类处理,形成关于至少一个类别的标签树结构;基于所述标签树结构获得所述数据集合。在本公开实施例中,所述对所述多层级标签结构中的各标签进行归类处理,形成关于至少一个类别的标签树结构包括:对所述种子标签进行第一归类处理,建立关于至少一个类别的第一标签树结构,所述类别包括物体、地点、事件和时间中的至少一种;对所述种子标签以外的其余标签进行第二归类处理,形成基于所述第一标签树结构的第二标签树结构。在本公开实施例中,所述对所述种子标签进行第一归类处理包括:构建关于各所述种子标签之间的从属关系的第一子标签树结构,其中所述从属关系表示各所述种子标签之间的父类和子类的对应关系;获取各所述第一子标签树结构的根节点的父类信息,如果存在至少两个第一子标签树结构的根节点具有相同的父类,则将该至少两个第一子标签树结构的根节点作为该父类节点的子类进行融合形成新的第一子标签树结构,直至各第一子标签树结构的根节点不存在相同的父类,形成关于至少一个类别的第一标签树结构。在本公开实施例中,所述对所述种子标签以外的其余标签进行第二归类处理,形成基于所述第一标签树结构的第二标签树结构包括:获取多层级标签结构中第i+1层各第四标签的词性;如果所述第四标签的词性为形容词,则将第i+1层的该第四标签作为与其对应的前i层标签的组合标签的属性信息;如果所述第四标签的词性为名词,则确定该第四标签的对应的前i+1层标签的组合标签是否为前i层对应的标签的组合标签的子类,如是,将该前i+1层标签的组合标签添加至所述第一标签树结构并作为所述前i层对应的标签的组合标签的子类,否则,将所述第四标签的词性转化为形容词,并将转化为形容词的第四标签作为与其对应的前i层标签的组合标签的属性信息;如果所述第四标签的词性为动词,则将第i+1层的该第四标签转化为形容词,并将转化为形容词的第四标签作为与其对应的前i层标签的组合标签的属性信息;如果包括多个第四标签,且该多个第四标签的词性为动词和介词,则该动词和介词词性的第四标签组合作为与其对应的前i层标签的组合标签的属性信息。在本公开实施例中,所述基于所述标签树结构获得所述数据集合包括:分别从各类别的所述标签树结构的第j层节点中获取一个第五标签,以及与所述第五标签对应的第五数据,其中,j为大于或者等于1且小于M的整数,M为所述标签树结构的层数;基于所述第五标签及其对应的第五数据形成至少一个所述数据集合。在本公开实施例中,所述基于所述标签树结构获得所述数据集合包括:分别从各所述标签树结构中随机地筛选第五标签,其中,任意两个被筛选的第五标签之间不存在相同的父类;基于所述第五标签及其对应的第五数据形成至少一个所述数据集合。在本公开实施例中,所述方法还包括:分别利用不同的数据集合训练网络模型中的不同分类器;基于满足预设要求的分类器形成所述网络模型。在本公开实施例中,所述分别利用不同的数据集合训练所述网络模型中的不同分类器包括:为每个分类器分配对应的数据集合对所述分类器进行训练,其中各分类器对应的数据集合内的标签不同;或者利用所述数据集合中的第一部分集合训练第一部分分类器,以及利用所述数据集合中的第二部分集合训练第二部分分类器;或者利用所述数据集合中的第一部分集合训练第一部分分类器,以及所述数据集合中的利用第一部分集合和第二部分集合训练第二部分分类器;其中,所述第一部分分类器和第二部分分类器为所述网络模型中的分类器,且所述第一部分分类器和第二部分分类器分别至少包括一个分类器本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:按照层级扩展的方式,获取基于种子标签的多层级标签结构,以及获取所述多层级标签结构中各标签对应的数据,其中所述多层级标签结构中的第i+1层的标签是由第一层至第i层对应的标签形成的组合标签的扩展标签,其中i为大于或者等于1且小于N的正整数,N为所述多层级标签结构的层数,且N大于1;基于所述多层级标签结构,获取至少一个数据集合,所述数据集合包括至少一个数据以及该数据对应的标签。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:按照层级扩展的方式,获取基于种子标签的多层级标签结构,以及获取所述多层级标签结构中各标签对应的数据,其中所述多层级标签结构中的第i+1层的标签是由第一层至第i层对应的标签形成的组合标签的扩展标签,其中i为大于或者等于1且小于N的正整数,N为所述多层级标签结构的层数,且N大于1;基于所述多层级标签结构,获取至少一个数据集合,所述数据集合包括至少一个数据以及该数据对应的标签。2.根据权利要求1所述的方法,其特征在于,所述按照层级扩展的方式,获取基于种子标签的多层级标签结构包括:将所述种子标签作为与其对应的所述多层级标签结构的第一层标签;将第i层的第一标签以及前i-1层与所述第一标签对应的第二标签组合形成组合标签;获取所述组合标签的扩展标签,所述扩展标签为所述多层级标签结构的第i+1层与所述组合标签对应的标签。3.根据权利要求2所述的方法,其特征在于,其中,所述获取所述组合标签的扩展标签包括:通过查询第一数据库,获取所述组合标签的扩展标签,其中所述第一数据库中包括各标签及其扩展标签;或者通过向网络搜索引擎请求获取组合标签的扩展标签。4.根据权利要求1所述的方法,其特征在于,所述获取所述多层级标签结构中各标签对应的数据包括:获得与所述种子标签对应的第一数据;以及将第i层的第一标签以及前i-1层与所述第一标签对应的第二标签组合形成组合标签;获得与所述组合标签对应的第二数据。5.根据权利要求4所述的方法,其特征在于,其中,所述获得与所述种子标签对应的第一数据包括:通过查询第二数据库,获得与所述种子标签对应的第一数据,所述第二数据库中包括多个...

【专利技术属性】
技术研发人员:吴凌云罗平彭章琳任家敏张瑞茂王新江
申请(专利权)人:深圳市商汤科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1