数据增强方法及装置制造方法及图纸

技术编号:31627841 阅读:13 留言:0更新日期:2021-12-29 19:05
本申请提供的数据增强方法,对于第一数据中所包含的多个模态的子数据,能够从中确定与子数据的数据类型相匹配的实体对象,进而基于知识图谱的实体关系信息对不同模态对应的实体对象进行推理得到第二数据,第二数据与第一数据不同,这就可以实现不同模态间的信息补充,从而增强数据的语义。从而增强数据的语义。从而增强数据的语义。

【技术实现步骤摘要】
数据增强方法及装置


[0001]本申请涉及软件
,更具体地说,涉及一种数据增强方法及装置。

技术介绍

[0002]在AI子任务中,数据增强一直是提高精度、解决数据偏移问题的常用手段。计算机视觉中常采用图像旋转、平移等处理手段;自然语言处理不同于计算机视觉,更改或删除句子内的词组可能会影响语义的连贯性和正确性。
[0003]多模态训练数据中不同模态内部的信息具有一定的局限性,只利用单一技术处理则会浪费不同模态间的信息补充。

技术实现思路

[0004]有鉴于此,为解决上述问题,本申请提供一种数据增强方法及装置,技术方案如下:
[0005]本申请一方面提供一种数据增强方法,所述方法包括:
[0006]获得第一数据,所述第一数据中包含多个模态的子数据,一个模态的子数据对应一个数据类型、且不同模态间的数据类型不同;
[0007]在每个模态的子数据中确定与其数据类型相匹配的实体对象;
[0008]基于知识图谱中的实体关系信息对不同模态对应的实体对象进行推理得到第二数据,所述第二数据与所述第一数据不同。
[0009]可选的,所述实体关系信息中包含实例关系信息,所述实例关系信息中的两个实体均为实例,所述基于知识图谱中的实体关系信息对不同模态对应的实体对象进行推理得到第二数据,包括:
[0010]在所述实例关系信息中确定与不同模态对应的实体对象相匹配的目标实例关系信息,所述目标实例关系信息中作为实例的两个实体对象对应两个模态;
[0011]至少基于所述目标实例关系信息获得所述第二数据。
[0012]可选的,所述实体关系信息中还包含概念关系信息,所述概念关系信息中的两个实体均为概念,所述在所述实例关系信息中确定与不同模态对应的实体对象相匹配的目标实例关系信息,包括:
[0013]确定各模态对应的实体对象在所述知识图谱中所属的概念;
[0014]在所述概念关系信息中确定与不同模态对应的实体对象相匹配的目标概念关系信息,所述目标概念关系信息中与概念相应的两个实体对象对应两个模态;
[0015]根据所述目标概念信息确定新的实例关系信息,所述新的实例关系信息中作为实例的两个实体对象为所述目标概念信息对应的两个实体对象、且所述新的实例关系信息中实例间的关系为所述目标概念信息中概念间的关系。
[0016]可选的,所述实体关系信息中还包含实例概念关系信息,所述实例概念关系信息中的两个实体分别为实例和概念,所述在所述实例关系信息中确定与不同模态对应的实体
对象相匹配的目标实例关系信息,包括:
[0017]确定各模态对应的实体对象在所述知识图谱中所属的概念;
[0018]在所述实例概念关系信息中确定与不同模态对应的实体对象相匹配的目标实例概念关系信息,所述目标实例概念关系信息中与实例和概念相对应的两个实体对象对应两个模态;
[0019]根据所述目标实例概念关系信息确定新的实例关系信息,所述新的实例关系信息中作为实例的两个实体对象为所述目标实例概念关系信息对应的两个实体对象。
[0020]可选的,所述至少基于所述目标实例关系信息获得所述第二数据,包括:
[0021]获得与不同模态对应的实体对象相匹配的常识信息;
[0022]利用所述目标实例关系信息和所述常识信息对不同模态的子数据进行推理得到所述第二数据。
[0023]可选的,所述实体关系信息中包含概念信息,所述概念信息用于表征概念的描述信息,所述基于知识图谱中的实体关系信息对不同模态对应的实体对象进行推理得到第二数据,包括:
[0024]在所述概念信息中确定不同模态对应的实体对象相匹配的概念;
[0025]根据不同模态对应的实体对象相匹配的概念,确定与不同模态对应的实体对象相匹配的目标描述信息;
[0026]利用所述目标描述信息对不同模态的子数据进行推理得到所述第二数据。
[0027]可选的,所述利用所述目标描述信息对不同模态的子数据进行推理得到所述第二数据,包括:
[0028]获得与不同模态对应的实体对象相匹配的常识信息;
[0029]利用所述目标描述信息和所述常识信息对不同模态的子数据进行推理得到所述第二数据。
[0030]可选的,所述多个模态中包含文本模态和图像模态,所述在每个模态的子数据中确定与其数据类型相匹配的实体对象,包括:
[0031]获得所述文本模态对应的第一语义模型;将所述文本模态的子数据输入至所述第一语义模型中,获得所述第一语义模型输出的文本实体;以及
[0032]获得所述图像模态对应的第二语义模型;将所述图像模态的子数据输入至所述第二语义模型中,获得所述第二语义模型输出的图像实体。
[0033]可选的,所述第一语义模型还输出所述文本模态对应的第一意图信息,所述第二语义模型还输出所述图像模态对应的第二意图信息;
[0034]所述在每个模态的子数据中确定与其数据类型相匹配的实体对象,还包括:
[0035]获得所述文本实体中与所述第一意图信息相匹配的目标文本实体;以及
[0036]获得所述图像实体中与所述第二意图信息相匹配的目标图像实体。
[0037]本申请另一方面提供一种数据增强装置,所述装置包括:
[0038]数据获得模块,用于获得第一数据,所述第一数据中包含多个模态的子数据,一个模态的子数据对应一个数据类型、且不同模态间的数据类型不同;
[0039]实体确定模块,用于在每个模态的子数据中确定与其数据类型相匹配的实体对象;
[0040]数据推理模块,用于基于知识图谱中的实体关系信息对不同模态对应的实体对象进行推理得到第二数据,所述第二数据与所述第一数据不同。
[0041]经由上述的技术方案可知,本申请提供的数据增强方法,对于第一数据中所包含的多个模态的子数据,能够从中确定与子数据的数据类型相匹配的实体对象,进而基于知识图谱的实体关系信息对不同模态对应的实体对象进行推理得到第二数据,第二数据与第一数据不同,这就可以实现不同模态间的信息补充,从而增强数据的语义。
附图说明
[0042]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0043]图1为本申请实施例提供的电子设备的硬件结构框图;
[0044]图2为本申请实施例提供的数据增强方法的方法流程图;
[0045]图3为本申请实施例提供的图像模态的子数据的示例;
[0046]图4为本申请另一实施例提供的数据增强方法的方法流程图;
[0047]图5为本申请另一实施例提供的数据增强方法的部分方法流程图;
[0048]图6为本申请另一实施例提供的数据增强方法的部分方法流程图;...

【技术保护点】

【技术特征摘要】
1.一种数据增强方法,所述方法包括:获得第一数据,所述第一数据中包含多个模态的子数据,一个模态的子数据对应一个数据类型、且不同模态间的数据类型不同;在每个模态的子数据中确定与其数据类型相匹配的实体对象;基于知识图谱中的实体关系信息对不同模态对应的实体对象进行推理得到第二数据,所述第二数据与所述第一数据不同。2.根据权利要求1所述的方法,所述实体关系信息中包含实例关系信息,所述实例关系信息中的两个实体均为实例,所述基于知识图谱中的实体关系信息对不同模态对应的实体对象进行推理得到第二数据,包括:在所述实例关系信息中确定与不同模态对应的实体对象相匹配的目标实例关系信息,所述目标实例关系信息中作为实例的两个实体对象对应两个模态;至少基于所述目标实例关系信息获得所述第二数据。3.根据权利要求2所述的方法,所述实体关系信息中还包含概念关系信息,所述概念关系信息中的两个实体均为概念,所述在所述实例关系信息中确定与不同模态对应的实体对象相匹配的目标实例关系信息,包括:确定各模态对应的实体对象在所述知识图谱中所属的概念;在所述概念关系信息中确定与不同模态对应的实体对象相匹配的目标概念关系信息,所述目标概念关系信息中与概念相应的两个实体对象对应两个模态;根据所述目标概念信息确定新的实例关系信息,所述新的实例关系信息中作为实例的两个实体对象为所述目标概念信息对应的两个实体对象、且所述新的实例关系信息中实例间的关系为所述目标概念信息中概念间的关系。4.根据权利要求2所述的方法,所述实体关系信息中还包含实例概念关系信息,所述实例概念关系信息中的两个实体分别为实例和概念,所述在所述实例关系信息中确定与不同模态对应的实体对象相匹配的目标实例关系信息,包括:确定各模态对应的实体对象在所述知识图谱中所属的概念;在所述实例概念关系信息中确定与不同模态对应的实体对象相匹配的目标实例概念关系信息,所述目标实例概念关系信息中与实例和概念相对应的两个实体对象对应两个模态;根据所述目标实例概念关系信息确定新的实例关系信息,所述新的实例关系信息中作为实例的两个实体对象为所述目标实例概念关系信息对应的两个实体对象。5.根据权利要求2所述的方法,所述至少基于所述目标实例关系信息获...

【专利技术属性】
技术研发人员:邢运孟遥
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1