【技术实现步骤摘要】
一种多模态数据关联方法和装置
本专利技术涉及数据处理
,尤其是涉及一种多模态数据关联方法和装置。
技术介绍
在显现技术中,以图片标注技术为代表,现有多模态数据的处理通常采用编解码框架,基本都是针对特定的两种模态,当涉及到多种模态的时候,往往需要与数据种类成二次方关系数量的编解码结构,也就是说现在基本不存在简单直接的多模态数据处理方法。另外,在数据关联任务上,即使是只对两种模态进行处理,现有的方法也没有达到最理想的效果。以基于图片标注模型的图片和文本数据关联为例,其中的图片标注模型由卷积神经网络和循环神经网络组成,要训练出性能比较好的神经网络,需要大量的训练数据,而且如果应用时数据和训练数据的特点不一致,模型的性能就会大幅度下降,而这些困难在现实中进行多模态数据关联时是很常见的。另外,目前的图片标注生成模型大多倾向于只为图片生成一条高度概括的文本,这可能会使得系统忽略掉很多细节,从而导致在数据关联时无法匹配到相应的数据。更严重的是,如果训练数据和调参过程不理想,标注模型给出的语句的信息量会下降到无法用来进行数据关 ...
【技术保护点】
1.一种多模态数据关联方法,其特征在于,包括:/n获取待处理数据,其中,所述待处理数据的类型包括:视频数据,图片数据和文本数据;/n构建所述待处理数据的语义图;/n利用图卷积网络计算所述语义图的表示向量;/n基于所述表示向量,确定所述待处理数据的数据关联结果。/n
【技术特征摘要】 【专利技术属性】
1.一种多模态数据关联方法,其特征在于,包括:
获取待处理数据,其中,所述待处理数据的类型包括:视频数据,图片数据和文本数据;
构建所述待处理数据的语义图;
利用图卷积网络计算所述语义图的表示向量;
基于所述表示向量,确定所述待处理数据的数据关联结果。
2.根据权利要求1所述的方法,其特征在于,若所述待处理数据为所述视频数据;构建所述待处理数据的语义图,包括:
确定出所述待处理数据中的第一关键帧,其中,所述第一关键帧为包含语义的图片帧;
基于所述第一关键帧的语义,确定出所述第一关键帧对应的预设语义节点符号,其中,所述预设语义节点符号包括:实体节点符号,关系节点符号,属性节点符号,属性节点符号,结构节点符号;
利用所述预设语义节点符号的连接关系,构建所述第一关键帧的语义序列图;
对所述第一关键帧的语义序列图进行合并,得到所述待处理数据的语义图。
3.根据权利要求2所述的方法,其特征在于,对所述第一关键帧的语义序列图进行合并,得到所述待处理数据的语义图,包括:
对所述语义序列图中的预设语义节点进行合并,得到所述待处理数据的语义图。
4.根据权利要求2所述的方法,其特征在于,若所述待处理数据为所述图片数据;构建所述待处理数据的语义图,包括:
将所述图片数据确定为第二关键帧;
基于所述第二关键帧的语义,确定出所述第二关键帧对应的预设语义节点符号;
利用所述预设语义节点符号的连接关系,构建所述第二关键帧的语义序列图;
将所述第二关键帧的语义序列图确定为所述待处理数据的语义图。
5.根据权利要求2所述的方法,其特征在于,若所述待处理数据为所述文本数据;构建所述待处理数据的语义图,包括:
利用实体抽取和关系抽取,确定出所述待处理数据对应的预设语义节点符号;
利用所述预设语义节点符号的连接关系,构建所述待处理数据的语义序列图;
技术研发人员:陶晓明,段一平,李明哲,徐迈,邓欣,
申请(专利权)人:清华大学,北京航空航天大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。