视觉分析方法及装置制造方法及图纸

技术编号:36814623 阅读:18 留言:0更新日期:2023-03-09 01:05
本申请涉及计算机视觉领域,提供了一种视觉分析方法及装置,所述视觉分析方法包括根据第一文本数据确定第一文本特征,以及,根据第一视觉数据确定第一视觉特征,第一视觉特征包括第一视觉数据的多个层级的视觉特征,其中,各个层级的视觉特征之间对应的尺度不同;对第一文本特征和第一视觉特征进行跨层级的注意力交互,得到第一交互特征;在第一文本特征和第一交互特征的相似度大于第一阈值的情况下,将第一文本数据确定为第一视觉数据的语义信息。本申请实施例能够准确提取视觉数据中的语义信息。义信息。义信息。

【技术实现步骤摘要】
视觉分析方法及装置


[0001]本申请涉及计算机视觉领域,尤其涉及一种视觉分析方法及装置。

技术介绍

[0002]视频语义理解相比于图片理解有着更为广泛的应用,特别是在当下短视频爆火,视频多模态语义理解更多的被产业界所应用。例如,视频搜索结果相比于图文结果拥有更加直观、阅读门槛更低、体验更立体、信息量更大、易于保护原创、易于商业变现等优点,视频搜索已经成为搜索领域的新趋势。
[0003]相关技术采用单一尺度的视觉特征和文本特征进行交互,然后遮掩再预测的方式进行训练,最终应用到下游的跨模态任务。现在的大模型预训练主要是起源于与基于转换器的双向编码器表示(Bidirectional Encoder Representations from Transformer,Bert)模型类似的遮掩

预测的预训练范式,可以利用海量的无标签语料数据集进行训练。渐渐地,这种范式也逐渐地被计算机视觉领域所采用,为该领域带来额外的损失约束。然而该范式应用在视频

文本预训练中,首先会破坏视频的输入,然后在视频特征和文本特征交互后,再预测出完整的视频,这样的训练方法存在一定问题,比如在视觉和文本信息的多模态交互过程中,由于视频被破坏,将极易引入噪声,导致在视频语义理解泛化性受限。此外,利用单一尺度的视频特征与文本特征进行交互,不能够很好的捕捉到视觉的细粒度特征。

技术实现思路

[0004]有鉴于此,提出了一种视觉分析方法及装置,能够准确提取视觉数据的语义信息。
[0005]第一方面,本申请的实施例提供了一种视觉分析方法,包括:
[0006]根据第一文本数据确定第一文本特征,以及,根据第一视觉数据确定第一视觉特征,所述第一视觉特征包括所述第一视觉数据的多个层级的视觉特征,其中,各个层级的视觉特征之间对应的尺度不同;
[0007]对所述第一文本特征和所述第一视觉特征进行跨层级的注意力交互,得到第一交互特征;
[0008]在所述第一文本特征和所述第一交互特征的相似度大于第一阈值的情况下,将所述第一文本数据确定为所述第一视觉数据的语义信息。
[0009]本申请提供的实施例利用多个尺度的视觉特征与文本特征进行交互,视觉特征能够同时涵盖粗粒度特征和细粒度特征,有助于显著提升不同模态间的交互能力,从而能够准确提取视觉数据的语义信息,另外,利用多组注意力交互能够减少图形处理器(Graphics Processing Unit,GPU)内存的使用。
[0010]在所述视觉分析方法的第一种可能的实现方式中,所述跨层级的注意力交互包括相邻两个层级的注意力交互,其中,在所述相邻两个层级的注意力交互中,下一个层级的注意力交互的输入为上一个层级的注意力交互的输出。
[0011]本申请提供的实施例通过设置跨层级的注意力交互,将上一层级的注意力交互的
输出输入至下一层级的注意力交互中,同时利用深层的语义特征、浅层的具有细粒度的特征进行本文交互,有助于提升注意力交互的输出精度,使得第一交互特征中含有第一视觉数据的语义特征。
[0012]在所述视觉分析方法的第二种可能的实现方式中,所述第一视觉数据的多个层级的视觉特征至少包括第一特征和第二特征,所述第一特征与所述第二特征对应的层级相邻且所述第一特征对应的层级高于所述第二特征对应的层级,所述对所述第一文本特征和所述第一视觉特征进行跨层级的注意力交互,包括:
[0013]对所述第一特征与第三特征进行注意力交互,得到第四特征,其中,在所述第一特征对应的层级为所述多个层级中的最高层级的情况下,所述第三特征为所述第一文本特征,在所述第一特征对应的层级非所述多个层级中的最高层级的情况下,所述第三特征为所述第一特征对应的层级的上一个层级的输出;
[0014]对所述第二特征与所述第四特征进行注意力交互,得到第五特征;
[0015]在所述第二特征对应的层级为所述多个层级中的最低层级的情况下,将所述第五特征作为所述第一交互特征;
[0016]在所述第二特征对应的层级非所述多个层级中的最低层级的情况下,将所述第五特征输入所述第二特征对应的层级的下一个层级进行注意力交互,直至得到所述第一交互特征。
[0017]本申请提供的实施例利用第一文本特征与最高层级的视觉特征进行交互,并将交互后的结果输入到下一层级的注意力交互中,层层递进,有助于输出更加可靠的特征。
[0018]在所述视觉分析方法的第三种可能的实现方式中,所述根据第一文本数据确定第一文本特征,以及,根据第一视觉数据确定第一视觉特征包括:
[0019]将所述第一文本数据输入文本编码器,输出所述第一文本特征;
[0020]将所述第一视觉数据输入视觉编码器,输出所述第一视觉特征。
[0021]本申请提供的实施例通过训练好的文本编码器和视觉编码器能够确定更加准确的文本特征和视觉特征,有利于后续对文本特征和视觉特征的交互,提升交互能力。
[0022]在所述视觉分析方法的第四种可能的实现方式中,所述方法还包括:
[0023]基于训练集合,训练所述文本编码器和所述视觉编码器,所述训练集合包括多个训练样本对,每个训练样本对中包括第二文本数据和第二视觉数据。
[0024]本申请提供的实施例通过成对相关的视觉数据和文本数据进行训练,有利于得到精度较高的文本编码器和视觉编码器,从而在实际应用时,有助于确定更加准确的预测结果。
[0025]在所述视觉分析方法的第五种可能的实现方式中,所述基于训练集合,训练所述文本编码器和所述视觉编码器,包括:
[0026]针对所述训练集合中的任意一个训练样本对:
[0027]将所述训练样本对中的第二文本数据和第二视觉数据分别输入待训练的文本编码器和视觉编码器,输出第二文本特征和第二视觉特征,所述第二视觉特征包括所述第二视觉数据的多个层级的视觉特征;
[0028]对所述第二文本特征和所述第二视觉特征进行跨层级的注意力交互,得到第二交互特征;
[0029]基于所述第二文本特征和所述第二交互特征,确定所述训练样本对对应的第一损失;
[0030]基于各个训练对对应的第一损失,调整所述文本编码器的参数以及所述视觉编码器的参数。
[0031]本申请提供的实施例利用多个训练样本对训练文本编码器和视觉编码器,并用预测结果与理想结果之间的损失反向更新文本编码器和视觉编码器的参数,有助于得到精度更高的文本编码器和视觉编码器,从而得到一个更优的视觉分析模型。
[0032]在所述视觉分析方法的六种可能的实现方式中,所述方法还包括:
[0033]针对所述训练集合中的任意一个训练样本对,基于所述第二视觉特征进行特征对比学习,得到所述训练样本对对应的第二损失;
[0034]基于各个训练样本对对应的第二损失,调整所述文本编码器的参数以及所述视觉编码器的参数。
[0035]本申请提供的实施例使用对比学习方式的自监督学习模式,有助于避免在注意本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视觉分析方法,其特征在于,包括:根据第一文本数据确定第一文本特征,以及,根据第一视觉数据确定第一视觉特征,所述第一视觉特征包括所述第一视觉数据的多个层级的视觉特征,其中,各个层级的视觉特征之间对应的尺度不同;对所述第一文本特征和所述第一视觉特征进行跨层级的注意力交互,得到第一交互特征;在所述第一文本特征和所述第一交互特征的相似度大于第一阈值的情况下,将所述第一文本数据确定为所述第一视觉数据的语义信息。2.根据权利要求1所述的方法,其特征在于,所述跨层级的注意力交互包括相邻两个层级的注意力交互,其中,在所述相邻两个层级的注意力交互中,下一个层级的注意力交互的输入为上一个层级的注意力交互的输出。3.根据权利要求1或2所述的方法,其特征在于,所述第一视觉数据的多个层级的视觉特征至少包括第一特征和第二特征,所述第一特征与所述第二特征对应的层级相邻且所述第一特征对应的层级高于所述第二特征对应的层级,所述对所述第一文本特征和所述第一视觉特征进行跨层级的注意力交互,包括:对所述第一特征与第三特征进行注意力交互,得到第四特征,其中,在所述第一特征对应的层级为所述多个层级中的最高层级的情况下,所述第三特征为所述第一文本特征,在所述第一特征对应的层级非所述多个层级中的最高层级的情况下,所述第三特征为所述第一特征对应的层级的上一个层级的输出;对所述第二特征与所述第四特征进行注意力交互,得到第五特征;在所述第二特征对应的层级为所述多个层级中的最低层级的情况下,将所述第五特征作为所述第一交互特征;在所述第二特征对应的层级非所述多个层级中的最低层级的情况下,将所述第五特征输入所述第二特征对应的层级的下一个层级进行注意力交互,直至得到所述第一交互特征。4.根据权利要求1至3中任意一项所述的方法,其特征在于,所述根据第一文本数据确定第一文本特征,以及,根据第一视觉数据确定第一视觉特征包括:将所述第一文本数据输入文本编码器,输出所述第一文本特征;将所述第一视觉数据输入视觉编码器,输出所述第一视觉特征。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:基于训练集合,训练所述文本编码器和所述视觉编码器,所述训练集合包括多个训练样本对,每个训练样本对中包括第二文本数据和第二视觉数据。6.根据权利要求5所述的方法,其特征在于,所述基于训练集合,训练所述文本编码器和所述视觉编码器,包括:针对所述训练集合中的任意一个训练样本对:将所述训练样本对中的第二文本数据和第二视觉数据分别输入待训练的文本编码器和视觉编码器,输出第二文本特征和第二视觉特征,所述第二视觉特征包括所述第二视觉数据的多个层级的视觉特征;对所述第二文本特征和所述第二视觉特征进行跨层级的注意力交互,得到第二交互特
征;基于所述第二文本特征和所述第二交互特征,确定所述训练样本对对应的第一损失;基于各个训练对对应的第一损失,调整所述文本编码器的参数以及所述视觉编码器的参数。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:针对所述训练集合中的任意一个训练样本对,基于所述第二视觉特征进行特征对比学习,得到所述训练样本对对应的第二损失;基于各个训练样本对对应的第二损失,调整所述文本编码器的参数以及所述视觉编码器的参数。8.根据权利要求7所述的方法,其特征在于,所述基于所述第二视觉特征进行特征对比学习,得到所述训练样本对对应的第二损失包括:针对所述多个层级中的任意一个层级:根据所述第二视觉数据在所述层级的视觉特征,确定所述层级下的全局特征和局部特征;根据所述层级下的全局特征和局部特征,确定所述层级对应的第二损失;根据各个层级对应的第二损失,确定所述训练样本对对应的第二损失。9.根据权利要求8所述的方法,其特征在于,所述根据所述层级下的全局特征和局部特征,确定所述层级对应的第二损失包括:从所述层级下的局部特征中,确定出所述层级下的全局特征对应的正特征和负特征;基于所述全局特征、所述正特征和所述负特征,确定所述层级对应的第二损失。10.根据权利要求1至9中任意一项所述的方法,其特征在于,所述方法还包括:在接收到视觉数据查询请求的情况下,从所述视觉数据查询请求中获取所述第一文本数据,从待查询的视觉数据库中获取所述第一视觉数据;在所述第一文本数据为所述第一视觉数据的语义信息的情况下,返回所述第一视觉数据;和/或,在接收到视觉数据标注请求的情况下,从候选标签库中获取所述第一文本数据,从所述视觉数据标注请求中获取所述第一视觉数据;在所述第一文本数据为所述第一视觉数据的语义信息的情况下,返回所述第一文本数据;和/或,在接收到视觉数据问答请求的情况下,从所述视觉数据问答请求中获取问题信息和所述第一视觉数据,基于所述问题信息确定所述第一文本数据;在所述第一文本数据为所述第一视觉数据的语义信息的情况下,返回所述第一文本数据。11.一种视觉分析装置,其特征在于,包括:特征生成单元,所述特征生成单元被配置为根据第一文本数据确定第一文本特征,以及,根据第一视觉数据确定第一视觉特征,所述第一视觉特征包括所述第一视觉数据的多个层级的视觉特征,其中,各个层级的视觉特征之间对应的尺度不同;
注意力交互单元,所述注意力交互单元被配置为对所述第一文本特征和所述第一视觉特征进行跨层级的注意力交互,得到第一交互特征;语义输出单元,所述语义输出单元被配...

【专利技术属性】
技术研发人员:邵滨刘健庄裴仁静李炜棉许松岑
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1