视觉分析方法及装置制造方法及图纸

技术编号：36814623 阅读：18 留言：0更新日期：2023-03-09 01:05

本申请涉及计算机视觉领域，提供了一种视觉分析方法及装置，所述视觉分析方法包括根据第一文本数据确定第一文本特征，以及，根据第一视觉数据确定第一视觉特征，第一视觉特征包括第一视觉数据的多个层级的视觉特征，其中，各个层级的视觉特征之间对应的尺度不同；对第一文本特征和第一视觉特征进行跨层级的注意力交互，得到第一交互特征；在第一文本特征和第一交互特征的相似度大于第一阈值的情况下，将第一文本数据确定为第一视觉数据的语义信息。本申请实施例能够准确提取视觉数据中的语义信息。义信息。义信息。

全部详细技术资料下载

【技术实现步骤摘要】
视觉分析方法及装置

[0001]本申请涉及计算机视觉领域，尤其涉及一种视觉分析方法及装置。

技术介绍

[0002]视频语义理解相比于图片理解有着更为广泛的应用，特别是在当下短视频爆火，视频多模态语义理解更多的被产业界所应用。例如，视频搜索结果相比于图文结果拥有更加直观、阅读门槛更低、体验更立体、信息量更大、易于保护原创、易于商业变现等优点，视频搜索已经成为搜索领域的新趋势。
[0003]相关技术采用单一尺度的视觉特征和文本特征进行交互，然后遮掩再预测的方式进行训练，最终应用到下游的跨模态任务。现在的大模型预训练主要是起源于与基于转换器的双向编码器表示(Bidirectional Encoder Representations from Transformer，Bert)模型类似的遮掩
‑
预测的预训练范式，可以利用海量的无标签语料数据集进行训练。渐渐地，这种范式也逐渐地被计算机视觉领域所采用，为该领域带来额外的损失约束。然而该范式应用在视频
‑
文本预训练中，首先会破坏视频的输入，然后在视频特征和文本特征交互后，再预测出完整的视频，这样的训练方法存在一定问题，比如在视觉和文本信息的多模态交互过程中，由于视频被破坏，将极易引入噪声，导致在视频语义理解泛化性受限。此外，利用单一尺度的视频特征与文本特征进行交互，不能够很好的捕捉到视觉的细粒度特征。

技术实现思路

[0004]有鉴于此，提出了一种视觉分析方法及装置，能够准确提取视觉数据的语义信息。
[0005]...

【技术保护点】

【技术特征摘要】
1.一种视觉分析方法，其特征在于，包括：根据第一文本数据确定第一文本特征，以及，根据第一视觉数据确定第一视觉特征，所述第一视觉特征包括所述第一视觉数据的多个层级的视觉特征，其中，各个层级的视觉特征之间对应的尺度不同；对所述第一文本特征和所述第一视觉特征进行跨层级的注意力交互，得到第一交互特征；在所述第一文本特征和所述第一交互特征的相似度大于第一阈值的情况下，将所述第一文本数据确定为所述第一视觉数据的语义信息。2.根据权利要求1所述的方法，其特征在于，所述跨层级的注意力交互包括相邻两个层级的注意力交互，其中，在所述相邻两个层级的注意力交互中，下一个层级的注意力交互的输入为上一个层级的注意力交互的输出。3.根据权利要求1或2所述的方法，其特征在于，所述第一视觉数据的多个层级的视觉特征至少包括第一特征和第二特征，所述第一特征与所述第二特征对应的层级相邻且所述第一特征对应的层级高于所述第二特征对应的层级，所述对所述第一文本特征和所述第一视觉特征进行跨层级的注意力交互，包括：对所述第一特征与第三特征进行注意力交互，得到第四特征，其中，在所述第一特征对应的层级为所述多个层级中的最高层级的情况下，所述第三特征为所述第一文本特征，在所述第一特征对应的层级非所述多个层级中的最高层级的情况下，所述第三特征为所述第一特征对应的层级的上一个层级的输出；对所述第二特征与所述第四特征进行注意力交互，得到第五特征；在所述第二特征对应的层级为所述多个层级中的最低层级的情况下，将所述第五特征作为所述第一交互特征；在所述第二特征对应的层级非所述多个层级中的最低层级的情况下，将所述第五特征输入所述第二特征对应的层级的下一个层级进行注意力交互，直至得到所述第一交互特征。4.根据权利要求1至3中任意一项所述的方法，其特征在于，所述根据第一文本数据确定第一文本特征，以及，根据第一视觉数据确定第一视觉特征包括：将所述第一文本数据输入文本编码器，输出所述第一文本特征；将所述第一视觉数据输入视觉编码器，输出所述第一视觉特征。5.根据权利要求4所述的方法，其特征在于，所述方法还包括：基于训练集合，训练所述文本编码器和所述视觉编码器，所述训练集合包括多个训练样本对，每个训练样本对中包括第二文本数据和第二视觉数据。6.根据权利要求5所述的方法，其特征在于，所述基于训练集合，训练所述文本编码器和所述视觉编码器，包括：针对所述训练集合中的任意一个训练样本对：将所述训练样本对中的第二文本数据和第二视觉数据分别输入待训练的文本编码器和视觉编码器，输出第二文本特征和第二视觉特征，所述第二视觉特征包括所述第二视觉数据的多个层级的视觉特征；对所述第二文本特征和所述第二视觉特征进行跨层级的注意力交互，得到第二交互特
征；基于所述第二文本特征和所述第二交互特征，确定所述训练样本对对应的第一损失；基于各个训练对对应的第一损失，调整所述文本编码器的参数以及所述视觉编码器的参数。7.根据权利要求6所述的方法，其特征在于，所述方法还包括：针对所述训练集合中的任意一个训练样本对，基于所述第二视觉特征进行特征对比学习，得到所述训练样本对对应的第二损失；基于各个训练样本对对应的第二损失，调整所述文本编码器的参数以及所述视觉编码器的参数。8.根据权利要求7所述的方法，其特征在于，所述基于所述第二视觉特征进行特征对比学习，得到所述训练样本对对应的第二损失包括：针对所述多个层级中的任意一个层级：根据所述第二视觉数据在所述层级的视觉特征，确定所述层级下的全局特征和局部特征；根据所述层级下的全局特征和局部特征，确定所述层级对应的第二损失；根据各个层级对应的第二损失，确定所述训练样本对对应的第二损失。9.根据权利要求8所述的方法，其特征在于，所述根据所述层级下的全局特征和局部特征，确定所述层级对应的第二损失包括：从所述层级下的局部特征中，确定出所述层级下的全局特征对应的正特征和负特征；基于所述全局特征、所述正特征和所述负特征，确定所述层级对应的第二损失。10.根据权利要求1至9中任意一项所述的方法，其特征在于，所述方法还包括：在接收到视觉数据查询请求的情况下，从所述视觉数据查询请求中获取所述第一文本数据，从待查询的视觉数据库中获取所述第一视觉数据；在所述第一文本数据为所述第一视觉数据的语义信息的情况下，返回所述第一视觉数据；和/或，在接收到视觉数据标注请求的情况下，从候选标签库中获取所述第一文本数据，从所述视觉数据标注请求中获取所述第一视觉数据；在所述第一文本数据为所述第一视觉数据的语义信息的情况下，返回所述第一文本数据；和/或，在接收到视觉数据问答请求的情况下，从所述视觉数据问答请求中获取问题信息和所述第一视觉数据，基于所述问题信息确定所述第一文本数据；在所述第一文本数据为所述第一视觉数据的语义信息的情况下，返回所述第一文本数据。11.一种视觉分析装置，其特征在于，包括：特征生成单元，所述特征生成单元被配置为根据第一文本数据确定第一文本特征，以及，根据第一视觉数据确定第一视觉特征，所述第一视觉特征包括所述第一视觉数据的多个层级的视觉特征，其中，各个层级的视觉特征之间对应的尺度不同；
注意力交互单元，所述注意力交互单元被配置为对所述第一文本特征和所述第一视觉特征进行跨层级的注意力交互，得到第一交互特征；语义输出单元，所述语义输出单元被配...

【专利技术属性】
技术研发人员：邵滨，刘健庄，裴仁静，李炜棉，许松岑，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人