一种基于类社交先验的多模态语义表征方法及系统技术方案

技术编号：41735334 阅读：19 留言：0更新日期：2024-06-19 12:55

本发明专利技术涉及一种基于类社交先验的多模态语义表征方法及系统，包括：利用预训练视觉模型对给定图像进行理解并生成相应的图像网格特征；利用自然语义理解模型对给定问题或者查询语句进行有效表征，生成语句特征；将图像网格特征与语句特征一起输入到类社交transformer中，经过多层编码实现多模态特征的有效融合，最终得到高质量的多模态语义表征。本发明专利技术将精巧设计的类社交注意力机制引入到传统的transformer架构中实现视觉结构化建模和判别性语义学习，进一步增强了视觉上下文的学习。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于类社交先验的多模态语义表征方法及系统，属于语言处理。

技术介绍

1、基于transformer的方法在自然语言领域取得了成功，为视觉推理任务的繁荣铺平了道路，许多经过精心设计的transformer变体在各种基准测试中取得了令人期待的表现。由于transformer中自注意力(self-attention)机制具有强大的全局建模能力，这些方法不仅有助于内部模态上下文的学习，而且在跨模态对齐和补充方面也表现出色。然而，正如一些现有研究所讨论的那样，传统的自注意力机制在没有前馈网络(feed forwardnetwork)和残差连接的情况下很容易导致秩崩溃和表征退化。因此，如何进一步优化自注意力的有效学习，并为视觉与语言任务生成更具表现力的表示，仍然是一个迫切的问题。

2、自注意力机制中不同图像区域的特征聚合与社交网络中的信息传递分享了类似的理念。对于transformer中的视觉自注意力建模，每个视觉单元，可以是网格特征(jiang等，2020)或显著对象(anderson等，2018)，都会根据相似度得...

【技术保护点】

1.一种基于类社交先验的多模态语义表征方法，其特征在于，包括：

2.根据权利要求1所述的一种基于类社交先验的多模态语义表征方法，其特征在于，利用预训练视觉模型对给定图像进行理解并生成相应的图像网格特征；包括：采用在VisualGenome数据集上的预训练好的ResNext模型对第b张图像进行视觉特征提取，得到的特征图作为视觉分支的输入，即视觉区域表征矩阵，表示为Ub＝[ub1,ub2,…,ubR]，其中，R为总的视觉子区域的数量。

3.根据权利要求1所述的一种基于类社交先验的多模态语义表征方法，其特征在于，利用自然语义理解模型对给定问题或者查询语句进行有效表征，生...

【技术特征摘要】

1.一种基于类社交先验的多模态语义表征方法，其特征在于，包括：

2.根据权利要求1所述的一种基于类社交先验的多模态语义表征方法，其特征在于，利用预训练视觉模型对给定图像进行理解并生成相应的图像网格特征；包括：采用在visualgenome数据集上的预训练好的resnext模型对第b张图像进行视觉特征提取，得到的特征图作为视觉分支的输入，即视觉区域表征矩阵，表示为ub＝[ub1,ub2,…,ubr]，其中，r为总的视觉子区域的数量。

3.根据权利要求1所述的一种基于类社交先验的多模态语义表征方法，其特征在于，利用自然语义理解模型对给定问题或者查询语句进行有效表征，生成语句特征；是指：采用glove和lstm对给定问题或者查询语句进行编码：包括：

4.根据权利要求1所述的一种基于类社交先验的多模态语义表征方法，其特征在于，类社交transformer由多层类社交block串行组成，具体包括类社交自注意力机制、传统交叉注意力、多层感知机网络、分类头或者回归头；

5.根据权利要...

【专利技术属性】
技术研发人员：胡宇鹏，韩昱东，刘皓，王浩聪，陈智伟，杨茜云，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人