【技术实现步骤摘要】
本专利技术涉及一种基于类社交先验的多模态语义表征方法及系统,属于语言处理。
技术介绍
1、基于transformer的方法在自然语言领域取得了成功,为视觉推理任务的繁荣铺平了道路,许多经过精心设计的transformer变体在各种基准测试中取得了令人期待的表现。由于transformer中自注意力(self-attention)机制具有强大的全局建模能力,这些方法不仅有助于内部模态上下文的学习,而且在跨模态对齐和补充方面也表现出色。然而,正如一些现有研究所讨论的那样,传统的自注意力机制在没有前馈网络(feed forwardnetwork)和残差连接的情况下很容易导致秩崩溃和表征退化。因此,如何进一步优化自注意力的有效学习,并为视觉与语言任务生成更具表现力的表示,仍然是一个迫切的问题。
2、自注意力机制中不同图像区域的特征聚合与社交网络中的信息传递分享了类似的理念。对于transformer中的视觉自注意力建模,每个视觉单元,可以是网格特征(jiang等,2020)或显著对象(anderson等,2018),都会根据相似度得
...【技术保护点】
1.一种基于类社交先验的多模态语义表征方法,其特征在于,包括:
2.根据权利要求1所述的一种基于类社交先验的多模态语义表征方法,其特征在于,利用预训练视觉模型对给定图像进行理解并生成相应的图像网格特征;包括:采用在VisualGenome数据集上的预训练好的ResNext模型对第b张图像进行视觉特征提取,得到的特征图作为视觉分支的输入,即视觉区域表征矩阵,表示为Ub=[ub1,ub2,…,ubR],其中,R为总的视觉子区域的数量。
3.根据权利要求1所述的一种基于类社交先验的多模态语义表征方法,其特征在于,利用自然语义理解模型对给定问题或者查询
...【技术特征摘要】
1.一种基于类社交先验的多模态语义表征方法,其特征在于,包括:
2.根据权利要求1所述的一种基于类社交先验的多模态语义表征方法,其特征在于,利用预训练视觉模型对给定图像进行理解并生成相应的图像网格特征;包括:采用在visualgenome数据集上的预训练好的resnext模型对第b张图像进行视觉特征提取,得到的特征图作为视觉分支的输入,即视觉区域表征矩阵,表示为ub=[ub1,ub2,…,ubr],其中,r为总的视觉子区域的数量。
3.根据权利要求1所述的一种基于类社交先验的多模态语义表征方法,其特征在于,利用自然语义理解模型对给定问题或者查询语句进行有效表征,生成语句特征;是指:采用glove和lstm对给定问题或者查询语句进行编码:包括:
4.根据权利要求1所述的一种基于类社交先验的多模态语义表征方法,其特征在于,类社交transformer由多层类社交block串行组成,具体包括类社交自注意力机制、传统交叉注意力、多层感知机网络、分类头或者回归头;
5.根据权利要...
【专利技术属性】
技术研发人员:胡宇鹏,韩昱东,刘皓,王浩聪,陈智伟,杨茜云,
申请(专利权)人:山东大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。