一种多模态表征的学习方法、系统和存储介质技术方案

技术编号：40507061 阅读：5 留言：0更新日期：2024-03-01 13:21

本发明专利技术提出一种多模态表征的学习方法系统和存储介质，包括获取至少包含两个模态的数据，每个模态包括至少一个片段；从数据中提取整体特征和各个片段的片段特征，分别聚合整体特征和各个片段特征，得到全局特征和局部特征。根据各局部特征的上下文关系聚合局部特征得到上下文特征，对全局特征和上下文特征进行聚合得到模态特征；将至少两个模态的全局特征、模态特征、局部特征和上下文特征进行分层次融合，得到融合后的全局特征、模态特征、局部特征和上下文特征，对融合后的全局特征、模态特征、局部特征和上下文特征进行训练学习。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉领域，特别是一种多模态表征的学习方法、系统和存储介质。

技术介绍

1、多模态表征学习已经成为计算机视觉、自然语言和语音处理等领域中一个热门研究方向。然而，现有大多数多模态表征学习方法在多模态层次特征提取和多层次特征融合方式上仍然存在信息不对称问题，即现有方法多关注如何提取某种模态的细粒度的局部信息来增加监督，导致在其他模态上找不到与之相对应的部分，从而影响监督信息发挥作用。并且也会有混合层次融合问题，即现有方法多使用统一表征方法对多模态数据进行混合层次融合，造成数据的层次性被忽略。

技术实现思路

0、
技术实现思路
：

1、本专利技术要解决的技术问题是现有方法信息不对称以及忽略数据层次的问题。

2、本专利技术提出一种多模态表征的学习方法、系统和存储介质。

3、步骤1，获取至少包含两个模态的数据，每个模态包括至少一个片段；

4、步骤2，从数据中提取整体特征和各个片段的片段特征，分别聚合整体特征和各个片段特征，得到全局特征和局部特征。根据各局部特征的上下文关系聚合局部特征得到上下文特征，对全局特征和上下文特征进行聚合得到模态特征；

5、步骤3，将至少两个模态的全局特征、模态特征、局部特征和上下文特征进行分层次融合，得到融合后的全局特征、模态特征、局部特征和上下文特征，对融合后的全局特征、模态特征、局部特征和上下文特征进行训练学习。

6、优选的，所述整体特征的提取方法为：提取特征其中n代表模态数据

7、优选的，所述片段特征的提取方法为：提取特征其中ni是第i个片段的长度，d代表模态数据的维度，片段特征ci＝transformer(hi；θ1)，transformer为特征提取器，θ1为transformer的参数，

8、优选的，所述全局特征的计算方式为：s＝softmax(w2(gelu(w1v)))，其中，vg为全局特征，代表线性转换的参数，d代表模态数据的维度，gelu代表激活函数，s代表注意力矩阵，sj代表注意力矩阵s的第j个注意力向量，vj代表整体特征v的第j个特征向量，⊙代表元素相乘；局部特征的计算方式为：s＝softmax(w2(gelu(w1hi)))，为局部特征，代表第i个片段特征hi的第j个特征向量。

9、优选的，所述上下文特征vc的计算方式为：其中θ2代表transformer的参数，avg()操作代表求均值，m代表局部特征数量。

10、优选的，所述模态特征的计算方法为：vm＝[vg，vc]，其中[，]代表维度连接操作。

11、优选的，所述步骤3中分层次融合的方式为：将各个模态的全局特征或者模态特征或者局部特征或者上下文特征经过线性层之后进行特征相加，再经过激活层、线性层和softmax之后得到各个模态间进行加权求和的权重，加权求和后得到融合后的全局特征或者模态特征或者局部特征或者上下文特征。

12、优选的，所述步骤3中，通过对比损失函数进行训练学习，对于不同层次的特征分别构建损失函数，全局特征对比损失函数计算方式为：其中d()代表点积相似度度量函数，n-代表负样本集合，代表正样本全局特征；局部特征对比损失函数计算方式为：模态特征对比损失函数计算方式为：上下文特征对比损失函数计算方式为：

13、一种基于注意力机制的多模态表征学习系统，包括：特征提取模块、基于自注意力模态的特征融合模块，所述特征提取模块用于提取全局特征、局部特征、上下文特征和模态特征，所述基于自注意力模态的特征融合模块用于分层次融合全局特征、模态特征、局部特征和上下文特征。

14、一种基于注意力机制的多模态表征学习存储介质，用于存储所述的基于注意力机制的多模态表征学习方法的设备。

15、本专利技术同现有技术相比具有以下优点及效果：

16、本专利技术通过transformer提取各模态数据的全局特征、局部特征、模态特征以及上下文特征，可有效获取多模态数据不同层次信息，具有更强的表征能力，在视频检索任务和视频字幕任务上表现更好。

17、本专利技术将各模态的不同层次特征进行分层次融合，可有效保留数据的层次结构性，提高模态数据表示的质量，可广泛应用于多模态表征学习领域。

本文档来自技高网...

【技术保护点】

1.一种多模态表征的学习方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的多模态表征的学习方法，其特征在于，所述整体特征的提取方法为：提取特征其中N代表模态数据的长度，d代表模态数据特征的维度，整体特征V＝Transformer(G；θ1)，Transformer为特征提取器，θ1为Transformer的参数，

3.根据权利要求1所述的多模态表征的学习方法，其特征在于，所述片段特征的提取方法为：提取特征其中ni是第i个片段的长度，d代表模态数据的维度，片段特征Ci＝Transformer(Hi；θ1)，Transformer为特征提取器，θ1为Transformer的参数，

4.根据权利要求1所述的多模态表征的学习方法，其特征在于，所述全局特征的计算方式为：S＝softmax(W2(GELU(W1V)))，其中，vg为全局特征，代表线性转换的参数，d代表模态数据的维度，GELU代表激活函数，S代表注意力矩阵，sj代表注意力矩阵S的第j个注意力向量，vj代表整体特征V的第j个特征向量，⊙代表元素相乘；局部特征的计算方式为：S＝softm

5.根据权利要求1所述的多模态表征的学习方法，其特征在于，所述上下文特征vc的计算方式为：其中θ2代表Transformer的参数，Avg()操作代表求均值，m代表局部特征数量。

6.根据权利要求1所述的多模态表征的学习方法，其特征在于，所述模态特征的计算方法为：vm＝[vg,vc]，其中[vg,vc]代表维度连接操作。

7.根据权利要求1所述的多模态表征的学习方法，其特征在于，所述步骤3中分层次融合的方式为：将各个模态的全局特征或者模态特征或者局部特征或者上下文特征经过线性层之后进行特征相加，再经过激活层、线性层和softmax之后得到各个模态间进行加权求和的权重，加权求和后得到融合后的全局特征或者模态特征或者局部特征或者上下文特征。

8.根据权利要求1所述的多模态表征的学习方法，其特征在于，所述步骤3中，通过对比损失函数进行训练学习，对于不同层次的特征分别构建损失函数，全局特征对比损失函数计算方式为：其中d()代表点积相似度度量函数，N-代表负样本集合，代表正样本全局特征；局部特征对比损失函数计算方式为：模态特征对比损失函数计算方式为：上下文特征对比损失函数计算方式为：

9.一种多模态表征的学习系统,其特征在于，包括：特征提取模块、基于自注意力模态的特征融合模块，所述特征提取模块用于提取全局特征、局部特征、上下文特征和模态特征，所述基于自注意力模态的特征融合模块用于分层次融合全局特征、模态特征、局部特征和上下文特征。

10.一种多模态表征的学习存储介质,其特征在于，用于存储权利要求1-8任一所述的多模态表征的学习方法的设备。

...

【技术特征摘要】

1.一种多模态表征的学习方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的多模态表征的学习方法，其特征在于，所述整体特征的提取方法为：提取特征其中n代表模态数据的长度，d代表模态数据特征的维度，整体特征v＝transformer(g；θ1)，transformer为特征提取器，θ1为transformer的参数，

3.根据权利要求1所述的多模态表征的学习方法，其特征在于，所述片段特征的提取方法为：提取特征其中ni是第i个片段的长度，d代表模态数据的维度，片段特征ci＝transformer(hi；θ1)，transformer为特征提取器，θ1为transformer的参数，

4.根据权利要求1所述的多模态表征的学习方法，其特征在于，所述全局特征的计算方式为：s＝softmax(w2(gelu(w1v)))，其中，vg为全局特征，代表线性转换的参数，d代表模态数据的维度，gelu代表激活函数，s代表注意力矩阵，sj代表注意力矩阵s的第j个注意力向量，vj代表整体特征v的第j个特征向量，⊙代表元素相乘；局部特征的计算方式为：s＝softmax(w2(gelu(w1hi)))，为局部特征，代表第i个片段特征hi的第j个特征向量。

5.根据权利要求1所述的多模态表征的学习方法，其特征在于，所述上下文特征vc的计算方式为：其中θ2代表transformer的参数，avg()操作代表求均值...

【专利技术属性】
技术研发人员：谭明奎，陈沛豪，李宏，
申请(专利权)人：绍兴市北大信息技术科创中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人