一种文本音频图像对比学习方法技术

技术编号:39820643 阅读:21 留言:0更新日期:2023-12-22 19:40
本发明专利技术提供了一种文本音频图像对比学习方法,通过在多模态对比学习框架中增加最优传输正则化项,从而可以无监督学习和发掘非对齐的文本

【技术实现步骤摘要】
一种文本音频图像对比学习方法、装置和存储介质


[0001]本专利技术涉及人工智能
,具体涉及一种文本音频图像对比学习方法

装置和存储介质


技术介绍

[0002]不同存在形式或信息来源均可被称为不同的模态,在计算机视觉领域的狭义的多模态数据指的是多媒体数据,主要为文本

图像

音频

视频等数据

为了分析和利用多模态数据,多模态数据的表示学习是重要的基础,在图像描述

文本引导图片生成

语音识别

情感分类等应用中起着核心作用

多模态对比学习是一种常用的多模态表示学习方法

将具有相同语义的数据称为正样本对,具有不同语义的数据称为负样本对,多模态对比学习的主要思想是最小化正样本对的概率,最大化负样本对的概率,从而使得具有相同语义的来自不同模态的数据发生聚类

[0003]最优传输(
Optimal Transport本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种文本音频图像对比学习方法,其特征在于,包括以下步骤:
S1
,从部分对齐的文本

音频和图像三种模态的数据集中选择语义匹配的各模态数据,生成由具有相同语义的“文本

音频

图像”数据对组成的对齐样本数据集,数据集中不属于对齐样本数据集的数据集合构成非对齐样本数据集,完整数据集由对齐样本数据集和非对齐样本数据集两部分组成;
S2
,随机初始化文本

音频和图像三种模态的编码器和解码器,完整数据集中的数据经过其所属模态的编码器后得到相应嵌入,任意嵌入根据其语义与其他嵌入组成该嵌入的正样本对集合和负样本对集合,所述正样本对集合的来源为对齐样本数据集中来自不同模态的语义相同的数据组成的嵌入对,所述负样本对集合的来源为对齐样本数据集中语义不同的嵌入对,以及非对齐样本数据集中从各个模态中随机抽取数据所组成的嵌入对;
S3
,将每个嵌入作为锚点嵌入,基于该嵌入的正样本对集合和负样本对集合计算多模态对比损失函数,所述多模态对比损失函数由嵌入间的对比损失函数

嵌入经过解码器后生成的重构数据与原始数据之间的重构误差函数

重构数据间的对比损失函数组成,所述对比损失函数为三元组损失函数或噪声对比估计损失函数,所述重构误差函数为重构数据和原始数据的均方误差;
S4
,计算最优传输距离,将最优传输距离作为最优传输正则化项,设置最优传输正则化项的权重,所述权重取值为(
0,1
)区间的任意实数;
S5
,将加权后的最优传输正则化项加入步骤
S3
中所述多模态对比损失函数,构成新损失函数,使用随机梯度下降法最小化新损失函数,调整文本

音频

图像各模态对应的编码器和解码器的参数直到训练结束
。2.
根据权利要求1所述的一种文本音频图像对比学习方法,其特征在于,步骤
S4
中所述最优传输距离的具体计算步骤为:
S4201
,选择文本

音频和图像三种模态中的任意两个模态,计算所有任意两个模态下的任意两个嵌入之间的欧几里得距离,组成距离矩阵
D

S4202
,采用
Sinkhorn
算法计算所有任意两个模态间的传输方案,表示为,其中表示熵正则化权重,表示内层最大迭代次数;
S4203
,计算所有任意两个模态间的
Wasserstein
距离,所述
Wasserstein
距离的计算方法为计算距离矩阵
D
与传输方案的内积;
S4204
,将所有
Wasserstein
距离相加,得到最优传输距离
。3.
根据权利要求1所述的文本音频图像对比学习方法,其特征在于,步骤
S4
中所述最优传输距离的具体计算步骤为:
S4301
,将文本

音频和图像三种模态中的...

【专利技术属性】
技术研发人员:朱斯丹罗迪新许洪腾
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1