一种基于训练数据重划分的鲁棒视频文本跨模态检索方法和装置制造方法及图纸

技术编号:38241248 阅读:10 留言:0更新日期:2023-07-25 18:04
本申请提供了一种基于训练数据重划分的鲁棒视频文本跨模态检索方法和装置,该方法根据带噪数据的特性将其划分为正确、困难和带噪三个子集,并设计统一训练目标优化样本对之间在公共空间的距离关系,实现在任意带噪噪声比例条件下模型的鲁棒训练,保持视频文本跨模态检索的精度稳定性。检索的精度稳定性。检索的精度稳定性。

【技术实现步骤摘要】
一种基于训练数据重划分的鲁棒视频文本跨模态检索方法和装置


[0001]本申请涉及计算机视觉、自然语言处理和机器学习
,具体涉及一种基于训练数据重划分的鲁棒视频文本跨模态检索方法和装置。

技术介绍

[0002]视频文本跨模态检索目的实现给定其中一种模态的查询输入,在多媒体数据集库中根据跨模态语义相似度得到另一种模态的检索返回。随着移动互联网的迅猛发展以及短视频平台的流量扩张,多媒体数据在短时间内快速激增,引发视频文本跨模态检索需求日益增加。然而,由于利用文本进行视频标注成本高昂,标注人员认知水平参差不齐,无法避免的将噪声数据引入模型训练集,导致视频文本跨模态检索模型性能大幅降低。
[0003]现有视频文本跨模态检索的训练方式核心思想可以总结为:最大化正样本对之间的相似度,同时最小化负样本对之间的相似度。然而,当训练数据存在噪声时,模型如果仍然按照错误的正负样本对标注信息进行训练,将会显著影响模型检索精度。

技术实现思路

[0004]针对现有视频文本跨模态检索方法无法在训练样本含有噪声的情况下保证检索性能稳定性的问题,本专利技术提出了一种基于训练数据重划分的鲁棒视频文本跨模态检索方法和装置,将训练数据按照是否含有噪声以及含有噪声类别进行重划分,然后分别设计鲁棒训练策略,保证模型性能稳定性。本申请所采用的技术方案如下:
[0005]一种基于训练数据重划分的鲁棒视频文本跨模态检索方法,该方法包括:
[0006]步骤S0,利用带噪数据集训练两个网络结构相同的模型A和模型B进行预热,得到两个预热后模型;
[0007]步骤S1,分别计算两个预热后模型中所有样本对的损失函数值;
[0008]步骤S2,根据所述损失函数值,分别拟合两个预热后模型的二元高斯混合模型;
[0009]步骤S3,利用拟合的所述二元高斯混合模型,根据对应均值较大高斯元的后验概率,重新划分训练集为三个子集;
[0010]步骤S4,利用重新划分得到的所述三个子集,分别平滑每个子集的语义匹配标签;
[0011]步骤S5,根据每个子集的所述语义匹配标签,构建三元组损失函数的自适应间隔值;
[0012]步骤S6,根据所述自适应间隔值,约束样本对之间的相似度关系,并对两个预热后模型分别进行微调训练;
[0013]步骤S7,利用微调后的模型实现视频文本跨模态检索。
[0014]进一步的,步骤S0具体包括:
[0015]步骤S000,选定带噪数据集,其中训练集D具体表示为:
[0016][0017]其中共有N个视频文本样本对(V
i
,T
i
),语义匹配标签c
i
∈{0,1}表示样本对是否被标注为具有相同的语义内容;
[0018]步骤S001,选取任意现有模型A将视频文本样本对(V
i
,T
i
)映射至d维公共空间中,根据原模型定义计算跨模态相似度S
A
(V
i
,T
i
);
[0019]步骤S002,构建与模型A具有相同网络结构但是初始化方式不同的模型B,将视频文本样本对(V
i
,T
i
)映射至d维公共空间中,根据原模型定义计算跨模态相似度S
B
(V
i
,T
i
);
[0020]步骤S003,选取三元组损失函数在数据集D上分别对A模型进行M个轮次的训练,得到模型A的预热模型:
[0021][0022]其中[x]+
=max(x,0)表示函数计算结果仅取正值,其余情况函数值赋零,α表示固定间隔值;
[0023]步骤S004,选取三元组损失函数在数据集D上分别对B模型进行M个轮次的训练,得到模型B的预热模型:
[0024][0025]其中[x]+
=max(x,0)表示函数计算结果仅取正值,其余情况函数值赋零,α表示固定间隔值。
[0026]进一步的,步骤S1具体包括:
[0027]步骤S100,关于训练集D中N个具有语义匹配标签c
i
=1的视频文本样本对利用模型A的预热模型计算所有样本对的损失函数值
[0028][0029]步骤S101,关于训练集D中N个具有语义匹配标签c
i
=1的视频文本样本对利用模型B的预热模型计算所有样本对的损失函数值
[0030][0031]进一步的,步骤S2具体包括:
[0032]步骤S200,将模型A的预热模型计算所得损失函数值拟合二元高斯混合模型,得到第i个视频文本样本对关于第K个高斯元的概率密度
[0033][0034]其中为关于模型A的预热模型的高斯混合系数;
[0035]步骤S201,将模型B的预热模型计算所得损失函数值拟合二元高斯混合模
型,得到第i个视频文本样本对关于第K个高斯元的概率密度
[0036][0037]其中为关于模型B的预热模型的高斯混合系数。
[0038]进一步的,步骤S3具体包括:
[0039]步骤S300,计算模型A的预热模型输出的第i个视频文本样本对关于均值较小高斯元k

的后验概率
[0040][0041]步骤S301,计算模型B的预热模型输出的第i个视频文本样本对关于均值较小高斯元k

的后验概率
[0042][0043]步骤S302,联合后验概率和将训练集D重新划分为正确、困难和带噪三个子集用于模型A的预热模型后续微调训练:
[0044][0045]其中β表示后验概率门限值;
[0046]步骤S302,联合后验概率和将训练集D重新划分为正确、困难和带噪三个子集用于模型B的预热模型后续微调训练:
[0047][0048]其中β表示后验概率门限值。
[0049]进一步的,步骤S4具体包括:
[0050]步骤S400,针对视频文本样本对(V
i
,T
i
),在所属训练批次内利用模型A的预热模型计算预测得分P
A
(V
i
,T
i
):
[0051][0052]其中B表示每个训练批次中的样本对数量;
[0053]步骤S401,针对视频文本样本对(V
i
,T
i
),在所属训练批次内利用模型B的预热模型计算预测得分P
B
(V
i
,T
i
):
[0054][0055]其中B表示每个训练批次中的样本对数量;
[0056]步骤S402,针对模型A的预热模型所属三个训练子集,分别平滑语义匹配标签
[0057][0058]步骤S403,针对模型B的预热模型所属三个训练子集,分别平滑语义匹配标签
[0059][0060]进一步的,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于训练数据重划分的鲁棒视频文本跨模态检索方法,其特征在于,该方法包括:步骤S0,利用带噪数据集训练两个网络结构相同的模型A和模型B进行预热,得到两个预热后模型;步骤S1,分别计算两个预热后模型中所有样本对的损失函数值;步骤S2,根据所述损失函数值,分别拟合两个预热后模型的二元高斯混合模型;步骤S3,利用拟合的所述二元高斯混合模型,根据对应均值较大高斯元的后验概率,重新划分训练集为三个子集;步骤S4,利用重新划分得到的所述三个子集,分别平滑每个子集的语义匹配标签;步骤S5,根据每个子集的所述语义匹配标签,构建三元组损失函数的自适应间隔值;步骤S6,根据所述自适应间隔值,约束样本对之间的相似度关系,并对两个预热后模型分别进行微调训练;步骤S7,利用微调后的模型实现视频文本跨模态检索。2.根据权利要求1所述的方法,其特征在于,步骤S0具体包括:步骤S000,选定带噪数据集,其中训练集D具体表示为:其中共有N个视频文本样本对(V
i
,T
i
),语义匹配标签c
i
∈{0,1}表示样本对是否被标注为具有相同的语义内容;步骤S001,选取任意现有模型A将视频文本样本对(V
i
,T
i
)映射至d维公共空间中,根据原模型定义计算跨模态相似度S
A
(V
i
,T
i
);步骤S002,构建与模型A具有相同网络结构但是初始化方式不同的模型B,将视频文本样本对(V
i
,T
i
)映射至d维公共空间中,根据原模型定义计算跨模态相似度S
B
(V
i
,T
i
);步骤S003,选取三元组损失函数在数据集D上分别对A模型进行M个轮次的训练,得到模型A的预热模型:其中[x]
+
=max(x,0)表示函数计算结果仅取正值,其余情况函数值赋零,α表示固定间隔值;步骤S004,选取三元组损失函数在数据集D上分别对B模型进行M个轮次的训练,得到模型B的预热模型:其中[x]
+
=max(x,0)表示函数计算结果仅取正值,其余情况函数值赋零,α表示固定间隔值。3.根据权利要求1所述的方法,其特征在于,步骤S1具体包括:步骤S100,关于训练集D中N个具有语义匹配标签c
i
=1的视频文本样本对
利用模型A的预热模型计算所有样本对的损失函数值利用模型A的预热模型计算所有样本对的损失函数值步骤S101,关于训练集D中N个具有语义匹配标签c
i
=1的视频文本样本对利用模型B的预热模型计算所有样本对的损失函数值利用模型B的预热模型计算所有样本对的损失函数值4.根据权利要求1所述的方法,其特征在于,步骤S2具体包括:步骤S200,将模型A的预热模型计算所得损失函数值拟合二元高斯混合模型,得到第i个视频文本样本对关于第K个高斯元的概率密度到第i个视频文本样本对关于第K个高斯元的概率密度其中为关于模型A的预热模型的高斯混合系数;步骤S201,将模型B的预热模型计算所得损失函数值拟合二元高斯混合模型,得到第i个视频文本样本对关于第K个高斯元的概率密度到第i个视频文本样本对关于第K个高斯元的概率密度其中为关于模型B的预热模型的高斯混合系数。5.根据权利要求1所述的方法,其特征在于,步骤S3具体包括:步骤S300,计算模型A的预热模型输出的第i个视频文本样本对关于均值较小高斯元k

的后验概率的后验概率步骤S301,计算模型B的预热模型输出的第i个视频文本样本对关于均值较小高斯元k

的后验概率的后验概率步骤S302,联合后验概率和将训练集D重新划分为正确、困难和带噪三个子集用于模型A的预热模型后续微调训练:
其中β表示后验概率门限值;步骤S302,联合后验概率和将训练集D重新划分为正确、困难和带噪三个子集用于模型B的预热模型后续微调训练:其中β表示后验概率门限值。6.根据权利要求1所述的方法,其特征在于,步骤S4具体包括:步骤S400,针对视频文本样本对(V
i
,T
i
),在所属训练批次内利用模型A的预热模型计算预测得分P
A
(V
i

【专利技术属性】
技术研发人员:胡林冯泽润郭彩丽杨洋刘芳芳
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1