基于表征解耦和混合增强的去偏视频定位方法和装置制造方法及图纸

技术编号：40204677 阅读：4 留言：0更新日期：2024-02-02 22:16

本公开提供了一种基于表征解耦和混合增强的去偏视频定位方法和装置，涉及视频定位技术领域，旨在准确进行视频定位。所述方法包括：将视频和查询语句输入所述视频定位模型，得到所述视频的多个视频片段的表征以及所述查询语句的句嵌入；对每一所述视频片段的表征进行解耦处理，得到每一所述视频片段的位置表征和内容表征；其中，所述视频片段的位置表征与所述视频片段的真实位置表征之间存在重构约束，所述视频片段的内容表征与所述视频片段的位置表征之间彼此独立，所述视频片段的内容表征与所述视频片段的表征之间存在互信息约束；根据所述句嵌入，以及所述各个视频片段的位置表征和内容表征，定位所述查询语句对应的视频片段的位置。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及视频定位，特别是涉及一种基于表征解耦和混合增强的去偏视频定位方法和装置。

技术介绍

1、视频定位(video grounding)旨在给定一个未裁剪的视频和一个自然语句查询，定位出语义相关的视频片段的开始时间和结束时间，在多媒体领域存在广泛的应用场景。

2、相关技术的视频定位方法往往可能仅拟合了数据分布偏差，而没有真正学习视频与文本模态之间的语义对齐关系。一方面，视频定位常用的数据集存在明显的目标片段位置标注偏差，仅仅拟合数据分布的模型就可以达到与最先进的方法相匹配的效果。另一方面，几乎所有最先进的方法在分布外数据集上的表现都明显下降，这证明模型学习受到了时序位置偏差的严重影响。

技术实现思路

1、鉴于上述问题，本公开实施例提供了一种基于表征解耦和混合增强的去偏视频定位方法和装置，以便克服上述问题或者至少部分地解决上述问题。

2、本公开实施例的第一方面，提供了一种基于表征解耦和混合增强的去偏视频定位方法，应用于视频定位模型，所述方法包括：

3、将视频和查询语句输入所述视频定位模型，得到所述视频的多个视频片段的表征以及所述查询语句的句嵌入；

4、对每一所述视频片段的表征进行解耦处理，得到每一所述视频片段的位置表征和内容表征；其中，所述视频片段的位置表征与所述视频片段的真实位置表征之间存在重构约束，所述视频片段的内容表征与所述视频片段的位置表征之间彼此独立，所述视频片段的内容表征与所述视频片段的表征之间存在互信息约束；

<p>5、根据所述句嵌入，以及所述各个视频片段的位置表征和内容表征，定位所述查询语句对应的视频片段的位置；

6、其中，所述视频定位模型是基于视频样本和混合句表征样本训练得到的，所述混合句表征样本为：对所述视频样本的多个查询语句样本的句嵌入样本进行混合增强后得到的。

7、可选地，所述视频定位模型的训练步骤至少包括：

8、将所述视频样本和所述视频样本的多个查询语句样本输入初始视频定位模型，得到多个视频片段样本的表征样本以及所述多个查询语句样本的句嵌入样本；其中，每一所述视频片段样本携带真实位置表征标签，每一所述查询语句样本携带位置标签，所述位置标签表征所述查询语句样本对应的视频片段样本的位置；

9、对每一所述视频片段样本的表征样本进行解耦处理，得到每一所述视频片段样本的位置表征样本和内容表征样本；

10、根据每一所述视频片段样本的位置表征样本和真实位置表征标签，确定重构约束损失函数；

11、根据每一所述视频片段样本的位置表征样本和内容表征样本，确定第一互信息约束损失函数；

12、根据每一所述视频片段样本的表征样本和内容表征样本，确定第二互信息约束损失函数；

13、对每一所述句嵌入样本和所述位置标签进行混合增强，，得到每一所述句嵌入样本对应的混合句表征样本，以及所述混合句表征样本的混合位置标签；

14、根据所述混合句表征样本，以及所述各个视频片段样本的位置表征样本和内容表征样本，获取每一所述混合句表征样本对应的视频片段样本的位置预测结果；

15、根据每一所述混合句表征样本的位置预测结果和所述混合位置标签，确定位置损失函数；

16、根据所述重构约束损失函数、所述第一互信息损失函数、所述第二互信息损失函数和所述位置损失函数，对所述初始视频定位模型进行训练，得到训练好的所述视频定位模型。

17、可选地，所述对每一所述句嵌入样本和所述位置标签进行混合增强，得到每一所述句嵌入样本对应的混合句表征样本，以及所述混合句表征样本的混合位置标签，包括：

18、获取权重系数；

19、根据所述权重系数，对每一所述句嵌入样本与其余任一所述句嵌入样本进行加权求和，得到每一所述句嵌入样本对应的混合句表征样本；

20、根据所述权重系数，对每一所述句嵌入样本对应的位置标签与其余任一所述句嵌入样本对应的位置标签进行加权求和，得到所述混合句表征样本的混合位置标签。

21、可选地，所述根据所述重构约束损失函数、所述第一互信息损失函数、所述第二互信息损失函数和所述位置损失函数，对所述初始视频定位模型进行训练，得到训练好的所述视频定位模型，包括：

22、以最大化所述视频片段样本的表征样本和内容表征样本之间的互信息，且最小化所述视频片段样本的位置表征样本和真实位置表征标签之间的距离，最小化所述视频片段样本的位置表征样本和内容表征样本之间的互信息，最小化所述混合句表征样本的位置预测结果和所述混合位置标签之间的距离为目标，基于所述重构约束损失函数、所述第一互信息损失函数、所述第二互信息损失函数和所述位置损失函数，对所述初始视频定位模型进行训练，得到训练好的所述视频定位模型。

23、可选地，所述根据所述句嵌入，以及所述各个视频片段的位置表征和内容表征，定位所述查询语句对应的视频片段的位置，包括：：

24、计算所述句嵌入与各个所述内容表征的匹配分数；

25、将与所述句嵌入的匹配分数最高的内容表征，确定为所述句嵌入的目标内容表征；

26、根据所述目标内容表征对应的目标视频片段的位置表征，确定所述查询语句对应的视频片段的位置。

27、本公开实施例的第二方面，提供了一种基于表征解耦和混合增强的去偏视频定位装置，应用于视频定位模型，所述装置包括：

28、输入模块，用于将视频和查询语句输入所述视频定位模型，得到所述视频的多个视频片段的表征以及所述查询语句的句嵌入；

29、解耦模块，用于对每一所述视频片段的表征进行解耦处理，得到每一所述视频片段的位置表征和内容表征；其中，所述视频片段的位置表征与所述视频片段的真实位置表征之间存在重构约束，所述视频片段的内容表征与所述视频片段的位置表征之间彼此独立，所述视频片段的内容表征与所述视频片段的表征之间存在互信息约束；

30、定位模块，用于根据所述句嵌入，以及所述各个视频片段的位置表征和内容表征，定位所述查询语句对应的视频片段的位置；

31、其中，所述视频定位模型是基于视频样本和混合句表征样本训练得到的，所述混合句表征样本为：对所述视频样本的多个查询语句样本的句嵌入样本进行混合增强后得到的。

32、可选地，所述视频定位模型的训练步骤至少包括：

33、将所述视频样本和所述视频样本的多个查询语句样本输入初始视频定位模型，得到多个视频片段样本的表征样本以及所述多个查询语句样本的句嵌入样本；其中，每一所述视频片段样本携带真实位置表征标签，每一所述查询语句样本携带位置标签，所述位置标签表征所述查询语句样本对应的视频片段样本的位置；

34、对每一所述视频片段样本的表征样本进行解耦处理，得到每一所述视频片段样本的位置表征样本和内容表征样本；

35、根据每一所述视频片段样本的位置表征样本和真实位置表征标签，确定重构约束损失函数本文档来自技高网...

【技术保护点】

1.一种基于表征解耦和混合增强的去偏视频定位方法，其特征在于，应用于视频定位模型，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述视频定位模型的训练步骤至少包括：

3.根据权利要求2所述的方法，其特征在于，所述对每一所述句嵌入样本和所述位置标签进行混合增强，得到每一所述句嵌入样本对应的混合句表征样本，以及所述混合句表征样本的混合位置标签，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述重构约束损失函数、所述第一互信息损失函数、所述第二互信息损失函数和所述位置损失函数，对所述初始视频定位模型进行训练，得到训练好的所述视频定位模型，包括：

5.根据权利要求1-4任一所述的方法，其特征在于，所述根据所述句嵌入，以及所述各个视频片段的位置表征和内容表征，定位所述查询语句对应的视频片段的位置，包括：

6.一种基于表征解耦和混合增强的去偏视频定位装置，其特征在于，应用于视频定位模型，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述视频定位模型的训练步骤至少包括：

9.根据权利要求7所述的装置，其特征在于，所述根据所述重构约束损失函数、所述第一互信息损失函数、所述第二互信息损失函数和所述位置损失函数，对所述初始视频定位模型进行训练，得到训练好的所述视频定位模型，包括：

10.根据权利要求6-9任一所述的装置，其特征在于，所述定位模块具体用于：

...

【技术特征摘要】

1.一种基于表征解耦和混合增强的去偏视频定位方法，其特征在于，应用于视频定位模型，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述视频定位模型的训练步骤至少包括：

5.根据权利要求1-4任一所述的方法，其特征在于，所述根据所述句嵌入，以及所述各个视频片段的位置表征和内容表征，定位所述查...

【专利技术属性】
技术研发人员：王鑫，朱文武，吴子豪，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人