长视频定位方法、系统、设备及存储介质技术方案

技术编号：45020333 阅读：6 留言：0更新日期：2025-04-18 17:03

本发明专利技术公开了一种长视频定位方法、系统、设备及存储介质，它们是一一对应的方案，方案中采用逐步定位的方式，首先，通过视频和文本引导来识别高光的视频帧，从而得到与查询文本对齐的视频片段，避免现有方法直接从长视频中提取片段，缺乏长视频对文本的整体感知的问题；在获得与查询文本对齐的视频片段的基础上进一步定位得到精准的时刻；逐步定位的方式中每一步定位进一步加强了视频与查询文本之间的联系，因而，可以获得更准确的定位结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及长视频定位，尤其涉及一种长视频定位方法、系统、设备及存储介质。

技术介绍

1、长视频定位（lvtg）旨在从一个长视频中定位得到某一个文本描述所对应的视频中的起始和结束时刻。

2、现有的方法大多直接从长视频中通过滑动窗口的方式选择一个视频片段，并在选择的视频片段中定位时刻。但是，以上方式存在如下缺陷：（1）滑动窗口的方法直接从长视频中选择一个视频片段，缺乏长视频对于文本描述的感知，因此难以得到与文本对齐的视频片段。（2）滑动窗口的位置是固定的，当真实视频片段落在此位置中则会得到相同的视频片段，而当真实视频片段落在切片位置的附近时，也会导致真实视频片段被截断，因此，难以获得准确的定位结果。

3、有鉴于此，特提出本专利技术。

技术实现思路

1、本专利技术的目的是提供一种长视频定位方法、系统、设备及存储介质，可以通过文本描述的感知，获得与查询文本对齐的视频片段，进而准确的预测出与查询文本对应的时刻。

2、本专利技术的目的是通过以下技术方案实现的：

3、一种长视频定位方法，包括：

4、步骤1、获取视频数据与查询文本；

5、步骤2、从所述视频数据中提取视频特征，从所述查询文本中提取文本特征；

6、步骤3、利用所述视频特征与文本特征的相似度，识别出高光的视频帧，并由此在所述视频数据中定位出与所述查询文本对齐的视频片段；

7、步骤4、利用注意力机制融合所述视频片段对应的视频特征与文本特征

8、一种长视频定位系统，用于实现前述的方法，包括：

9、数据获取模块，用于获取视频数据与查询文本；

10、特征提取模块，用于从所述视频数据中提取视频特征，从所述查询文本中提取文本特征；

11、高光挖掘模块，用于利用所述视频特征与文本特征的相似度，识别出高光的视频帧，并由此在所述视频数据中定位出与所述查询文本对齐的视频片段；

12、片段定位模块，用于利用注意力机制融合所述视频片段对应的视频特征与文本特征，并通过编码器进行编码，再通过解码器预测出查询文本对应于视频片段中的时刻。

13、一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

14、其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

15、一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

16、由上述本专利技术提供的技术方案可以看出，本专利技术采用逐步定位的方式，首先，通过视频和文本引导来识别高光的视频帧，从而得到与查询文本对齐的视频片段，并在视频片段中进一步定位得到精准的时刻，每一步的定位进一步加强了视频与查询文本之间的联系，获得更准确的定位结果。

本文档来自技高网...

【技术保护点】

1.一种长视频定位方法，其特征在于，包括：

2.根据权利要求1所述的一种长视频定位方法，其特征在于，所述利用所述视频特征与文本特征的相似度，识别出高光的视频帧，并由此在所述视频数据中定位出与所述查询文本对齐的视频片段包括：

3.根据权利要求2所述的一种长视频定位方法，其特征在于，所述结合高光的视频帧定位出与所述查询文本对齐的视频片段包括：

4.根据权利要求1所述的一种长视频定位方法，其特征在于，所述利用注意力机制融合所述视频片段对应的视频特征与文本特征包括：

5.根据权利要求1所述的一种长视频定位方法，其特征在于，所述编码器包含L个子层，每一子层包括：归一化层、三个线性层、卷积层、状态空间模型与两个激活函数层；

6.根据权利要求1所述的一种长视频定位方法，其特征在于，所述步骤3通过高光挖掘模块实现，步骤4通过片段定位模块实现，二者共同组成长视频定位模型；所述视频定位模型使用片段损失进行训练，所述片段损失表示为：

7.根据权利要求6所述的一种长视频定位方法，其特征在于，在训练过程中，通过高光挖掘模块计算高光损失

8.一种长视频定位系统，其特征在于，用于实现权利要求1~7任一项所述的方法，该系统包括：

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。

...

【技术特征摘要】

1.一种长视频定位方法，其特征在于，包括：

3.根据权利要求2所述的一种长视频定位方法，其特征在于，所述结合高光的视频帧定位出与所述查询文本对齐的视频片段包括：

4.根据权利要求1所述的一种长视频定位方法，其特征在于，所述利用注意力机制融合所述视频片段对应的视频特征与文本特征包括：

5.根据权利要求1所述的一种长视频定位方法，其特征在于，所述编码器包含l个子层，每一子层包括：归一化层、三个线性层、卷积层、状态空间模型与两个激活函数层；

6.根据权利要求1所述的一种长视频定位方法，其特征在于，所述步骤3通过高...

【专利技术属性】
技术研发人员：张勇东，谢洪涛，张智涵，李攀登，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人