基于大模型的关键帧提取方法、装置、设备及存储介质制造方法及图纸

技术编号：41072429 阅读：6 留言：0更新日期：2024-04-24 11:29

本发明专利技术公开了一种基于大模型的关键帧提取方法、装置、设备及存储介质，包括：获取第一视频数据，基于语音识别技术和大模型，对所述第一视频数据进行分割，得到第二视频数据和对应的文本描述；采用帧差法，从所述第二视频数据中提取候选帧；基于大模型和提示，根据所述文本描述，从所述候选帧中提取表示动作的开始、中间、结束这三个状态的关键帧。采用本发明专利技术实施例，能够自动、准确地从视频中提取关键帧，这些关键帧不仅数量适中，而且能够代表视频中的主要动作和事件，并且无需对大模型的参数进行调整，避免了人工干预，从而大幅提高了关键帧自动提取效率，降低成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频数据处理领域，尤其涉及一种基于大模型的关键帧提取方法、装置、设备及存储介质。

技术介绍

1、人体动作识别广泛应用于人机交互、智能监控、虚拟现实等领域。然而，由于人体动作识别的视频图像通常包含大量帧数，不同帧中可能存在相同的人体动作特征，因而引发数据量庞大、信息冗余等问题，导致识别速度较慢且准确率较低。为解决这一问题，视频动作关键帧提取成为一项重要的计算机视觉技术。该技术旨在从视频序列中识别和提取代表性的帧，这些帧能够概括整个视频内容的关键动作或事件。因此，通过有效选择人体动作视频的关键帧，可以削减冗余信息，减少动作识别过程中的特征数量，同时确保人体动作识别的准确率。

2、现有的关键帧提取方法，仍存在许多不足，比如：提取关键帧时只关注表面的视觉信息，而没有深入理解视频内容，导致提取的关键帧与动作的相关性低、代表性差；提取关键帧时需要复杂的参数调整或依赖于人工干预，不仅降低了自动化程度，还增加了使用难度和成本。

技术实现思路

1、本专利技术提供一种基于大模型的关键帧提取方法、装置、设备及存储介质，以解决采用现有技术提取关键帧时存在语义理解不足、依赖人工干预的问题，能够自动提取出最具视频动作代表性的关键帧。

2、为实现上述目的，本专利技术实施例提供了一种基于大模型的关键帧提取方法，包括：

3、获取第一视频数据，基于语音识别技术和大模型，对所述第一视频数据进行分割，得到第二视频数据和对应的文本描述；

4、采用帧差法，从所述第二视频数据中提取候选帧；

5、基于大模型和提示，根据所述文本描述，从所述候选帧中提取表示动作的开始、中间、结束这三个状态的关键帧。

6、作为上述方案的改进，所述获取第一视频数据，基于语音识别技术和大模型，对所述第一视频数据进行分割，得到第二视频数据和对应的文本描述，包括：

7、获取第一视频数据并进行音视频分离，得到第一音频数据；

8、根据预设时间段，对所述第一音频数据进行分割，得到第二音频数据；

9、分别对所述第一音频数据和所述第二音频数据进行语音识别，得到第一文本信息和第二文本信息；

10、基于大模型，根据第一文本信息来识别并修正第二文本信息中的错误，得到第三文本信息；

11、基于大模型，根据所述第三文本信息，提取出能将音频分段的关键字词及其对应的音频时间段；

12、根据所述音频时间段对所述第一视频数据进行分割，得到第二视频数据和对应的文本描述。

13、作为上述方案的改进，所述根据所述第三文本信息，提取出能将音频分段的关键字词及其对应的音频时间段，包括：

14、对第三文本信息进行文本解析和文本预处理，得到第四文本信息；

15、通过自然语言处理技术，从所述第四文本信息中提取第一关键字词；

16、计算所述第一关键字词与音频分段的相关性，获取所述第一关键字词在文本中的角色属性；

17、根据所述相关性和所述角色属性，从所述第一关键字词中筛选出第二关键字词，并获取所述第二关键字词对应的音频时间段。

18、作为上述方案的改进，所述文本解析和文本预处理，包括标准化文本、识别语言结构、识别语言特征。

19、作为上述方案的改进，所述采用帧差法，从所述第二视频数据中提取候选帧，包括：

20、对所述第二视频数据进行预处理，得到一系列连续的视频帧，计算相邻帧的差异值；

21、在所述视频帧上应用滑动窗口，获取每个窗口内所述差异值最大的局部点；

22、获取所述局部点对应的帧，作为候选帧。

23、作为上述方案的改进，所述提示包括对动作的开始状态、中间状态、结束状态的过程描述。

24、作为上述方案的改进，所述基于大模型和提示，根据所述文本描述，从所述候选帧中提取表示动作的开始、中间、结束这三个状态的关键帧，包括：

25、对所述候选帧进行编号后，匹配所述文本描述和所述候选帧，共同作为大模型的输入；

26、基于提示，大模型通过分析所述文本描述来解析动作，并从所述候选帧中为所述动作匹配三个关键帧；

27、大模型返回所述关键帧对应的编号及动作；

28、其中，所述关键帧分别是表示动作的开始状态、中间状态、结束状态的图像。

29、为实现上述目的，本专利技术实施例还提供了一种基于大模型的关键帧提取装置，包括：

30、视频分割模块，用于获取第一视频数据，基于语音识别技术和大模型进行视频分割，得到第二视频数据和对应的文本描述；

31、候选帧获取模块，用于采用帧差法，从所述第二视频数据中提取候选帧；

32、关键帧获取模块，用于基于大模型和提示，从所述候选帧中提取表示动作的开始、中间、结束这三个状态的关键帧。

33、为实现上述目的，本专利技术实施例还提供一种基于大模型的关键帧提取设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现上述基于大模型的关键帧提取方法。

34、为实现上述目的，本专利技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述基于大模型的关键帧提取方法。

35、实施本专利技术实施例，具有如下有益效果：

36、本专利技术实施例提供的基于大模型的关键帧提取方法、装置、设备及存储介质，先获取第一视频数据，基于语音识别技术和大模型，对所述第一视频数据进行分割，得到第二视频数据和对应的文本描述；再采用帧差法，从所述第二视频数据中提取候选帧；最后基于大模型和提示，根据所述文本描述，从所述候选帧中提取表示动作的开始、中间、结束这三个状态的关键帧，能够自动、准确地从视频中提取关键帧，这些关键帧不仅数量适中，而且能够代表视频中的主要动作和事件，并且无需对大模型的参数进行调整，避免了人工干预，从而大幅提高了关键帧自动提取效率，降低成本。

本文档来自技高网...

【技术保护点】

1.一种基于大模型的关键帧提取方法，其特征在于，包括：

2.如权利要求1所述的基于大模型的关键帧提取方法，其特征在于，所述获取第一视频数据，基于语音识别技术和大模型，对所述第一视频数据进行分割，得到第二视频数据和对应的文本描述，包括：

3.如权利要求2所述的基于大模型的关键帧提取方法，其特征在于，所述根据所述第三文本信息，提取出能将音频分段的关键字词及其对应的音频时间段，包括：

4.如权利要求3所述的基于大模型的关键帧提取方法，其特征在于，所述文本解析和文本预处理，包括标准化文本、识别语言结构、识别语言特征。

5.如权利要求1所述的基于大模型的关键帧提取方法，其特征在于，所述采用帧差法，从所述第二视频数据中提取候选帧，包括：

6.如权利要求1所述的基于大模型的关键帧提取方法，其特征在于，所述提示包括对动作的开始状态、中间状态、结束状态的过程描述。

7.如权利要求1所述的基于大模型的关键帧提取方法，其特征在于，所述基于大模型和提示，根据所述文本描述，从所述候选帧中提取表示动作的开始、中间、结束这三个状态的关键帧，包括：

8.一种基于大模型的关键帧提取装置，其特征在于，包括：

9.一种基于大模型的关键帧提取设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如权利要求1～7任一项所述的基于大模型的关键帧提取方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1～7任一项所述的基于大模型的关键帧提取方法。

...

【技术特征摘要】

1.一种基于大模型的关键帧提取方法，其特征在于，包括：

4.如权利要求3所述的基于大模型的关键帧提取方法，其特征在于，所述文本解析和文本预处理，包括标准化文本、识别语言结构、识别语言特征。

5.如权利要求1所述的基于大模型的关键帧提取方法，其特征在于，所述采用帧差法，从所述第二视频数据中提取候选帧，包括：

6.如权利要求1所述的基于大模型的关键帧提取方法，其特征在于，所述提示...

【专利技术属性】
技术研发人员：谢雪梅，柯昌文，张鹏，兰宁，
申请(专利权)人：西安电子科技大学广州研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人