一种基于视觉模型的大语言模型视频时序定位方法及产品技术

技术编号：40921881 阅读：3 留言：0更新日期：2024-04-18 14:46

本申请提供一种基于视觉模型的大语言模型视频时序定位方法及产品，涉及人工智能技术领域，包括：获取目标视频以及与目标视频对应的输入文本；基于目标视频，获取多个视频帧图像，将每个视频帧图像输入视觉模型，基于视觉模型获取多个视频帧图像对应的视觉描述信息；基于目标视频以及输入文本对多个视频帧图像对应的视觉描述信息进行整合处理，得到视觉描述序列；将视觉描述序列输入大语言模型，输出视频数据定位结果。本申请通过将视频信息转换为文本属性的视觉描述信息，并基于视觉模型获取目标视频中每一帧对应的时序内容，保证大语言模型能够从文本信息中获取充足的时序信息特征，有效提升大语言模型对于视频时序定位任务的处理性能。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及人工智能，具体而言，涉及一种基于视觉模型的大语言模型视频时序定位方法及产品。

技术介绍

1、大语言模型是一种在大量文本数据上进行训练的人工智能模型，可以执行广泛的任务，包括文本总结、翻译、推理和情感分析等。随着近些年的发展，大语言模型已经延拓应用到动态图处理、视觉问题回答、强化学习等许多不局限于自然语言处理的任务，展现了相当的泛化能力，尤其是将大语言模型应用于视频时序定位等多模态任务成为一个热门方向。

2、然而，现有的大语言模型执行视频时序定位任务需要通过结合视觉模型组成视频大模型来实现，其中的视觉模型使其能够处理视频图片内容，但是视觉模型注重于视频内容中发生事物的综合描述，而对视频内容中具体事物的时序信息内容关注相对较少，这使得大视频模型处理视频时序定位任务的性能较差。因此，如何提升大语言模型处理视频时序定位任务的性能，成为本领域当前亟待解决的问题。

技术实现思路

1、本申请实施例在于提供一种基于视觉模型的大语言模型视频时序定位方法及产品，旨在解决如何提升大语言模型处理视频时序定位任务的性能的问题。

2、本申请实施例第一方面提供一种基于视觉模型的大语言模型视频时序定位方法，所述方法包括：

3、获取目标视频以及与所述目标视频对应的输入文本；

4、基于所述目标视频，获取多个视频帧图像，将每个视频帧图像输入视觉模型，基于所述视觉模型获取多个视频帧图像对应的视觉描述信息，所述视觉描述信息为表征每个视频帧图像的图像内容的文本信息；

5、基于所述目标视频以及输入文本对所述多个视频帧图像对应的视觉描述信息进行整合处理，得到视觉描述序列；

6、将所述视觉描述序列输入大语言模型，以对所述视觉描述序列进行时序定位预测，输出视频数据定位结果。

7、在一种可选的实施方式中，所述基于所述目标视频，获取多个视频帧图像，将每个视频帧图像输入视觉模型，基于所述视觉模型获取多个视频帧图像对应的视觉描述信息，包括：

8、获取所述目标视频的总时长；

9、基于所述总时长，确定预设采样时长，并以所述预设采样时长为基准对所述目标视频进行帧采样，得到所述多个视频帧图像；

10、将所述每个视频帧图像输入所述视觉模型，从所述视觉模型的语料库中确定所述每个视频帧图像针对第一问题的单词文本序列，作为第一答案信息，所述第一问题用于表征对图像内容的问询；

11、将所述第一答案信息作为所述视觉描述信息。

12、在一种可选的实施方式中，在获取第一答案信息之后，所述方法还包括：

13、将所述输入文本输入所述视觉模型，以使所述视觉模型基于所述输入文本中的关键词生成第二问题，所述第二问题用于表征对图像是否发生对应所述输入文本对应事件的问询；

14、将所述每个视频帧图像输入所述视觉模型，确定所述每个视频帧图像针对所述第二问题的第二答案信息；

15、将所述第一答案信息和所述第二答案信息组合为所述视觉描述信息。

16、在一种可选的实施方式中，所述基于所述目标视频以及输入文本对所述多个视频帧图像对应的视觉描述信息进行整合处理，得到视觉描述序列，包括：

17、基于所述目标视频确定所述多个视频帧图像分别对应的时间节点信息；

18、将所述每个视频帧图像对应的时间节点信息添加到每个视频帧图像对应的视觉描述信息中；

19、以所述时间节点信息为基准，对所述多个视频帧图像对应的视觉描述信息进行排序，得到所述多个视频帧图像对应的文本描述序列；

20、基于所述输入文本生成大语言问题语料，将所述大语言问题语料与所述多个视频帧图像对应的文本描述序列组合为所述视觉描述序列。

21、在一种可选的实施方式中，将所述视觉描述序列输入大语言模型，以对所述视觉描述序列进行时序定位预测，输出视频数据定位结果，包括：

22、将所述视觉描述序列以及所述输入文本所述输入大语言模型，获取时序视觉特征，所述时序视觉特征为表征所述视觉描述序列中相邻时间节点信息对应的视觉描述信息的发生变化的特征；

23、以所述大语言问题语料为基准，基于所述时序视觉特征对所述视觉描述序列进行时序定位预测，从所述时间节点信息中筛选出起始时间节点信息和终止时间节点信息；

24、将所述起始时间节点信息和所述终止时间节点信息组合为所述视频数据定位结果进行输出。

25、本申请实施例第二方面提供一种基于视觉模型的大语言模型视频时序定位系统，所述系统包括：

26、视频读取单元，用于获取目标视频以及与所述目标视频对应的输入文本，并将所述目标视频以及所述输入文本发送至视频描述生成单元和prompt指引生成单元；

27、所述视频描述生成单元，用于接收所述视频读取单元发送的所述目标视频以及所述输入文本，基于所述目标视频获取多个视频帧图像；并根据所述多个视频帧图像获取多个视频帧图像对应的视觉描述信息发送至所述prompt指引生成单元，所述视觉描述信息为表征每个视频帧图像的图像内容的文本信息；

28、所述prompt指引生成单元，用于接收所述视频描述单元发送的所述视觉描述信息、以及所述视频读取单元发送的所述目标视频和输入文本；基于所述目标视频以及输入文本对所述多个视频帧图像对应的视觉描述信息进行整合处理，得到视觉描述序列发送至大语言处理单元；

29、所述大语言处理单元，用于接收所述prompt指引生成单元发送的所述视觉描述序列，对所述视觉描述序列进行时序定位预测，输出视频数据定位结果。

30、本申请实施例第三方面提供一种基于视觉模型的大语言模型视频时序定位装置，所述装置包括：

31、获取模块，用于获取目标视频以及与所述目标视频对应的输入文本；

32、视觉描述模块，用于基于所述目标视频，获取多个视频帧图像，将每个视频帧图像输入视觉模型，基于所述视觉模型获取多个视频帧图像对应的视觉描述信息，所述视觉描述信息为表征每个视频帧图像的图像内容的文本信息；

33、整合模块，用于基于所述目标视频以及输入文本对所述多个视频帧图像对应的视觉描述信息进行整合处理，得到视觉描述序列；

34、预测模块，用于将所述视觉描述序列输入大语言模型，以对所述视觉描述序列进行时序定位预测，输出视频数据定位结果。

35、在一种可选的实施方式中，所述视频描述模块，包括：

36、总时长子模块，用于获取所述目标视频的总时长；

37、采样时长子模块，用于基于所述总时长，确定预设采样时长，并以所述预设采样时长为基准对所述目标视频进行帧采样，得到所述多个视频帧图像；

38、第一答案信息子模块，用于将所述每个视频帧图像输入所述视觉模型，从所述视觉模型的语料库中确定所述每个视频帧图像针对第一问题的单词文本序列，作为第一答案信息，所述第一问题用于表征对图像内容的问询本文档来自技高网...

【技术保护点】

1.一种基于视觉模型的大语言模型视频时序定位方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于视觉模型的大语言模型视频时序定位方法，其特征在于，所述基于所述目标视频，获取多个视频帧图像，将每个视频帧图像输入视觉模型，基于所述视觉模型获取多个视频帧图像对应的视觉描述信息，包括：

3.根据权利要求2所述的基于视觉模型的大语言模型视频时序定位方法，其特征在于，在获取第一答案信息之后，所述方法还包括：

4.根据权利要求1所述的基于视觉模型的大语言模型视频时序定位方法，其特征在于，所述基于所述目标视频以及输入文本对所述多个视频帧图像对应的视觉描述信息进行整合处理，得到视觉描述序列，包括：

5.根据权利要求4所述的基于视觉模型的大语言模型视频时序定位方法，其特征在于，将所述视觉描述序列输入大语言模型，以对所述视觉描述序列进行时序定位预测，输出视频数据定位结果，包括：

6.一种基于视觉模型的大语言模型视频时序定位系统，其特征在于，所述系统包括：

7.一种基于视觉模型的大语言模型视频时序定位装置，其特征在于，所述装置包括：

8.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现权利要求1-5中任一所述的基于视觉模型的大语言模型视频时序定位方法中的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-5中任一所述的基于视觉模型的大语言模型视频时序定位方法中的步骤。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-5中任一项所述的基于视觉模型的大语言模型视频时序定位方法中的步骤。

...

【技术特征摘要】

1.一种基于视觉模型的大语言模型视频时序定位方法，其特征在于，所述方法包括：

3.根据权利要求2所述的基于视觉模型的大语言模型视频时序定位方法，其特征在于，在获取第一答案信息之后，所述方法还包括：

5.根据权利要求4所述的基于视觉模型的大语言模型视频时序定位方法，其特征在于，将所述视觉描述序列输入大语言模型，以对所述视觉描述序列进行时序定位预测...

【专利技术属性】
技术研发人员：朱文武，王鑫，冯惟，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人