视频对话及模型训练方法、装置、设备和存储介质制造方法及图纸

技术编号：40073673 阅读：7 留言：0更新日期：2024-01-17 00:35

本公开提供了一种视频对话及模型训练方法、装置、设备和存储介质，涉及人工智能技术领域，具体为计算机视觉、深度学习、大模型等技术领域，可应用于AIGC等场景。视频对话方法包括：对目标视频进行表征提取处理，以获得所述目标视频的初始视频表征；对所述初始视频表征进行时空处理，以获得所述目标视频的目标视频表征；对所述目标视频表征进行转换处理，以获得所述目标视频的视频嵌入；其中，所述视频嵌入的维度与问题文本的文本嵌入的维度相同；对所述视频嵌入和所述文本嵌入进行对话处理，以获得答案文本。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，具体为计算机视觉、深度学习、大模型等，可应用于aigc等场景，尤其涉及一种视频对话及模型训练方法、装置、设备和存储介质。

技术介绍

1、以视觉为中心的多模态对话系统是一个重要的研究领域。这类对话系统通常使用预训练的大型语言模型(large language model，llm)，结合图像编码器和其他可学习模块，与用户进行对话来执行图像相关任务。

2、上述方案主要是针对图像进行对话。如何将上述方案应用到视频场景下实现视频对话，是需要解决的问题。

技术实现思路

1、本公开提供了一种视频对话及模型训练方法、装置、设备和存储介质。

2、根据本公开的一方面，提供了一种视频对话方法，包括：对目标视频进行表征提取处理，以获得所述目标视频的初始视频表征；对所述初始视频表征进行时空处理，以获得所述目标视频的目标视频表征；对所述目标视频表征进行转换处理，以获得所述目标视频的视频嵌入；其中，所述视频嵌入的维度与问题文本的文本嵌入的维度相同；对所述视频嵌入和所述文本嵌入进行对话处理，以获得答案文本。

3、根据本公开的另一方面，提供了一种视频对话模型的训练方法，所述视频对话模型包括：运算时序模块，所述方法包括：对视频样本进行表征提取处理，以获得所述视频样本的初始视频表征；采用所述运算时序模块，对所述初始视频表征进行时空处理，以获得所述视频样本的目标视频表征；对所述目标视频表征进行转换处理，以获得所述视频样本的视频嵌入；其中，所述视频嵌入的维度与问题样本

4、根据本公开的另一方面，提供了一种视频对话装置，包括：提取模块，用于对目标视频进行表征提取处理，以获得所述目标视频的初始视频表征；处理模块，用于对所述初始视频表征进行时空处理，以获得所述目标视频的目标视频表征；转换模块，用于对所述目标视频表征进行转换处理，以获得所述目标视频的视频嵌入；其中，所述视频嵌入的维度与问题文本的文本嵌入的维度相同；生成模块，用于对所述视频嵌入和所述文本嵌入进行对话处理，以获得答案文本。

5、根据本公开的另一方面，提供了一种视频对话模型的训练装置，所述视频对话模型包括：运算时序模块，所述装置包括：提取模块，用于对视频样本进行表征提取处理，以获得所述视频样本的初始视频表征；处理模块，用于采用所述运算时序模块，对所述初始视频表征进行时空处理，以获得所述视频样本的目标视频表征；转换模块，用于对所述目标视频表征进行转换处理，以获得所述视频样本的视频嵌入；其中，所述视频嵌入的维度与问题样本的文本嵌入的维度相同；生成模块，用于对所述视频嵌入和所述文本嵌入进行对话处理，以获得预测答案；构建模块，用于基于所述预测答案构建损失函数；调整模块，用于采用所述损失函数，调整所述运算时序模块的参数。

6、根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。

7、根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。

8、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。

9、根据本公开的技术方案，可以提高视频对话效果。

10、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种视频对话方法，包括：

2.根据权利要求1所述的方法，其中，所述对所述初始视频表征进行时空处理，以获得所述目标视频的目标视频表征，包括：

3.根据权利要求2所述的方法，其中，

4.根据权利要求1所述的方法，其中，所述对所述目标视频表征进行转换处理，以获得所述目标视频的视频嵌入，包括：

5.根据权利要求4所述的方法，其中，所述对所述目标视频表征进行查询处理，以获得查询处理后的视频表征，包括：

6.根据权利要求5所述的方法，其中，所述采用视频对话模型中的查询器，对所述目标视频表征进行查询处理，以获得查询处理后的视频表征，包括：

7.根据权利要求4所述的方法，其中，所述对所述查询处理后的视频表征进行映射处理，以获得所述视频嵌入，包括：

8.根据权利要求1-7任一项所述的方法，其中，所述对所述视频嵌入和所述文本嵌入进行对话处理，以获得答案文本，包括：

9.一种视频对话模型的训练方法，所述视频对话模型包括：运算时序模块，所述方法包括：

10.根据权利要求9所述的方法，其中，p>

11.根据权利要求9所述的方法，其中，所述对所述目标视频表征进行转换处理，以获得所述目标视频的视频嵌入，包括：

12.根据权利要求11所述的方法，其中，

13.根据权利要求12所述的方法，其中，所述采用所述查询器，对所述目标视频表征进行查询处理，以获得查询处理后的视频表征，包括：

14.根据权利要求11所述的方法，其中，

15.根据权利要求9-14任一项所述的方法，其中，

16.一种视频对话装置，包括：

17.根据权利要求16所述的装置，其中，所述处理模块进一步用于：

18.根据权利要求17所述的装置，其中，

19.根据权利要求16所述的装置，其中，所述转换模块进一步用于：

20.根据权利要求19所述的装置，其中，所述转换模块进一步用于：

21.根据权利要求20所述的装置，其中，所述转换模块进一步用于：

22.根据权利要求19所述的装置，其中，所述转换模块进一步用于：

23.根据权利要求16-22任一项所述的装置，其中，所述生成模块进一步用于：

24.一种视频对话模型的训练装置，所述视频对话模型包括：运算时序模块，所述装置包括：

25.根据权利要求24所述的装置，其中，

26.根据权利要求24所述的装置，其中，所述转换模块进一步用于：

27.根据权利要求26所述的装置，其中，

28.根据权利要求26所述的装置，其中，所述转换模块进一步用于：

29.根据权利要求26所述的装置，其中，

30.根据权利要求24-29任一项所述的装置，其中，

31.一种电子设备，包括：

32.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-15中任一项所述的方法。

33.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-15中任一项所述的方法。

...

【技术特征摘要】