基于多模态大模型的视频处理方法、装置、设备及介质制造方法及图纸

技术编号：44567672 阅读：25 留言：0更新日期：2025-03-11 14:25

本申请涉及计算机视觉技术领域，尤其涉及一种基于多模态大模型的视频处理方法、装置、设备及介质。在利用多模态大模型对视频进行处理时，不仅将视频中的每个图像帧的特征均输入到了多模态大模型中的大语言模型，还将待提升图像帧中的关键子图像对应的特征输入到了大语言模型中，使大语言模型在进行处理时能够清楚该关键子图像中包括的信息，进而提高了多模态大模型对视频进行处理的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机视觉，尤其涉及一种基于多模态大模型的视频处理方法、装置、设备及介质。

技术介绍

1、随着多模态大模型技术的发展，越来越多的行业利用多模态大模型对视频进行处理。但是，由于多模态大模型的模型架构的限制，输入的token数量受限，因此输入到多模态大模型中的视频的每个图像帧的分辨率不能过大，一般将每个图像帧压缩为448*448分辨率。但是低分辨率的图像帧又不能很好的保留图像细节，从而影响多模态大模型对视频的处理结果。

2、因此，如何提高多模态大模型对视频的处理的准确率成为亟待解决的问题。

技术实现思路

1、本申请实施例提供了一种基于多模态大模型的视频处理方法、装置、设备及介质，用以解决现有技术中多模态大模型对视频处理的准确率低的问题。

2、本申请提供了一种基于多模态大模型的视频处理方法，所述多模态大模型包括输入层、视觉编码器、特征处理层、多层感知器和大语言模型，所述方法包括：

3、所述输入层在接收到的视频中选取至少一个图像帧作为待提升图像帧，将所...

【技术保护点】

1.一种基于多模态大模型的视频处理方法，其特征在于，所述多模态大模型包括输入层、视觉编码器、特征处理层、多层感知器和大语言模型，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述输入层在接收到的视频中选取至少一个图像帧作为待提升图像帧，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述待提升图像帧拆分为多个子图像，包括：

4.根据权利要求3所述的方法，其特征在于，所述第一拆分比例的确定过程，包括：

5.根据权利要求4所述的方法，其特征在于，所述每个候选拆分比例的确定过程，包括：

6.根据权利要求1-5任一项...

【技术特征摘要】

2.根据权利要求1所述的方法，其特征在于，所述输入层在接收到的视频中选取至少一个图像帧作为待提升图像帧，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述待提升图像帧拆分为多个子图像，包括：

4.根据权利要求3所述的方法，其特征在于，所述第一拆分比例的确定过程，包括：

5.根据权利要求4所述的方法，其特征在于，所述每个候选拆分比例的确定过程，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述将所述待提升图像帧拆分为多个子图像之后，所述将每个子图像、所述待提升图像帧以及所述视频中的其他图像帧调整到预设分辨率后输入到所...

【专利技术属性】
技术研发人员：刘晓潇，鞠全永，李广琴，郑维学，刘微，赵宇奔，周钊，夏婷，
申请(专利权)人：青岛海信电子技术服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人