基于多模态信息融合的视频处理方法、装置、设备及介质制造方法及图纸

技术编号：44563590 阅读：27 留言：0更新日期：2025-03-11 14:22

本申请提供一种基于多模态信息融合的视频处理方法、装置、设备及介质，涉及视频处理领域。本申请方法通过大语言模型对视频中的语音文本进行处理，可以准确识别和转录语音信息，将非结构化的语音数据转换为结构化的文本数据，为后续的分析提供了可操作的文本信息。利用视频数据的图像特征和已获得的语音识别文本的文本特征提取图像关键帧，能够从大量的视频帧中筛选出最具代表性和信息量最大的帧，减少冗余信息，同时确保了视觉信息与语音信息的同步性。基于时间对应关系，将图像关键帧和语音识别文本进行对齐融合，输出多模态融合文本，可以更准确地捕捉视频的时序关联和上下文信息，从而提高视频理解的准确性和深度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及视频处理领域，尤其涉及一种基于多模态信息融合的视频处理方法、装置、设备及介质。

技术介绍

1、随着近年多媒体视频数据的爆发性增长，对这些海量多媒体视频数据进行理解、检索和分析成为各研究机构和公司的一个重要方向。而视频理解则是其中的预先步骤。

2、现有的视频理解技术包含视频分类、视频内容描述、视频问答等方向，其接收一段视频或者额外的文本作为输入，输出文本或者特定内容。和对图像和文本进行理解不同，视频数据具有数据量大、数据冗余性高、数据呈现多模态、帧间具有时序关联等特点，极大增加了进行理解分析的难度。

3、因此，如何提高视频理解分析准确性成为目前亟待解决的技术问题。

技术实现思路

1、本申请提供了一种基于多模态信息融合的视频处理方法、装置、设备及介质，旨在提高视频理解分析准确性。

2、第一方面，本申请提供一种基于多模态信息融合的视频处理方法，所述基于多模态信息融合的视频处理方法包括以下步骤：

3、基于大语言模型，对视频数据中的语音文本进...

【技术保护点】

1.一种基于多模态信息融合的视频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于多模态信息融合的视频处理方法，其特征在于，所述基于大语言模型，对视频数据中的语音文本进行文本处理，获得第一语音识别文本，包括：

3.根据权利要求2所述的基于多模态信息融合的视频处理方法，其特征在于，所述基于所述大语言模型，对所述第二语音识别文本进行文本纠错和文本分段处理，获得所述第一语音识别文本之前，还包括：

4.根据根据权利要求2所述的基于多模态信息融合的视频处理方法，其特征在于，所述第二语音识别文本包括语气词、错误识别结果以及识别结

【技术特征摘要】

1.一种基于多模态信息融合的视频处理方法，其特征在于，所述方法包括：

4.根据根据权利要求2所述的基于多模态信息融合的视频处理方法，其特征在于，所述第二语音识别文本包括语气词、错误识别结果以及识别结果未能分段组织。

5.根据权利要求1所述的基于多模态信息融合的视频处理方法，其特征在于，所述基于所述视频数据的图像特征和所述第一语音识别文本的文本特征，提取所述视频数据中的图像关键帧，包括：

6.根据权利要求5所述的基于多模态信息融合的视频处理方法，其特征在于...

【专利技术属性】
技术研发人员：文威威，
申请(专利权)人：中国平安财产保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人