【技术实现步骤摘要】
本申请涉及视频处理领域,尤其涉及一种基于多模态信息融合的视频处理方法、装置、设备及介质。
技术介绍
1、随着近年多媒体视频数据的爆发性增长,对这些海量多媒体视频数据进行理解、检索和分析成为各研究机构和公司的一个重要方向。而视频理解则是其中的预先步骤。
2、现有的视频理解技术包含视频分类、视频内容描述、视频问答等方向,其接收一段视频或者额外的文本作为输入,输出文本或者特定内容。和对图像和文本进行理解不同,视频数据具有数据量大、数据冗余性高、数据呈现多模态、帧间具有时序关联等特点,极大增加了进行理解分析的难度。
3、因此,如何提高视频理解分析准确性成为目前亟待解决的技术问题。
技术实现思路
1、本申请提供了一种基于多模态信息融合的视频处理方法、装置、设备及介质,旨在提高视频理解分析准确性。
2、第一方面,本申请提供一种基于多模态信息融合的视频处理方法,所述基于多模态信息融合的视频处理方法包括以下步骤:
3、基于大语言模型,对视频数据中的语音文本进
...【技术保护点】
1.一种基于多模态信息融合的视频处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于多模态信息融合的视频处理方法,其特征在于,所述基于大语言模型,对视频数据中的语音文本进行文本处理,获得第一语音识别文本,包括:
3.根据权利要求2所述的基于多模态信息融合的视频处理方法,其特征在于,所述基于所述大语言模型,对所述第二语音识别文本进行文本纠错和文本分段处理,获得所述第一语音识别文本之前,还包括:
4.根据根据权利要求2所述的基于多模态信息融合的视频处理方法,其特征在于,所述第二语音识别文本包括语气词、错误识别结果以及识别结
...【技术特征摘要】
1.一种基于多模态信息融合的视频处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于多模态信息融合的视频处理方法,其特征在于,所述基于大语言模型,对视频数据中的语音文本进行文本处理,获得第一语音识别文本,包括:
3.根据权利要求2所述的基于多模态信息融合的视频处理方法,其特征在于,所述基于所述大语言模型,对所述第二语音识别文本进行文本纠错和文本分段处理,获得所述第一语音识别文本之前,还包括:
4.根据根据权利要求2所述的基于多模态信息融合的视频处理方法,其特征在于,所述第二语音识别文本包括语气词、错误识别结果以及识别结果未能分段组织。
5.根据权利要求1所述的基于多模态信息融合的视频处理方法,其特征在于,所述基于所述视频数据的图像特征和所述第一语音识别文本的文本特征,提取所述视频数据中的图像关键帧,包括:
6.根据权利要求5所述的基于多模态信息融合的视频处理方法,其特征在于...
【专利技术属性】
技术研发人员:文威威,
申请(专利权)人:中国平安财产保险股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。