一种视频内容识别自动分类的方法及系统技术方案

技术编号:44855438 阅读:15 留言:0更新日期:2025-04-01 19:47
本发明专利技术公开了一种视频内容识别自动分类的方法及系统,方法包括S1、多模态特征提取:基于深度学习模型、音频处理技术和自然语言处理技术分别提取视频数据的视觉特征、音频特征和文本特征;S2、多模态信息融合:采用特征拼接或加权求和或深度学习融合的方式将提取到的视觉特征、音频特征和文本特征进行融合,得到视频的多模态特征表示;S3、视频分类:基于设置有领域对抗神经网络的深度学习分类器,对视频的多模态特征表示进行分类,获取视频的分类结果。优点是:通过采用深度学习算法,结合多模态信息融合技术,能够自动从视频中学习到有效的特征表示,从而提高视频分类的准确性。在复杂场景下,仍能保持较高的准确性。

【技术实现步骤摘要】

本专利技术涉及计算机视觉和自然语言处理交叉的人工智能,尤其涉及一种视频内容识别自动分类的方法及系统


技术介绍

1、目前,视频内容识别与自动分类技术多采用单一模态数据处理策略,例如基于图像序列的视觉特征提取或基于音频信号的分析。然而,这些传统方法在处理多模态复杂内容方面存在显著局限。首先,单模态特征表达无法全面捕捉视频内容中的语义多样性和情境信息,特别在涉及多场景或多人物的复杂视频中,识别精度和分类鲁棒性均受到限制。此外,现有方法通常缺乏对时空依赖性和动态特征的建模,无法充分捕捉连续帧间的时序变化,从而影响对动态情节的准确解析。

2、对于包含字幕或描述性文本的视频,传统方法往往未能有效整合自然语言处理(nlp)技术以充分利用文本信息,这导致视觉、音频、文本模态之间的跨模态特征关联较弱,难以提升分类效果。即便有部分方法引入文本特征,目前的多模态融合方式大多基于简单的拼接或加权求和,未充分采用深度学习的自适应融合机制,因此在信息整合时易出现模态间的信息损失。此外,由于现有技术缺乏强大的多模态特征融合算法,导致分类结果缺乏上下文关联性与语义完整性,难本文档来自技高网...

【技术保护点】

1.一种视频内容识别自动分类的方法,其特征在于:包括如下步骤,

2.根据权利要求1所述的视频内容识别自动分类的方法,其特征在于:步骤S1具体包括如下内容,

3.根据权利要求2所述的视频内容识别自动分类的方法,其特征在于:步骤S11中,采用大量标注好的视频数据对卷积神经网络模型进行训练,以学习到有效的视觉特征表示,训练过程中采用随机梯度下降以及交叉熵损失函数进行参数寻优,最终获取预训练的卷积神经网络模型;

4.根据权利要求2所述的视频内容识别自动分类的方法,其特征在于:步骤S13具体为,对视频的字幕或文本描述进行分词、去停用词、词干提取操作,采用词袋模型...

【技术特征摘要】

1.一种视频内容识别自动分类的方法,其特征在于:包括如下步骤,

2.根据权利要求1所述的视频内容识别自动分类的方法,其特征在于:步骤s1具体包括如下内容,

3.根据权利要求2所述的视频内容识别自动分类的方法,其特征在于:步骤s11中,采用大量标注好的视频数据对卷积神经网络模型进行训练,以学习到有效的视觉特征表示,训练过程中采用随机梯度下降以及交叉熵损失函数进行参数寻优,最终获取预训练的卷积神经网络模型;

4.根据权利要求2所述的视频内容识别自动分类的方法,其特征在于:步骤s13具体为,对视频的字幕或文本描述进行分词、去停用词、词干提取操作,采用词袋模型,将处理后的文本表示为一个向量,向量的每个元素表示一个单词在文本中出现的次数;或者采...

【专利技术属性】
技术研发人员:陈鹏张华伟
申请(专利权)人:新壹北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1