【技术实现步骤摘要】
本专利技术涉及计算机视觉和自然语言处理交叉的人工智能,尤其涉及一种视频内容识别自动分类的方法及系统。
技术介绍
1、目前,视频内容识别与自动分类技术多采用单一模态数据处理策略,例如基于图像序列的视觉特征提取或基于音频信号的分析。然而,这些传统方法在处理多模态复杂内容方面存在显著局限。首先,单模态特征表达无法全面捕捉视频内容中的语义多样性和情境信息,特别在涉及多场景或多人物的复杂视频中,识别精度和分类鲁棒性均受到限制。此外,现有方法通常缺乏对时空依赖性和动态特征的建模,无法充分捕捉连续帧间的时序变化,从而影响对动态情节的准确解析。
2、对于包含字幕或描述性文本的视频,传统方法往往未能有效整合自然语言处理(nlp)技术以充分利用文本信息,这导致视觉、音频、文本模态之间的跨模态特征关联较弱,难以提升分类效果。即便有部分方法引入文本特征,目前的多模态融合方式大多基于简单的拼接或加权求和,未充分采用深度学习的自适应融合机制,因此在信息整合时易出现模态间的信息损失。此外,由于现有技术缺乏强大的多模态特征融合算法,导致分类结果缺乏上下文关
...【技术保护点】
1.一种视频内容识别自动分类的方法,其特征在于:包括如下步骤,
2.根据权利要求1所述的视频内容识别自动分类的方法,其特征在于:步骤S1具体包括如下内容,
3.根据权利要求2所述的视频内容识别自动分类的方法,其特征在于:步骤S11中,采用大量标注好的视频数据对卷积神经网络模型进行训练,以学习到有效的视觉特征表示,训练过程中采用随机梯度下降以及交叉熵损失函数进行参数寻优,最终获取预训练的卷积神经网络模型;
4.根据权利要求2所述的视频内容识别自动分类的方法,其特征在于:步骤S13具体为,对视频的字幕或文本描述进行分词、去停用词、词干提
...【技术特征摘要】
1.一种视频内容识别自动分类的方法,其特征在于:包括如下步骤,
2.根据权利要求1所述的视频内容识别自动分类的方法,其特征在于:步骤s1具体包括如下内容,
3.根据权利要求2所述的视频内容识别自动分类的方法,其特征在于:步骤s11中,采用大量标注好的视频数据对卷积神经网络模型进行训练,以学习到有效的视觉特征表示,训练过程中采用随机梯度下降以及交叉熵损失函数进行参数寻优,最终获取预训练的卷积神经网络模型;
4.根据权利要求2所述的视频内容识别自动分类的方法,其特征在于:步骤s13具体为,对视频的字幕或文本描述进行分词、去停用词、词干提取操作,采用词袋模型,将处理后的文本表示为一个向量,向量的每个元素表示一个单词在文本中出现的次数;或者采...
【专利技术属性】
技术研发人员:陈鹏,张华伟,
申请(专利权)人:新壹北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。