【技术实现步骤摘要】
一种基于多模态特征的视频分类方法
[0001]本专利技术涉及视频分类
,特别是涉及一种基于多模态特征的视频分类方法。
技术介绍
[0002]近年来,随着移动互联网技术的飞速发展,使得短视频成为日常生活中极为重要的一种信息传播方式。由于短视频信息的大量涌入,使得用户日常所面对的信息量呈现爆炸式的增长,如何对海量的短视频内容进行准确的分类,让用户可以更好的选择喜欢的视频或者推荐给用户相应的视频,是亟待解决的技术问题。
技术实现思路
[0003]本专利技术目的在于,提供一种基于多模态特征的视频分类方法,通过对视频中视觉、文本和语音三种不同模态的信息进行建模分析处理,并进一步融合各模态的特征信息实现了对短视频内容的准确分类。
[0004]根据本专利技术,提供了一种基于多模态特征的视频分类方法,包括以下步骤:
[0005]S100,使用视频时序特征抽取模型抽取目标视频vid的视频时序特征F
ts
;将F
ts
进行聚合得到vid的第一特征向量F
v
。
[0006]S200,将vid转换为wav格式的音频数据aud;使用音频特征抽取模型抽取aud的音频时序特征F
as
;将F
as
进行聚合得到vid的第二特征向量F
a
。
[0007]S300,按照预设频次对vid进行视频帧图像抽取,得到视频帧图像集合img;提取img中的字幕文本信息text
ocr
,并对t ...
【技术保护点】
【技术特征摘要】
1.一种基于多模态特征的视频分类方法,其特征在于,包括以下步骤:S100,使用视频时序特征抽取模型抽取目标视频vid的视频时序特征F
ts
;将F
ts
进行聚合得到vid的第一特征向量F
v
;S200,将vid转换为wav格式的音频数据aud;使用音频特征抽取模型抽取aud的音频时序特征F
as
;将F
as
进行聚合得到vid的第二特征向量F
a
;S300,按照预设频次对vid进行视频帧图像抽取,得到视频帧图像集合img;提取img中的字幕文本信息text
ocr
,并对text
ocr
进行去重处理,得到去重后的字幕文本信息text
’
ocr
;将text
’
ocr
与vid的文本标题text
title
进行合并,得到合并后的文本text;使用词向量模型对text进行向量化处理,得到text的文本特征t
vec
;将t
vec
输入自然语言处理模型中,将自然语言处理模型的最后一层隐藏层的输出作为vid的第三特征向量F
t
;S400,将F
v
、F
a
和F
t
输入到经训练的第一神经网络模型,得到对vid的一级标签分类结果;所述第一神经网络模型包括第一子模型、第二子模型、第三子模型和第四子模型,所述第一子模型、第二子模型和第三子模型均由三层全连接层组成,所述第一子模型用于获取F
v
和F
a
的第一关联关系F
va
,所述第二子模型用于获取F
t
和F
v
的第二关联关系F
tv
,所述第三子模型用于获取F
a
和F
t
的第三关联关系F
at
;所述第四子模型采用SE Context Gating网络模型,所述第四子模型用于对F
va
、F
tv
和F
at
进行深层特征融合,并根据融合结果对vid进行一级标签分类...
【专利技术属性】
技术研发人员:郭鸿飞,马先钦,李雪,刘宏宇,蔡昌艳,王璋盛,曹家,罗引,王磊,
申请(专利权)人:北京中科闻歌科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。