一种基于多模态特征的视频分类方法技术

技术编号:38099219 阅读:11 留言:0更新日期:2023-07-06 09:16
本申请涉及视频分类技术领域,特别是涉及一种基于多模态特征的视频分类方法。所述方法包括以下步骤:S100,抽取目标视频vid的视频时序特征F

【技术实现步骤摘要】
一种基于多模态特征的视频分类方法


[0001]本专利技术涉及视频分类
,特别是涉及一种基于多模态特征的视频分类方法。

技术介绍

[0002]近年来,随着移动互联网技术的飞速发展,使得短视频成为日常生活中极为重要的一种信息传播方式。由于短视频信息的大量涌入,使得用户日常所面对的信息量呈现爆炸式的增长,如何对海量的短视频内容进行准确的分类,让用户可以更好的选择喜欢的视频或者推荐给用户相应的视频,是亟待解决的技术问题。

技术实现思路

[0003]本专利技术目的在于,提供一种基于多模态特征的视频分类方法,通过对视频中视觉、文本和语音三种不同模态的信息进行建模分析处理,并进一步融合各模态的特征信息实现了对短视频内容的准确分类。
[0004]根据本专利技术,提供了一种基于多模态特征的视频分类方法,包括以下步骤:
[0005]S100,使用视频时序特征抽取模型抽取目标视频vid的视频时序特征F
ts
;将F
ts
进行聚合得到vid的第一特征向量F
v

[0006]S200,将vid转换为wav格式的音频数据aud;使用音频特征抽取模型抽取aud的音频时序特征F
as
;将F
as
进行聚合得到vid的第二特征向量F
a

[0007]S300,按照预设频次对vid进行视频帧图像抽取,得到视频帧图像集合img;提取img中的字幕文本信息text
ocr
,并对text
ocr
进行去重处理,得到去重后的字幕文本信息text

ocr
;将text

ocr
与vid的文本标题text
title
进行合并,得到合并后的文本text;使用词向量模型对text进行向量化处理,得到text的文本特征t
vec
;将t
vec
输入自然语言处理模型中,将自然语言处理模型的最后一层隐藏层的输出作为vid的第三特征向量F
t

[0008]S400,将F
v
、F
a
和F
t
输入到经训练的第一神经网络模型,得到对vid的一级标签分类结果;所述第一神经网络模型包括第一子模型、第二子模型、第三子模型和第四子模型,所述第一子模型、第二子模型和第三子模型均由三层全连接层组成,所述第一子模型用于获取F
v
和F
a
的第一关联关系F
va
,所述第二子模型用于获取F
t
和F
v
的第二关联关系F
tv
,所述第三子模型用于获取F
a
和F
t
的第三关联关系F
at
;所述第四子模型采用SE Context Gating网络模型,所述第四子模型用于对F
va
、F
tv
和F
at
进行深层特征融合,并根据融合结果对vid进行一级标签分类。
[0009]本专利技术与现有技术相比具有明显的有益效果,借由上述技术方案,本专利技术提供的方法可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有以下有益效果:
[0010]本专利技术是以目标视频中的图像、文本、语音三种模态数据为基础,分别利用视频时序特征抽取模型、音频特征抽取模型和自然语言处理模型对视频数据进行不同模态特征维
度的分析处理,分别得到了目标视频对应的视觉特征、音频特征和文本特征;本专利技术又充分挖掘了视觉特征、音频特征和文本特征中任意两特征之间的关联关系,并进一步对关联关系进行深层特征融合之后再进行一级标签分类,得到的分类结果更加准确。
附图说明
[0011]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0012]图1为本专利技术实施例提供的基于多模态特征的视频分类方法的流程图。
具体实施方式
[0013]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0014]根据本专利技术,提供了一种基于多模态特征的视频分类方法,如图1所示,包括以下步骤:
[0015]S100,使用视频时序特征抽取模型抽取目标视频vid的视频时序特征F
ts
;将F
ts
进行聚合得到vid的第一特征向量F
v

[0016]目标视频vid中具有较为丰富的时序信息,若是仅利用静态的视频帧进行视觉特征的抽取,往往会忽略了视频中存在的时序特征信息,本专利技术选用了TSN(Temporal Segment Network)模型抽取目标视频vid的固定维度的时序特征信息,抽取的时序特征维度为300
×
2048。本领域技术人员知悉,现有技术中利用任何的视频时序特征抽取模型抽取任何维度的时序特征信息均落入本专利技术的保护范围。本专利技术针对目标视频vid的时序特征抽取表示为:
[0017]F
ts
=TSN(vid)
[0018]其中,TSN()表示利用TSN模型进行视频时序特征抽取。
[0019]由于上述提取的时序视频特征会存在一定的特征冗余,即前后时序特征存在较高的相似性;因此,本专利技术进一步利用NeXtVLAD模型将时序视频特征F
ts
转为1024维的高层语义特征,过程包括:
[0020]S101,将抽取的300
×
2048维视频时序特征F
ts
作为NeXtVLAD模型的输入。
[0021]S102,利用NeXtVLAD模型对300维的时序特征向量进行聚合,得到目标视频的1024维特征向量F
v
。该过程表示为:
[0022]F
v
=NeXtVLAD(F
ts
)
[0023]其中,NeXtVLAD()表示利用NeXtVLAD模型进行聚合。
[0024]S200,将vid转换为wav格式的音频数据aud;使用音频特征抽取模型抽取aud的音频时序特征F
as
;将F
as
进行聚合得到vid的第二特征向量F
a

[0025]音频信息对目标视频的分类也能提供极其重要的特征信息。本专利技术将目标视频
vid数据内容转换为wav格式的音频数据aud,具体转换过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态特征的视频分类方法,其特征在于,包括以下步骤:S100,使用视频时序特征抽取模型抽取目标视频vid的视频时序特征F
ts
;将F
ts
进行聚合得到vid的第一特征向量F
v
;S200,将vid转换为wav格式的音频数据aud;使用音频特征抽取模型抽取aud的音频时序特征F
as
;将F
as
进行聚合得到vid的第二特征向量F
a
;S300,按照预设频次对vid进行视频帧图像抽取,得到视频帧图像集合img;提取img中的字幕文本信息text
ocr
,并对text
ocr
进行去重处理,得到去重后的字幕文本信息text

ocr
;将text

ocr
与vid的文本标题text
title
进行合并,得到合并后的文本text;使用词向量模型对text进行向量化处理,得到text的文本特征t
vec
;将t
vec
输入自然语言处理模型中,将自然语言处理模型的最后一层隐藏层的输出作为vid的第三特征向量F
t
;S400,将F
v
、F
a
和F
t
输入到经训练的第一神经网络模型,得到对vid的一级标签分类结果;所述第一神经网络模型包括第一子模型、第二子模型、第三子模型和第四子模型,所述第一子模型、第二子模型和第三子模型均由三层全连接层组成,所述第一子模型用于获取F
v
和F
a
的第一关联关系F
va
,所述第二子模型用于获取F
t
和F
v
的第二关联关系F
tv
,所述第三子模型用于获取F
a
和F
t
的第三关联关系F
at
;所述第四子模型采用SE Context Gating网络模型,所述第四子模型用于对F
va
、F
tv
和F
at
进行深层特征融合,并根据融合结果对vid进行一级标签分类...

【专利技术属性】
技术研发人员:郭鸿飞马先钦李雪刘宏宇蔡昌艳王璋盛曹家罗引王磊
申请(专利权)人:北京中科闻歌科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1