一种基于多模态特征的视频分类方法技术

技术编号：38099219 阅读：11 留言：0更新日期：2023-07-06 09:16

本申请涉及视频分类技术领域，特别是涉及一种基于多模态特征的视频分类方法。所述方法包括以下步骤：S100，抽取目标视频vid的视频时序特征F

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态特征的视频分类方法

[0001]本专利技术涉及视频分类
，特别是涉及一种基于多模态特征的视频分类方法。

技术介绍

[0002]近年来，随着移动互联网技术的飞速发展，使得短视频成为日常生活中极为重要的一种信息传播方式。由于短视频信息的大量涌入，使得用户日常所面对的信息量呈现爆炸式的增长，如何对海量的短视频内容进行准确的分类，让用户可以更好的选择喜欢的视频或者推荐给用户相应的视频，是亟待解决的技术问题。

技术实现思路

[0003]本专利技术目的在于，提供一种基于多模态特征的视频分类方法，通过对视频中视觉、文本和语音三种不同模态的信息进行建模分析处理，并进一步融合各模态的特征信息实现了对短视频内容的准确分类。
[0004]根据本专利技术，提供了一种基于多模态特征的视频分类方法，包括以下步骤：
[0005]S100，使用视频时序特征抽取模型抽取目标视频vid的视频时序特征F
ts
；将F
ts
进行聚合得到vid的第一特征向量F
v
。
[0006]S200，将vid转换为wav格式的音频数据aud；使用音频特征抽取模型抽取aud的音频时序特征F
as
；将F
as
进行聚合得到vid的第二特征向量F
a
。
[0007]S300，按照预设频次对vid进行视频帧图像抽取，得到视频帧图像集合img；提取img中的字幕文本信息text
ocr
，并对t...

【技术保护点】

【技术特征摘要】
1.一种基于多模态特征的视频分类方法，其特征在于，包括以下步骤：S100，使用视频时序特征抽取模型抽取目标视频vid的视频时序特征F
ts
；将F
ts
进行聚合得到vid的第一特征向量F
v
；S200，将vid转换为wav格式的音频数据aud；使用音频特征抽取模型抽取aud的音频时序特征F
as
；将F
as
进行聚合得到vid的第二特征向量F
a
；S300，按照预设频次对vid进行视频帧图像抽取，得到视频帧图像集合img；提取img中的字幕文本信息text
ocr
，并对text
ocr
进行去重处理，得到去重后的字幕文本信息text
’
ocr
；将text
’
ocr
与vid的文本标题text
title
进行合并，得到合并后的文本text；使用词向量模型对text进行向量化处理，得到text的文本特征t
vec
；将t
vec
输入自然语言处理模型中，将自然语言处理模型的最后一层隐藏层的输出作为vid的第三特征向量F
t
；S400，将F
v
、F
a
和F
t
输入到经训练的第一神经网络模型，得到对vid的一级标签分类结果；所述第一神经网络模型包括第一子模型、第二子模型、第三子模型和第四子模型，所述第一子模型、第二子模型和第三子模型均由三层全连接层组成，所述第一子模型用于获取F
v
和F
a
的第一关联关系F
va
，所述第二子模型用于获取F
t
和F
v
的第二关联关系F
tv
，所述第三子模型用于获取F
a
和F
t
的第三关联关系F
at
；所述第四子模型采用SE Context Gating网络模型，所述第四子模型用于对F
va
、F
tv
和F
at
进行深层特征融合，并根据融合结果对vid进行一级标签分类...

【专利技术属性】
技术研发人员：郭鸿飞，马先钦，李雪，刘宏宇，蔡昌艳，王璋盛，曹家，罗引，王磊，
申请(专利权)人：北京中科闻歌科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人