一种视频标签分类方法、系统及计算机可读存储介质技术方案

技术编号：34187268 阅读：25 留言：0更新日期：2022-07-17 14:33

本发明专利技术公开了一种视频标签分类方法、系统及计算机可读存储介质，方法包括：提取视频数据的视觉特征和文本特征；将所述视觉特征和文本特征进行多模态融合以获得融合特征；对所述融合特征进行多任务预测以获得预测结果，所述预测结果为已进行分类的视频标签；获取所述视频数据的半结构化数据，并根据所述半结构化数据生成图谱信息；所述图谱信息表征所述视频中各类节点之间的关联信息；基于所述图谱信息对所述预测结果进行修正以获得修正结果。本发明专利技术通过多任务预测以及修正得到更准确的实体标签预测结果，且不需要大规模数据集并且取得了较好的分类性能。较好的分类性能。较好的分类性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频标签分类方法、系统及计算机可读存储介质

[0001]本专利技术是关于人工智能和深度学习领域，特别是关于一种视频标签分类方法、系统及计算机可读存储介质。

技术介绍

[0002]随着通信和网速的发展，视频成了信息的另一种流行的媒介方式。视频数量的激增使得对视频进行内容理解、做层级分类的标签成为一种有效的管理方式。基于视频感知方式的多样性，一个完整的视频标签层级分类算法，应该包括视频的模态抽取和多模态内容理解两个部分。针对多模态内容的理解，一般从视觉和文本模态入手，训练联合模型共同推断视频内容。根据实践的经验发现，当前影视场景下的视频标签分类模型存在以下两个问题：
[0003]1)数据标注少。互联网用户上传的视频在内容和质量方面存在很大的差异，用户生成的标题通常不完整或者模棱两可，并且可能包含错误。因此虽然有很多的视频影视剧，但是高质量数据标注量较少。
[0004]2)实体标签细粒度不够，识别准确率不高。现有研究通常适用于粗粒度的分类，如考虑到类型、题材等划分粒度，虽然当前一些视频分类的基线模型在影视场景下整体的标签识别上得到不错的效果，但对于一些在视觉上相似的剧集处理的不好，需要增加特征做进一步识别，人物、场景等因素同样需要考虑。
[0005]公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

技术实现思路

[0006]本专利技术的目的在于提供一种视频标签分类方法、系统及计...

【技术保护点】

【技术特征摘要】
1.一种视频标签分类方法，其特征在于，所述方法包括：提取视频数据的视觉特征和文本特征；将所述视觉特征和文本特征进行多模态融合以获得融合特征；对所述融合特征进行多任务预测以获得预测结果，所述预测结果为已进行分类的视频标签；获取所述视频数据的半结构化数据，并根据所述半结构化数据生成图谱信息；所述图谱信息表征所述视频中各类节点之间的关联信息；基于所述图谱信息对所述预测结果进行修正以获得修正结果。2.如权利要求1所述的一种视频标签分类方法，其特征在于，提取视频数据的视觉特征和文本特征包括：对所述视频数据进行抽帧处理以获得视频帧图像，根据所述视频帧图像抽取所述视觉特征；对所述视频数据中的文本信息进行预处理以形成语料集合，基于所述语料集合抽取所述文本特征。3.如权利要求2所述的一种视频标签分类方法，其特征在于，所述预处理包括：分词处理以及停用词处理。4.如权利要求2所述的一种视频标签分类方法，其特征在于，根据所述视频帧图像抽取所述视觉特征包括：获取视频帧图像的图片编码{r1，r2，...，r
n
}并将所述图片编码切分为若干个图像分支；基于所述图像分支获得视觉特征Emb
i
；基于所述语料集合抽取所述文本特征包括：获取语料集合的文本序列{w1，w2，...，w
n
}并将所述文本序列切分为多个文本分支；基于所述文本分支获得文本特征Emb
t
。5.如权利要求1所述的一种视频标签分类方法，其特征在于，将所述视觉特征和文本特征进行多模态融合以获得融合特征包括：学习视觉特征以及文本特征的交互特征；基于所述交互特征获得融合特征。6.如权利要求1所述的一种视频标签分类方...

【专利技术属性】
技术研发人员：蒋洪迅，张琳，
申请(专利权)人：中国人民大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人