一种视频标签分类方法、系统及计算机可读存储介质技术方案

技术编号:34187268 阅读:25 留言:0更新日期:2022-07-17 14:33
本发明专利技术公开了一种视频标签分类方法、系统及计算机可读存储介质,方法包括:提取视频数据的视觉特征和文本特征;将所述视觉特征和文本特征进行多模态融合以获得融合特征;对所述融合特征进行多任务预测以获得预测结果,所述预测结果为已进行分类的视频标签;获取所述视频数据的半结构化数据,并根据所述半结构化数据生成图谱信息;所述图谱信息表征所述视频中各类节点之间的关联信息;基于所述图谱信息对所述预测结果进行修正以获得修正结果。本发明专利技术通过多任务预测以及修正得到更准确的实体标签预测结果,且不需要大规模数据集并且取得了较好的分类性能。较好的分类性能。较好的分类性能。

【技术实现步骤摘要】
一种视频标签分类方法、系统及计算机可读存储介质


[0001]本专利技术是关于人工智能和深度学习领域,特别是关于一种视频标签分类方法、系统及计算机可读存储介质。

技术介绍

[0002]随着通信和网速的发展,视频成了信息的另一种流行的媒介方式。视频数量的激增使得对视频进行内容理解、做层级分类的标签成为一种有效的管理方式。基于视频感知方式的多样性,一个完整的视频标签层级分类算法,应该包括视频的模态抽取和多模态内容理解两个部分。针对多模态内容的理解,一般从视觉和文本模态入手,训练联合模型共同推断视频内容。根据实践的经验发现,当前影视场景下的视频标签分类模型存在以下两个问题:
[0003]1)数据标注少。互联网用户上传的视频在内容和质量方面存在很大的差异,用户生成的标题通常不完整或者模棱两可,并且可能包含错误。因此虽然有很多的视频影视剧,但是高质量数据标注量较少。
[0004]2)实体标签细粒度不够,识别准确率不高。现有研究通常适用于粗粒度的分类,如考虑到类型、题材等划分粒度,虽然当前一些视频分类的基线模型在影视场景下整体的标签识别上得到不错的效果,但对于一些在视觉上相似的剧集处理的不好,需要增加特征做进一步识别,人物、场景等因素同样需要考虑。
[0005]公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

技术实现思路

[0006]本专利技术的目的在于提供一种视频标签分类方法、系统及计算机可读存储介质,其能够通过图谱信息对视频内容进行更深入的理解,再通过两阶段模型的训练和推断来完成更细粒度的识别。
[0007]为实现上述目的,本专利技术提供了一种视频标签分类方法,所述方法包括:
[0008]提取视频数据的视觉特征和文本特征;
[0009]将所述视觉特征和文本特征进行多模态融合以获得融合特征;
[0010]对所述融合特征进行多任务预测以获得预测结果,所述预测结果为已进行分类的视频标签;
[0011]获取所述视频数据的半结构化数据,并根据所述半结构化数据生成图谱信息;所述图谱信息表征所述视频中各类节点之间的关联信息;
[0012]基于所述图谱信息对所述预测结果进行修正以获得修正结果。
[0013]优选的,提取视频数据的视觉特征和文本特征包括:
[0014]对所述视频数据进行抽帧处理以获得视频帧图像,根据所述视频帧图像抽取所述视觉特征;
[0015]对所述视频数据中的文本信息进行预处理以形成语料集合,基于所述语料集合抽取所述文本特征。
[0016]优选的,所述预处理包括:分词处理以及停用词处理。
[0017]优选的,根据所述视频帧图像抽取所述视觉特征包括:获取视频帧图像的图片编码{r1,r2,...,r
n
}并将所述图片编码切分为若干个图像分支;基于所述图像分支获得视觉特征Emb
i

[0018]基于所述语料集合抽取所述文本特征包括:获取语料集合的文本序列{w1,w2,...,w
n
}并将所述文本序列切分为多个文本分支;基于所述文本分支获得文本特征Emb
t

[0019]优选的,将所述视觉特征和文本特征进行多模态融合以获得融合特征包括:
[0020]学习视觉特征以及文本特征的交互特征;
[0021]基于所述交互特征获得融合特征。
[0022]优选的,对所述融合特征进行多任务预测以获得预测结果包括:
[0023]所述融合特征经过若干个全连接层后分别输入到分类网络和相似性网络,以在所述分类网络和相似性网络同时进行训练;
[0024]将所述分类网络和相似性网络分别输出的训练结果进行加权组合以获得预测结果。
[0025]优选的,所述方法还包括:所述分类网络通过分类损失函数对所述融合特征进行训练,所述相似性网络通过度量学习损失函数对所述融合特征进行训练。
[0026]优选的,基于所述图谱信息对所述预测结果进行修正以获得修正结果包括:
[0027]构建邻接矩阵,所述邻接矩阵中包括邻居节点以及非邻居节点,其中,所述邻居节点的注意力置为1,非邻居节点的注意力置为0;所述邻居节点为图谱信息与预测结果有连接关系的节点;
[0028]计算所述邻接矩阵的概率分布,根据最高概率的节点获得修正结果。
[0029]本专利技术提供了一种视频标签分类系统,所述系统包括:
[0030]特征提取单元,用于提取视频数据的视觉特征和文本特征;
[0031]融合单元,用于将所述视觉特征和文本特征进行多模态融合以获得融合特征;
[0032]标签分类单元,用于对所述融合特征进行多任务预测以获得预测结果,所述预测结果为已进行分类的视频标签;
[0033]数据获取单元,用于获取所述视频数据的半结构化数据,并根据所述半结构化数据生成图谱信息;所述图谱信息表征所述视频中各类节点之间的关联信息;
[0034]修正单元,用于基于所述图谱信息对所述预测结果进行修正以获得修正结果。
[0035]本专利技术提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的一种视频标签分类方法的步骤。
[0036]与现有技术数据标注少、细粒度识别准确率不高的问题相比,根据本专利技术的视频标签分类方法通过标签预测模型和实体纠错模型的训练和推断来完成更细粒度的识别且不需要大规模数据集就取得了较好的分类性能。
附图说明
[0037]图1是根据本专利技术一实施方式的一种视频标签分类方法流程图;
[0038]图2是根据本专利技术一实施方式的多任务网络层的结构图;
[0039]图3是根据本专利技术一实施方式的一种视频标签分类系统结构图。
具体实施方式
[0040]下面结合附图,对本专利技术的具体实施方式进行详细描述,但应当理解本专利技术的保护范围并不受具体实施方式的限制。
[0041]除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
[0042]如图1所示,根据本专利技术优选实施方式的一种视频标签分类方法,所述方法包括:
[0043]步骤101,提取视频数据的视觉特征和文本特征;其中,视频数据是本专利技术实施例中的训练数据,视觉特征表征视频数据中的图像信息,文本特征表征视频数据中的文本信息,视觉特征和文本特征分别属于不同的模态。
[0044]步骤102,将所述视觉特征和文本特征进行多模态融合以获得融合特征;将步骤101中提取的视觉特征和文本特征两个模态的特征进行特征融合,以生成融合特征。
[0045]步骤103,对所述融合特征进行多任务预测以获得预测结果,所述预测结果为已进行分类的视频本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频标签分类方法,其特征在于,所述方法包括:提取视频数据的视觉特征和文本特征;将所述视觉特征和文本特征进行多模态融合以获得融合特征;对所述融合特征进行多任务预测以获得预测结果,所述预测结果为已进行分类的视频标签;获取所述视频数据的半结构化数据,并根据所述半结构化数据生成图谱信息;所述图谱信息表征所述视频中各类节点之间的关联信息;基于所述图谱信息对所述预测结果进行修正以获得修正结果。2.如权利要求1所述的一种视频标签分类方法,其特征在于,提取视频数据的视觉特征和文本特征包括:对所述视频数据进行抽帧处理以获得视频帧图像,根据所述视频帧图像抽取所述视觉特征;对所述视频数据中的文本信息进行预处理以形成语料集合,基于所述语料集合抽取所述文本特征。3.如权利要求2所述的一种视频标签分类方法,其特征在于,所述预处理包括:分词处理以及停用词处理。4.如权利要求2所述的一种视频标签分类方法,其特征在于,根据所述视频帧图像抽取所述视觉特征包括:获取视频帧图像的图片编码{r1,r2,...,r
n
}并将所述图片编码切分为若干个图像分支;基于所述图像分支获得视觉特征Emb
i
;基于所述语料集合抽取所述文本特征包括:获取语料集合的文本序列{w1,w2,...,w
n
}并将所述文本序列切分为多个文本分支;基于所述文本分支获得文本特征Emb
t
。5.如权利要求1所述的一种视频标签分类方法,其特征在于,将所述视觉特征和文本特征进行多模态融合以获得融合特征包括:学习视觉特征以及文本特征的交互特征;基于所述交互特征获得融合特征。6.如权利要求1所述的一种视频标签分类方...

【专利技术属性】
技术研发人员:蒋洪迅张琳
申请(专利权)人:中国人民大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1