当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于多模态学习的视频去重方法及装置制造方法及图纸

技术编号:37720359 阅读:23 留言:0更新日期:2023-06-02 00:19
本说明书公开了一种基于多模态学习的视频去重方法及装置,可以获取视频存储请求,而后,可以根据视频存储请求,确定待检测视频,以及确定数据库中的目标视频,进而,将待检测视频、待检测视频的文本相关信息输入到预先训练的识别模型中的第一特征提取网络,提取待检测视频的视觉

【技术实现步骤摘要】
一种基于多模态学习的视频去重方法及装置


[0001]本说明书涉及神经网络
,尤其涉及一种基于多模态学习的视频去重方法及装置。

技术介绍

[0002]当前,短视频业务发展迅猛,随着短视频海量数据的积累和泛滥,短视频去重技术需求迫切,且应用前景非常广泛。
[0003]在现有技术中,可以根据两个视频分别的视觉特征,判断两个视频是否重复,进而,通过这种方式,短视频平台可以将重复的视频进行去除。
[0004]所以,如何提高视频去重的准确性,则是一个亟待解决的问题。

技术实现思路

[0005]本说明书提供一种基于多模态学习的视频去重方法及装置,以部分的解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案:本说明书提供了一种基于多模态学习的视频去重方法,包括:获取视频存储请求;根据所述视频存储请求,确定待检测视频,以及确定数据库中的目标视频;确定所述待检测视频的文本相关信息和所述目标视频的文本相关信息;将所述待检测视频、所述待检测视频的文本相关信息输入到预先训练的识别模型中的第一特征提取网络,提取所本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多模态学习的视频去重方法,其特征在于,包括:获取视频存储请求;根据所述视频存储请求,确定待检测视频,以及确定数据库中的目标视频;确定所述待检测视频的文本相关信息和所述目标视频的文本相关信息;将所述待检测视频、所述待检测视频的文本相关信息输入到预先训练的识别模型中的第一特征提取网络,提取所述待检测视频的视觉

文本多模态特征,将所述目标视频和所述目标视频的文本相关信息输入所述识别模型的第二特征提取网络,提取所述目标视频的视觉

文本多模态特征;将所述待检测视频的视觉

文本多模态特征以及所述目标视频的视觉

文本多模态特征输入到所述识别模型中的重复检测子网络,得到重复检测结果;根据所述重复检测结果,确定是否将所述待检测视频存储在所述数据库中。2.如权利要求1所述的方法,其特征在于,第一特征提取网络包括:视觉编码层和文本编码层;将所述待检测视频、所述待检测视频的文本相关信息输入到预先训练的识别模型中的第一特征提取网络,提取所述待检测视频的视觉

文本多模态特征,具体包括:将所述待检测视频、所述待检测视频的文本相关信息输入到所述第一特征提取网络后,通过所述视觉编码层提取所述待检测视频的视觉特征,通过所述文本编码层提取所述待检测视频的文本相关信息的文本特征;将所述视觉特征与所述文本特征进行融合,得到所述待检测视频的视觉

文本多模态特征。3.如权利要求1所述的方法,其特征在于,第二特征提取网络包括:视觉编码层和文本编码层;将所述目标视频和所述目标视频的文本相关信息输入所述识别模型的第二特征提取网络,提取所述目标视频的视觉

文本多模态特征,具体包括:将所述目标视频和所述目标视频的文本相关信息输入所述第二特征提取网络后,通过所述视觉编码层提取所述目标视频的视觉特征,通过所述文本编码层提取所述目标视频的文本相关信息的文本特征;将所述视觉特征与所述文本特征进行融合,得到所述目标视频的视觉

文本多模态特征。4.如权利要求1所述的方法,其特征在于,训练所述识别模型,具体包括:获取训练样本,所述训练样本包括第一视频、第二视频以及标注信息,所述标注信息用于表示所述第一视频与所述第二视频是否重复;将所述第一视频、所述第一视频的文本相关信息输入到识别模型的第一特征提取网络,以提取出所述第一视频的视觉

文本多模态特征,将所述第二视频和所述第二视频的文本相关信息输入到识别模型中的第二特征提取网络,以提取出所述第二视频的视觉

文本多模态特征;将所述第一视频的视觉

文本多模态特征以及所述第二视频的视觉

文本多模态特征输入到所述识别模型中的重复检测子网络,得到重复检测结果;以最小化所述重复检测结果与所述标注信息之间的偏差为目标,对所述识别模型进行
训练。5.如权利要求1所述的方法,其特征在于,所述第一特征提取网络与所述第二特征提取网络中均包含有视觉编码层和文本编码层,视觉

文本多模态特征通过所述视觉编码层提取出的视觉特征和文本编码层提取出的文本特征确定;所述方法还包括:根据确定出的视觉特征对应的权重以及确定出的文本特征对应的权重,对视觉特征和文本特征进行加权融合,得到视觉

文本多模态特征。6.如权利要求5所述的方法,其特征在于,确定视觉特征对应的权重以及文本特征对应的权重,具体包括:通过所述视觉编码层,构建第一模型;对所述第一模型进行有监督训练,以使训练后的第一模型通过两个视频的视觉特征,识别两个视频是否存在重复,并确定训练的第一模型的训练效果表征值;根据所述文本编码层,构建第二模型;对所述第二模型进行有监督训练,以使训练后的第二模型通过两个视频的文本相关信息的文本特征,识别两个视频是否存在重复,并确定训练的第二模型的训练效果表征值;根据所述第一模型的训练效果表征值,和所述第二模型的训练效果表征值,确定视觉特征对应的权重以及文本特征对应的权重。7.如权利要求1所述的方法,其特征在于,将所述待检测视频、所述待检测视频的文本相关信息输入到预先训练的识别模型中的第一特征提取网络,提取所述待检测视频的视觉

文本多模态特征,将所述目标视频和所述目标视频的文本相关信息输入所述识别模型的第二特征提取网络,提取所述目标视频的视觉

文本多模态特征之前,所述方法还包括:将所述待检测视频进行预处理,得到预处理后的待检测视频,以及将所述目标视频进行预处理,得到预处理后的目标视频;将所述待检测视频、所述待检测视频的文本相关信息输入到预先训练的识别模型中的第一特征提取网络,提取所述待检测视频的视觉

文本多模态特征,将所述目标视频和所述目标视频的文本相关信息...

【专利技术属性】
技术研发人员:朱健陈光曾令仿李勇程稳
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1