一种基于时序特征的同源视频检索方法及系统技术方案

技术编号:33726202 阅读:19 留言:0更新日期:2022-06-08 21:20
本发明专利技术公开了一种基于时序特征的同源视频检索方法及系统,包括对视频提取关键帧,使用深度残差卷积神经网络对关键帧提取特征,使用两个子模块提取对应的帧时序特征信息及帧重要性信息,经过特征聚合后得到视频的整体特征向量表示,使用孪生网络构建正负样本对网络参数进行训练,得到固定参数的网络模型后对保护视频及检索视频分别提取特征并检测相似度是否超过阈值,返回检测结果。本发明专利技术给出的深度残差卷积神经网络实现特征提取,时序特征信息提取及帧重要性信息提取两个子模块实现对侵权视频干扰帧及片段剪取调换顺序等操作的检测,提高了对多种侵权手段检测覆盖的效果,也提升了同源视频检索的准确性。也提升了同源视频检索的准确性。也提升了同源视频检索的准确性。

【技术实现步骤摘要】
一种基于时序特征的同源视频检索方法及系统


[0001]本专利技术属于视频检索
,具体为一种基于时序特征的同源视频检索方法及系统。

技术介绍

[0002]前时代下随着信息技术不断发展,不同形式的数字作品在互联网上流传,由于各大短视频平台的兴起,短视频成为不同形式的数字作品中较为广泛的媒介,人们通过发布短视频分享和记录自己的生活和创意设计。但由于互联网上数字内容的易盗用、可篡改的特点,侵权者往往可以通过增添水印、改变帧率、改变色调、调整画面比例等操作对他人作品或内容简单变换后进行盗用,一些盗用者更采取这些操作的组合使得视频领域的侵权检测成为难题。
[0003]人们开始探索不同的检测方法尝试保护视频等数字作品的知识版权。目前视频领域的侵权检测一般需要同源视频检索方法(Near Duplicate Video Retrieval,NDVR)。NDVR的目标是对于需要检查是否被侵权的视频(查询视频),在可能发生侵权的待检索视频库中逐一比对与查询视频的相似度,返回超过一定阈值的视频作为疑似侵权结果。
[0004]在深度学习技术兴起之后,现有的同源视频检索方法一般对视频提取关键帧。使用标注训练数据对神经网络参数进行训练直至收敛,检索时对关键帧使用训练好的卷积神经网络提取特征之后使用不同的对比方法得到视频对之间的相似度。而不同的对比方法大体可以分为:
[0005](1)对所有关键帧的特征向量使用求平均等方式进行聚合后得到视频的整体特征向量表示,计算视频特征向量之间的余弦距离得到相似度。
[0006](2)计算视频的关键帧与关键帧特征向量之间的距离作为帧与帧之间的相似度,使用词袋(Bag

of

Words,BoW)等方法对视频中各关键帧的序列关系进行分析。
[0007]然而,以上两类方式在一些常见的侵权场景中都存在一些缺陷。现有算法往往对视频均匀地每一定时长片段内提取一定数量帧作为关键帧,并且未能有效考虑帧与帧之间的时序关系信息。但是侵权者往往会对原视频插入干扰帧、对原视频关键帧增加大面积遮挡或是水印文字等内容、对原视频进行截取之后将片段分开缝入自己的侵权视频中,对现有检测方法造成一定性能影响。此外,现有的神经网络训练方式使得模型参数较为固定,在面对大量、复杂、多变的侵权手段时性能会有所下降,使得检测同源视频的性能有限。

技术实现思路

[0008]针对现有技术的不足,本专利技术提供一种基于时序特征的同源视频检索方法及系统。
[0009]为实现上述目的,本专利技术提供的技术方案是:
[0010]本专利技术公开了一种基于时序特征的同源视频检索方法,其包括以下步骤:
[0011](1)构建神经网络模型,使用开源数据集对网络模型参数进行训练,训练直至模型
参数收敛后将网络模型参数固定;
[0012](2)使用训练完成的模型对需要保护及检索的视频提取对应特征向量;
[0013]所述的步骤(1)具体包括以下步骤:
[0014](1

1)关键帧提取:查询及检索视频拆解成帧,按照视频时长在一定时长内提取一定数量帧,最后对提取出的帧进行采样,并缩放到特定尺寸后得到视频关键帧;
[0015](1

2)帧特征提取:将视频关键帧输入至在ImageNet数据集上预训练好的深度残差卷积神经网络中,进行正向传播对帧图片各通道提取特征,经过池化、激活、正则操作后提取最后一层平均池化层输出的向量作为各帧的特征向量;
[0016](1

3)时序特征提取:将各帧的特征向量按帧在视频中出现的时序顺序输入至Transformer编码器中,得到帧与帧之间的时序信息特征向量;
[0017](1

4)帧重要性信息提取:使用注意力机制对各帧的特征向量提取不同语义空间中的映射,得到包含各帧重要性信息的特征向量,经过拼接聚合后得到帧重要性信息特征向量;
[0018](1

5)特征聚合:将自注意力机制与时序特征提取模块的输出特征向量输入全连接层加权聚合之后得到视频整体特征向量表示;
[0019](1

6)孪生网络训练:训练网络参数时,在每个训练轮次对每个输入视频提取一个与该视频同源的视频作为正样本,一个与该视频不同源的视频作为负样本,构建成为三元组,使用三元组损失函数Triplet Loss得到损失值,使用损失值计算出梯度后对神经网络进行反馈传播并更新各层参数,重复此步骤直至网络参数收敛。
[0020]步骤(2)具体包括以下步骤:
[0021](2

1)构建需要保护的视频数据库:对系统需要保护的用户原创视频存入数据库,每个保护视频通过步骤(1)得到视频的特征向量,将所有视频的特征向量存放至数据库中得到所有保护视频的特征矩阵;
[0022](2

2)对检索视频提取特征:对于需要检测是否存在与保护视频库内视频产生侵权的视频,通过步骤(1)提取对应的视频特征向量,进行比对检索。
[0023]步骤(3)具体包括以下步骤:
[0024](3

1)设定相似度检索阈值:计算得到检索视频与保护视频之间的相似度,该相似度在(0,1)区间内,1表示模型判断检索视频与保护视频100%相似,0表示完全不相似,其他值则表示相似性的百分比;设定一个检索阈值,则系统将返回相似度超过该阈值的视频对作为疑似产生侵权行为结果,供用户后续进一步判定;
[0025](3

2)计算相似度:在步骤(2)中得到的检索视频的特征向量,逐一与保护视频库内的特征矩阵进行点乘操作,得到检索视频与每一保护视频的特征向量之间的余弦距离作为相似度;逐一比对相似度以判断是否有超过设定的阈值,如有则返回该视频对作为系统检测结果,没有则返回未检测出疑似侵权视频作为系统检测结果。)设定相似度检索阈值,进行相似度计算。
[0026]一种基于时序特征的同源视频检索,其包括
[0027]模型构建及训练模块,用于构建神经网络模型,并训练网络模型参数至模型参数收敛后将网络模型参数固定;
[0028]特征提取模块,提取特征并构成保护视频特征矩阵存入数据库;
[0029]相似度计算模块,用于对比检索视频是否产生侵权。
[0030]本专利技术的有益效果:
[0031]本专利技术方法通过对视频提取关键帧,使用在大规模数据集ImageNet上预训练得到固定参数的深度残差卷积神经网络ResNet对各帧提取特征向量,各帧特征采用自注意力机制及Transformer编码器分别提取和解析各帧重要性及时序信息,经过聚合加权等操作后得到视频的特征向量表示,同时使用度量学习方法对模型参数进行训练,使得同源视频的特征向量表达在语义空间中更加接近,而不同源视频的特征向量在语义空间中更加远离。计算不同视频的特征向量之间的余弦距离以比对衡量视频之间的相似度,并检索出疑本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时序特征的同源视频检索方法,其特征在于,其包括以下步骤:(1)构建神经网络模型,使用开源数据集对网络模型参数进行训练,训练直至模型参数收敛后将网络模型参数固定;(2)使用训练完成的模型对需要保护及检索的视频提取对应特征向量;(3)设定相似度检索阈值,进行相似度计算。2.根据基于时序特征的同源视频检索方法,其特征在于,所述的步骤(1)具体包括以下步骤:(1

1)关键帧提取:查询及检索视频拆解成帧,按照视频时长在一定时长内提取一定数量帧,最后对提取出的帧进行采样,并缩放到设定尺寸后得到视频关键帧;(1

2)帧特征提取:将视频关键帧输入至在ImageNet数据集上预训练好的深度残差卷积神经网络中,进行正向传播对帧图片各通道提取特征,经过池化、激活、正则操作后提取最后一层平均池化层输出的向量作为各帧的特征向量;(1

3)时序特征提取:将各帧的特征向量按帧在视频中出现的时序顺序输入至Transformer编码器中,得到帧与帧之间的时序信息特征向量;(1

4)帧重要性信息提取:使用注意力机制对各帧的特征向量提取不同语义空间中的映射,得到包含各帧重要性信息的特征向量,经过拼接聚合后得到帧重要性信息特征向量;(1

5)特征聚合:将自注意力机制与时序特征提取模块的输出特征向量输入全连接层加权聚合之后得到视频整体特征向量表示;(1

6)孪生网络训练:训练网络参数时,在每个训练轮次对每个输入视频提取一个与该视频同源的视频作为正样本,一个与该视频不同源的视频作为负样本,构建成为三元组,使用三元组损失函数Triplet Loss得到损失值,使用损失值计算出梯度后对神经网络进行反馈传播并更新各层参数,...

【专利技术属性】
技术研发人员:陈建海阮汉宁鲍科荣大中何钦铭
申请(专利权)人:浙江阿蚂科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1