基于深度学习的端到端的视频拷贝检测方法及装置制造方法及图纸

技术编号:19178451 阅读:37 留言:0更新日期:2018-10-17 00:34
本发明专利技术涉及视频分类领域,提出了一种基于深度学习的端到端的视频拷贝检测方法,旨在解决在视频拷贝检测中,两段视频中存在多处拷贝片段的检测困难,及无法准确定位拷贝视频片段的位置等问题。该方法的具体实施方式包括:对用于进行视频拷贝检测的两段待检测视频进行镜头分割以选取关键帧;利用预先构建的拷贝关系识别模型对所选取出的多个关键帧进行识别,确定各关键帧之间的拷贝关系;根据所得到的各关键帧之间的拷贝关系,构建两段上述待检测视频全部关键帧的贝关系矩阵;将该拷贝关系矩阵作为预先构建的定位识别模型的输入,定位两段所述待检测视中含有拷贝关系的片段。本发明专利技术能够快捷、高效地检测出两段视频中存在的多处拷贝关系的视频片段。

End to end video copy detection method and device based on deep learning

The invention relates to the field of video classification, and proposes an end-to-end video copy detection method based on depth learning, aiming at solving the problems of difficult detection of multiple copied video clips and inaccurate location of copied video clips in video copy detection. Specific implementations of the method include: shot segmentation of two video segments to be detected for video copy detection to select key frames; identification of multiple key frames selected by using a pre-constructed copy relationship recognition model to determine the copy relationship between the key frames; and identification of the key frames according to the key obtained; The copy relation matrix of all the key frames of the two video segments to be detected is constructed, and the copy relation matrix is used as the input of the pre-constructed location recognition model to locate the segments containing the copy relation in the two video segments to be detected. The invention can quickly and efficiently detect video clips with multiple copy relationships in two video clips.

【技术实现步骤摘要】
基于深度学习的端到端的视频拷贝检测方法及装置
本专利技术涉及网络内容安全
,特别涉及视频分类领域,具体涉及一种基于深度学习的端到端的视频拷贝检测方法及装置。
技术介绍
随着网络技术的飞速发展以及人类新思想的不断引进,移动互联网时代随之而来,这使得越来越多的多媒体数据呈现在人们的眼前。具有代表性的视频数据,不仅用于艺术传播与教育,还可以构建数据库应用于科学研究与商业应用。同时,互联网作为一种开放性的传播媒介,用户可以自由的上传、下载视频数据,缺乏规范的管理和约束。大量的视频可编辑软件的出现,让视频数据的篡改现象变得非常普遍。这使得视频在版权问题上存在巨大的不确定性。而因此引发的版权侵犯、数据库冗余等现象成为当前社会亟待解决的问题。越来越多未经授权的视频信息在网上肆意传播,视频拷贝检测作为版权保护的有效手段受到了广泛关注。目前,视频拷贝检测主要是对两个整段视频的拷贝关系确定,缺乏对于两段视频中存在多处拷贝片段的端到端的检测方法及手段,无法准确检测一些经编辑后的视频的拷贝判断,以及准确定位拷贝视频片段的位置。
技术实现思路
为了解决现有技术中的上述问题,即为了解决两段视频中存在多处拷贝片段,无法端到端的准确检测一些经编辑后的视频的拷贝判断,以及准确定位拷贝视频片段的位置的问题,本申请提供了一种基于深度学习的端到端的视频拷贝检测方法,以解决上述问题。本申请提供了基于深度学习的端到端的视频拷贝检测方法,该方法包括如下步骤:对用于进行视频拷贝检测的两段待检测视频进行镜头分割以选取各上述待检测视频的关键帧;利用预先构建的拷贝关系识别模型对所选取出的多个关键帧进行识别,确定各关键帧之间的拷贝关系;上述拷贝关系识别模型基于卷积神经网络构建,其输入为待识别拷贝关系的两帧图片,输出为所输入的两帧图片的拷贝关系;根据得到的各关键帧之间的拷贝关系,构建两段上述待检测视频全部关键帧的拷贝关系矩阵;将上述拷贝关系矩阵作为输入,利用预先构建的定位识别模型,定位两段上述待检测视中含有拷贝关系的片段;上述定位识别模型基于卷积神经网络构建,其输入为拷贝关系矩阵,输出定位两段视频中有拷贝关系的片段。在一些示例中,“对用于进行视频拷贝检测的两段待检测视频进行镜头分割以选取各上述待检测视频的关键帧”,包括:提取各上述待检测视频的每帧视频帧的直方图,对相邻视频帧的直方图进行差异比较,以确定各上述待检测视频的各镜头边界;根据所确定的镜头边界,选取各上述待检测视频各镜头的起始帧、中间帧、结束帧作为关键帧。在一些示例中,“根据得到的各关键帧之间的拷贝关系,构建两段所述待检测视频全部关键帧的拷贝关系矩阵”,包括:由两段上述待检测视频中的第一段待检测视频的第一数目个关键帧,构建上述第一段待检测视频的关键帧向量,作为第一关键帧向量;由两段上述待检测视中的第二段待检测视频的第二数目个关键帧,构建上述第二段待检测视频的关键帧向量,作为第二关键帧向量;根据上述待检测视拷贝关系的识别结果,利用上述第一关键帧向量和上述第二关键帧向量之间的拷贝关系,构建两段上述待检测视频的拷贝关系矩阵。在一些示例中,上述拷贝关系识别模型,其训练方法包括:根据预设的训练用样本数据,通过如下约束函数对基于卷积神经网络的初始拷贝关系识别模型进行训练,得到优化后的拷贝关系识别模型:其中,L1为损失函数,N为第一段待检测视频中关键帧的数目,M为第二段待检测视频中关键帧的数目;zmn为第一段待检测视频中第n帧与第二端待测视频中第m帧存在拷贝关系的概率,如果存在拷贝关系,则为1,如果不存在拷贝关系,则为0。在一些示例中,上述定位识别模型,其训练方法包括:从预设的多对训练用样本视频中,获取每对上述样本视频对应的拷贝片段的位置信息;根据多对训练用样本视频,通过如下约束函数对基于卷积神经网络的初始定位识别模型进行训练,得到优化后的定位识别模型:其中,L2为损失函数,pj为建议框预测为存在拷贝关系区域的概率,如果存在,则为1,否则为0;tj为建议框的四个参数化坐标,为真实框的四个参数化坐标;上述建议框为上述定位识别模型针对拷贝关系矩阵,预测的两段待检测视频存在拷贝关系的片段对应的位置,每个拷贝关系矩阵会预测出建议框的个数为Nreg个;公式中的λ为两个加和项的权衡参数;上述真实框为两段待检测视频存在拷贝关系的片段对应在上述拷贝关系矩阵中的位置。第二方面,本申请提供了一种基于深度学习的端到端的视频拷贝检测装置,该装置包括:关键帧选取单元,配置为对用于进行视频拷贝检测的两段待检测视频进行镜头分割以选取各上述待检测视频的关键帧;拷贝关系识别单元,配置为利用预先构建的拷贝关系识别模型对所选取出的多个关键帧进行识别,确定各关键帧之间的拷贝关系,上述拷贝关系识别模型基于卷积神经网络构建,其输入为待识别拷贝关系的两帧图片,输出为所输入的两帧图片的拷贝关系;矩阵构建单元,配置为根据得到的各关键帧之间的拷贝关系,构建两段上述待检测视频全部关键帧的拷贝关系矩阵;定位单元,配置为将上述拷贝关系矩阵作为输入,利用预先构建的定位识别模型,定位两段上述待检测视频中含有拷贝关系的片段;上述定位识别模型基于卷积神经网络构建,其输入为拷贝关系矩阵,其输出定位两段视频中有拷贝关系的片段。在一些示例中,上述关键帧选取单元进一步配置为:提取各上述待检测视频的每帧视频帧的直方图,对相邻视频帧的直方图进行差异比较,以确定各上述待检测视频的各镜头边界;根据所确定的镜头边界,选取各上述待检测视频各镜头的起始帧、中间帧、结束帧作为关键帧。在一些示例中,上述矩阵构建单元,进一步配置为:由两段上述待检测视频中的第一段待检测视频的第一数目个关键帧,构建上述第一段待检测视频的关键帧向量,作为第一关键帧向量;由两段上述待检测视中的第二段待检测视频的第二数目个关键帧,构建上述第二段待检测视频的关键帧向量,作为第二关键帧向量;根据上述待检测视拷贝关系的识别结果,利用上述第一关键帧向量和上述第二关键帧向量之间的拷贝关系,构建两段上述待检测视频的拷贝关系矩阵。在一些示例中,上述拷贝关系识别模型,其训练方法包括:根据预设的训练用样本数据,通过如下约束函数对基于卷积神经网络的初始拷贝关系识别模型进行训练,得到优化后的拷贝关系识别模型:其中,L1为损失函数,N为第一段待检测视频中关键帧的数目,M为第二段待检测视频中关键帧的数目;zmn为第一段待检测视频中第n帧与第二端待测视频中第m帧存在拷贝关系的概率,如果存在拷贝关系,则为1,如果不存在拷贝关系,则为0。在一些示例中,上述定位识别模型,其训练方法包括:从预设的多对训练用样本视频中,获取每对上述样本视频对应的拷贝片段的位置信息;根据多对训练用样本视频,通过如下约束函数对基于卷积神经网络的初始定位识别模型进行训练,以得到优化后的定位识别模型:其中,L2为损失函数,pj为建议框预测为存在拷贝关系区域的概率,如果存在,则为1,否则为0;tj为建议框的四个参数化坐标,为真实框的四个参数化坐标;上述建议框为上述定位识别模型针对拷贝关系矩阵,预测的两段待检测视频存在拷贝关系的片段对应的位置,每个拷贝关系矩阵会预测出建议框的个数为Nreg个;公式中的λ为两个加和项的权衡参数;上述真实框为两段待检测视频存在拷贝关系的片段对应在上述拷贝关本文档来自技高网...

【技术保护点】
1.一种基于深度学习的端到端的视频拷贝检测方法,其特征在于,所述方法包括:对用于进行视频拷贝检测的两段待检测视频进行镜头分割以选取各所述待检测视频的关键帧;利用预先构建的拷贝关系识别模型对所选取出的多个关键帧进行识别,确定各关键帧之间的拷贝关系;所述拷贝关系识别模型基于卷积神经网络构建,其输入为待识别拷贝关系的两帧图片,输出为所输入的两帧图片的拷贝关系;根据得到的各关键帧之间的拷贝关系,构建两段所述待检测视频全部关键帧的拷贝关系矩阵;将所述拷贝关系矩阵作为输入,利用预先构建的定位识别模型,定位两段所述待检测视中含有拷贝关系的片段;所述定位识别模型基于卷积神经网络构建,其输入为拷贝关系矩阵,输出定位两段视频中有拷贝关系的片段。

【技术特征摘要】
1.一种基于深度学习的端到端的视频拷贝检测方法,其特征在于,所述方法包括:对用于进行视频拷贝检测的两段待检测视频进行镜头分割以选取各所述待检测视频的关键帧;利用预先构建的拷贝关系识别模型对所选取出的多个关键帧进行识别,确定各关键帧之间的拷贝关系;所述拷贝关系识别模型基于卷积神经网络构建,其输入为待识别拷贝关系的两帧图片,输出为所输入的两帧图片的拷贝关系;根据得到的各关键帧之间的拷贝关系,构建两段所述待检测视频全部关键帧的拷贝关系矩阵;将所述拷贝关系矩阵作为输入,利用预先构建的定位识别模型,定位两段所述待检测视中含有拷贝关系的片段;所述定位识别模型基于卷积神经网络构建,其输入为拷贝关系矩阵,输出定位两段视频中有拷贝关系的片段。2.根据权利要求1所述的基于深度学习的端到端的视频拷贝检测方法,其特征在于,“对用于进行视频拷贝检测的两段待检测视频进行镜头分割以选取各所述待检测视频的关键帧”,包括:提取各所述待检测视频的每帧视频帧的直方图,对相邻视频帧的直方图进行差异比较,以确定各所述待检测视频的镜头边界;根据所确定的镜头边界,选取各所述待检测视频各镜头的起始帧、中间帧、结束帧作为关键帧。3.根据权利要求1所述的基于深度学习的端到端的视频拷贝检测方法,其特征在于,“根据得到的各关键帧之间的拷贝关系,构建两段所述待检测视频全部关键帧的拷贝关系矩阵”,包括:由两段所述待检测视中的第一段待检测视频的第一数目个关键帧,构建所述第一段待检测视频的关键帧向量,作为第一关键帧向量;由两段所述待检测视中的第二段待检测视频的第二数目个关键帧,构建所述第二段待检测视频的关键帧向量,作为第二关键帧向量;根据所述待检测视拷贝关系的识别结果,利用所述第一关键帧向量和所述第二关键帧向量之间的拷贝关系,构建两段所述待检测视频的拷贝关系矩阵。4.根据权利要求3所述的基于深度学习的端到端的视频拷贝检测方法,其特征在于,所述定位识别模型,其训练方法:根据预设的训练用样本数据,通过如下约束函数对基于卷积神经网络的拷贝关系识别模型进行训练,以得到优化的拷贝关系识别模型:其中,L1为损失函数,N为第一段待检测视频中关键帧的数目,M为第二段待检测视频中关键帧的数目;zmn为第一段待检测视频中第n帧与第二端待测视频中第m帧存在拷贝关系的概率,如果存在拷贝关系,则为1,如果不存在拷贝关系,则为0。5.根据权利要求4所述的基于深度学习的端到端的视频拷贝检测方法,其特征在于,所述定位识别模型,其训练方法:从预设的多对训练用样本视频中,获取每对所述样本视频对应的拷贝片段的位置信息;根据多对训练用样本视频,通过如下约束函数对基于卷积神经网络的初始定位识别模型进行训练,得到优化后的定位识别模型:其中,L2为损失函数,pj为建议框预测为存在拷贝关系区域的概率,如果存在,则为1,否则为0;tj为建议框的四个参数化坐标,为真实框的四个参数化坐标;Nreg为每个拷贝关系矩阵会预测出建议框的个数;λ为两个加和项的权衡参数;其中,所述建议框为所述定位识别模型针对拷贝关系矩阵,预测的两段待检测视频存在拷贝关系的片段对应的位置;所述真实框为两段待检测视频存在拷贝关系的片段对应在所述拷贝关系...

【专利技术属性】
技术研发人员:李兵胡卫明张靖王博
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1