一种视频特征提取方法及装置制造方法及图纸

技术编号:17837702 阅读:25 留言:0更新日期:2018-05-03 19:21
本申请实施例提供一种视频特征提取方法及装置,通过从目标视频中提取多个视频帧得到第一视频帧集合以及提取每个所述视频帧的相邻帧得到第二视频帧集合。然后,将所述第一视频帧集合和第二视频帧集合组合形成邻近帧对集合输入深度卷积网络提取每个视频帧的特征。最后,将提取得到的每个视频帧的特征接入由sigmoid激活函数、邻近帧对损失函数、以及类别交叉熵损失函数构成的视频特征哈希层进行计算,得到所述目标视频的哈希特征。使视频的特征表达更能反映视频内容信息,并有效的提高了视频特征表达的精度和利用效率。

A method and device for video feature extraction

The application embodiment provides a video feature extraction method and a device for obtaining a set of second video frames by extracting a plurality of video frames from the target video and obtaining a first video frame set and extracting each of the adjacent frames of each of the video frames. Then, the first video frame set and the second video frame assembly are combined to form a neighboring frame pair input depth convolution network to extract the characteristics of each video frame. Finally, the features of each video frame extracted are computed by the sigmoid activation function, the adjacent frame to the loss function, and the category cross entropy loss function, and the hash feature of the target video is obtained. The video feature expression can better reflect the video content information, and effectively improve the accuracy and efficiency of video feature expression.

【技术实现步骤摘要】
一种视频特征提取方法及装置
本申请涉及视频处理
,具体而言,涉及一种视频特征提取方法及装置。
技术介绍
对视频进行哈希编码可以应用在视频检索、视频聚类、视频压缩等视频相关的领域。现有的视频哈希特征提取方法得到的哈希特征是否有效,是由两个因素决定的,一个因素是提取到的视频特征是否有效代表视频内容,另一因素是哈希算法的准确性。因此,如何设计视频哈希特征的提取方法,使得视频的特征表达更能反映视频的内容信息,提升视频特征表达的精度和利用率,是目前需要研究的一大课题。
技术实现思路
有鉴于此,本申请的目的在于提供一种视频特征提取方法及装置,以使视频的特征表达更能反映视频内容信息,并有效的提高了视频特征表达的精度和利用效率。为了达到上述目的,本申请实施例采用如下技术方案:一方面,本申请提供一种视频特征提取方法,包括:从目标视频中提取多个视频帧得到第一视频帧集合以及提取每个所述视频帧的相邻帧得到第二视频帧集合;将所述第一视频帧集合和第二视频帧集合组合形成邻近帧对集合输入深度卷积网络提取每个视频帧的特征;将提取得到的每个视频帧的特征接入由sigmoid激活函数、邻近帧对损失函数、以及类别交叉熵损失函数构成的视频特征哈希层进行计算,得到所述目标视频的哈希特征;其中,所述邻近帧对损失函数表示如下:其中,f1为所述邻近帧对集合中第一视频帧集合的特征表达,f2为所述邻近帧对集合中第二视频帧集合的特征表达,m为预设的约束因子。另一方面,本申请提供一种视频特征提取装置,包括:邻近帧提取模块,用于从目标视频中提取多个视频帧得到第一视频帧集合以及提取每个所述视频帧的相邻帧得到第二视频帧集合;卷积网络处理模块,用于将所述第一视频帧集合和第二视频帧集合组合形成邻近帧对集合输入深度卷积网络提取每个视频帧的特征;及哈希特征计算模块,用于将提取得到的每个视频帧的特征接入由sigmoid激活函数、邻近帧对损失函数、以及类别交叉熵损失函数构成的视频特征哈希层进行计算,得到所述目标视频的哈希特征;其中,所述邻近帧对损失函数表示如下:其中,f1为所述邻近帧对集合中第一视频帧集合的特征表达,f2为所述邻近帧对集合中第二视频帧集合的特征表达,m为预设的约束因子。相较于现有技术,本申请实施例提供的视频特征提取方法及装置,针对视频中邻近帧图像相似的特性,设计邻近帧对损失函数,使得邻近帧间的特征表达差异最小化,从而使视频的特征表达更能反映视频内容信息。其次,基于视频的类别,提出了一个全新的方法用来找到对于当前类别特征表达贡献最大的哈希编码位置,有效的提高了视频特征表达的精度和利用效率。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本申请实施例提供的一种视频特征提取方法的流程图。图2为图1所示的步骤S101的子流程图。图3为本申请实施例提供的通过深度哈希网络结构提取视频特征的过程示意图。图4为本申请实施例提供的一种为intra-pairloss函数的示意图。图5为本申请实施例提供的根据哈希特征的汉明距离进行相似视频检索任务的示意图。图6为本申请实施例提供的用于实现上述视频特征提取方法的视频处理设备的方框示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。请参阅图1,是本申请实施例提供的一种视频特征提取方法的流程图。下面结合图1,对所述视频特征提取方法的各个步骤S101-S103进行详细描述。步骤S101,从目标视频中提取多个视频帧得到第一视频帧集合以及提取每个所述视频帧的相邻帧得到第二视频帧集合。详细地,如图2所示,步骤S101可以通过以下子步骤S111和S112来实现。在步骤S111中,从所述目标视频中按照预设帧间距提取多个视频帧得到所述第一视频帧集合。在步骤S112中,从所述目标视频中按照所述预设帧间距提取第一视频帧集合中每个视频帧的相邻帧形成所述第二视频帧集合。在一个实例中,例如图3所示,可首先从所述目标视频中按照所述预设帧间距提取出A、B、C、D等四个视频帧。由该四个视频帧形成所述第一视频帧集合。然后,从所述目标视频中按照所述预设帧间距再提取出所述A、B、C、D四个视频帧的相邻帧A’、B’、C’、D’形成所述第二视频帧集合。例如,可首先根据所述视频帧A,找到该视频帧A的相邻帧(如A的前一帧或后一帧)A’,再从A’开始按照所述预设帧间距分别找到所述B、C、D相邻帧B’、C’、D’,从而组合形成所述第二视频帧集合。步骤S102,将所述第一视频帧集合和第二视频帧集合组合形成邻近帧对集合输入深度卷积网络提取每个视频帧的特征。例如图3所示,在得到所述第一视频帧集合和第二视频帧集合之后,将将该第一视频帧集合和第二视频帧集合组合形成邻近视频帧对,输入深度卷积网络,进行视频帧特征的提取。步骤S103,将提取得到的每个视频帧的特征接入由sigmoid激活函数、邻近帧对损失函数、以及类别交叉熵损失函数构成的视频特征哈希层进行计算,得到所述目标视频的哈希特征。其中,所述邻近帧对损失函数表示如下:其中,f1为所述邻近帧对集合中第一视频帧集合的特征表达,f2为所述邻近帧对集合中第二视频帧集合的特征表达,m为预设的约束因子。本专利技术实施例中,所述邻近帧对损失函数为根据哈希特征提取过程特意设计的函数,也可称之为intra-pairloss函数,通过该函数对邻近帧之间的特征表达加之一个约束,使得相同视频邻近帧之间的特征表达尽可能相似。如图4所示,为intra-pairloss函数的示意图。其中,格子1-8代表了按顺序排列的视频间隔截帧的特征表达,提取邻近的帧构成intra-pair输入网络产生每个帧组的特征,对每对特征之间加以约束使之差值尽可能的小,因为视频中邻近帧的内容信息都是相同的,而浅层的图像信息又有不同,所以经过intra-pairloss函数约束后的视频特征更能反映视频内容层级的信息,而对浅层信息不敏感。详细地,在步骤S103中,可通过所述sigmoid激活函数会将提取得到的每个视频帧的特征映射到0到1的区间,根据设定阈值将sigmoid激活函数的输出映射到二进制编码中形成哈希码并输出。其中,所述设定阈值可以是0.5。在上述提取得到目标视频的哈希特征之后,在哈希特征的应用阶段,可通过以下方式进行:首先,将所述sigmoid激活函数输出的哈希码通过本文档来自技高网...
一种视频特征提取方法及装置

【技术保护点】
一种视频特征提取方法,其特征在于,该方法包括:从目标视频中提取多个视频帧得到第一视频帧集合以及提取每个所述视频帧的相邻帧得到第二视频帧集合;将所述第一视频帧集合和第二视频帧集合组合形成邻近帧对集合输入深度卷积网络提取每个视频帧的特征;将提取得到的每个视频帧的特征接入由sigmoid激活函数、邻近帧对损失函数、以及类别交叉熵损失函数构成的视频特征哈希层进行计算,得到所述目标视频的哈希特征;其中,所述邻近帧对损失函数表示如下:

【技术特征摘要】
1.一种视频特征提取方法,其特征在于,该方法包括:从目标视频中提取多个视频帧得到第一视频帧集合以及提取每个所述视频帧的相邻帧得到第二视频帧集合;将所述第一视频帧集合和第二视频帧集合组合形成邻近帧对集合输入深度卷积网络提取每个视频帧的特征;将提取得到的每个视频帧的特征接入由sigmoid激活函数、邻近帧对损失函数、以及类别交叉熵损失函数构成的视频特征哈希层进行计算,得到所述目标视频的哈希特征;其中,所述邻近帧对损失函数表示如下:其中,f1为所述邻近帧对集合中第一视频帧集合的特征表达,f2为所述邻近帧对集合中第二视频帧集合的特征表达,m为预设的约束因子。2.如权利要求1所述的视频特征提取方法,其特征在于,所述从目标视频中提取多个视频帧得到第一视频帧集合以及提取每个所述视频帧的相邻帧得到第二视频帧集合,包括:从所述目标视频中按照预设帧间距提取多个视频帧得到所述第一视频帧集合;从所述目标视频中按照所述预设帧间距提取第一视频帧集合中每个视频帧的相邻帧形成所述第二视频帧集合。3.如权利要求1所述的视频特征提取方法,其特征在于,所述将提取得到的每个视频帧的特征接入由sigmoid激活函数、邻近帧对损失函数、以及类别交叉熵损失函数构成的视频特征哈希层进行计算,得到所述目标视频的哈希特征,的步骤包括:通过所述sigmoid激活函数会将提取得到的每个视频帧的特征映射到0到1的区间,根据设定阈值将sigmoid激活函数的输出映射到二进制编码中形成哈希码并输出。4.如权利要求3所述的视频特征提取方法,其特征在于,该方法还包括:将所述sigmoid激活函数输出的哈希码通过一个类别掩码矩阵生成目标二进制哈希码,所述类别掩码矩阵是一个M*N的矩阵,其中M是预先得到的视频类别个数,N是哈希码长度,每个类别对应一个长为哈希码长度的权重参数;获得所述目标视频所属的类别,并根据该类别获得对应的多个权重参数;将多个所述权重参数取绝对值后进行排序;按照排序结果获取所述目标视频的哈希特征中预设个数的哈希码对应的位置,作为所述目标视频的哈希特征表达的目标位置。5.如权利要求1-4任意一项所述的视频特征提取方法,其特征在于,该方法还包括:计算所述目标视频中目标位置对应的哈希特征与检索数据集中的每个视频中与所述目标位置对应的哈希特征之间的汉明距离;及根...

【专利技术属性】
技术研发人员:刘旭丁大钧赵丽丽
申请(专利权)人:厦门美图之家科技有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1