用于提取视频特征向量的方法和装置制造方法及图纸

技术编号:20045670 阅读:27 留言:0更新日期:2019-01-09 04:24
本申请实施例公开了用于提取视频特征向量的方法和装置。该方法的一具体实施方式包括:从目标视频中采集多个视频片段,每个视频片段包括一个视频帧序列;对于每一个视频片段,基于该视频片段对应的视频帧序列生成该视频片段的组合图,组合图的各像素的像素值存储于三维数组中;将各视频片段分别对应的三维数组输入到预先训练的视频特征提取模型,得到目标视频的特征向量。该实施方式所得到的视频的特征向量同时蕴含了目标视频的空间信息以及视频对象在时间跨度上的行为信息,有利于提高使用视频的特征向量分析视频内容所属类别的准确率。

【技术实现步骤摘要】
用于提取视频特征向量的方法和装置
本申请实施例涉及计算机
,具体涉及视频处理
,尤其涉及用于提取视频特征向量的方法和装置。
技术介绍
随着信息技术的发展,数字视频的传输速率越来越高。作为信息的一种载体,视频也逐渐在多媒体数据中广泛流行。尤其是随着自媒体的发展,越来越多的视频通过互联网进行传播。通常,在将视频通过互联网进行传播之前,需要对视频内容进行分析,确定视频所属的类别,以便对视频进行管理和进一步传播。
技术实现思路
本申请实施例提出了一种用于提取视频特征向量的方法和装置。第一方面,本申请实施例提供了一种用于提取视频特征向量的方法,该方法包括:从目标视频中采集多个视频片段,每个视频片段包括一个视频帧序列;对于每一个视频片段,基于该视频片段对应的视频帧序列生成该视频片段的组合图,组合图的各像素的像素值存储于三维数组中;其中,三维数组包括行、列、页,三维数组的行、列的数量分别与该视频帧序列中的任意视频帧所包括的像素的行数、列数相同,三维数组的页数与该视频帧序列所包括的视频帧的数量相同,视频帧序列的每一个视频帧中,处于同一位置的像素的像素值存储于三维数组的每一页中的相同的位置;将各视频片段分别对应的三维数组输入到预先训练的视频特征提取模型,得到目标视频的特征向量。在一些实施例中,视频特征提取模型包括至少一个卷积单元,卷积单元包括级联的二维卷积神经网络和一维卷积神经网络,其中,二维卷积神经网络用于对视频片段的组合图所对应的三维数组的行与列方向进行卷积,输出表征视频片段的组合图的特征的特征三维数组;一维卷积神经网络用于对特征三维数组的页方向进行卷积。在一些实施例中,在将各视频片段分别对应的三维数组输入到预先训练的视频特征提取模型,得到目标视频的特征向量之前,该方法还包括:使用多个添加了类别标注的视频片段对初始视频特征提取模型进行训练,得到训练后的视频特征提取模型;其中,每一个视频片段可以包括一个视频帧序列。在一些实施例中,该方法还包括:将特征向量输入到预先训练的视频类别识别模型,根据视频类别识别模型的输出确定目标视频对应的类别。在一些实施例中,多个视频片段在时间上不连续。在一些实施例中,每一视频片段的视频帧序列中的各视频帧在时间上不连续。第二方面,本申请实施例提供了一种用于提取视频特征向量的装置,该装置包括:采集模块,被配置成从目标视频中采集多个视频片段,每个视频片段包括一个视频帧序列;生成模块,被配置成对于每一个视频片段,基于该视频片段对应的视频帧序列生成该视频片段的组合图,组合图的各像素的像素值存储于三维数组中;其中,三维数组包括行、列、页,三维数组的行、列的数量分别与该视频帧序列中的任意视频帧所包括的像素的行数、列数相同,三维数组的页数与该视频帧序列所包括的视频帧的数量相同,所述视频帧序列的每一个视频帧中,处于同一位置的像素的像素值存储于所述三维数组的每一页中的相同的位置;特征提取模块,被配置成将各视频片段分别对应的三维数组输入到预先训练的视频特征提取模型,得到目标视频的特征向量。在一些实施例中,视频特征提取模型包括至少一个卷积单元,卷积单元包括级联的二维卷积神经网络和一维卷积神经网络,其中,二维卷积神经网络用于对视频片段的组合图所对应的三维数组的行与列方向进行卷积,输出表征视频片段的组合图的特征的特征三维数组;一维卷积神经网络用于对特征三维数组的页方向进行卷积。在一些实施例中,该装置还包括训练模块,训练模块被配置成:在特征提取模块将将各视频片段分别对应的三维数组输入到预先训练的视频特征提取模型,得到目标视频的特征向量之前,使用多个添加了类别标注的视频片段对初始视频特征提取模型进行训练,得到训练后的视频特征提取模型;其中,每一个视频片段可以包括一个视频帧序列。在一些实施例中,该装置还包括视频类别识别模块,视频类别识别模块被配置成:将特征向量输入到预先训练的视频类别识别模型,根据视频类别识别模型的输出确定目标视频对应的类别。在一些实施例中,多个视频片段在时间上不连续。在一些实施例中,每一视频片段的视频帧序列中的各视频帧在时间上不连续。第三方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。本申请实施例提供的用于提取视频特征向量的方法和装置,通过首先从目标视频中采集多个视频片段,每个视频片段包括一个视频帧序列;然后对于每一个视频片段,基于该视频片段对应的视频帧序列生成该视频片段的组合图,组合图的各像素的像素值存储于三维数组中;最后将各视频片段分别对应的三维数组输入到预先训练的视频特征提取模型,得到目标视频的特征向量。该实施方式所得到的视频的特征向量同时蕴含了目标视频的空间信息以及视频对象在时间跨度上的行为信息,有利于提高使用目标视频的特征向量分析目标视频所属类别的准确率。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请的一个实施例的用于提取视频特征向量的方法可以应用于其中的示例性系统架构图;图2是根据本申请的用于提取视频特征向量的方法的一个实施例的流程图;图3是视频特征提取模型的一个示意性结构图;图4是根据本申请的用于提取视频特征向量的方法的又一个实施例的流程图;图5是根据本申请的用于提取视频特征向量的装置的一个实施例的结构示意图;图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了本申请的一个实施例的用于提取视频特征向量的方法可以应用于其中的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、视频录制类应用等。终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑膝上型便携计算机和台式计算机、摄像机、录像机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供本文档来自技高网...

【技术保护点】
1.一种用于提取视频特征向量的方法,包括:从目标视频中采集多个视频片段,每个视频片段包括一个视频帧序列;对于每一个视频片段,基于该视频片段对应的视频帧序列生成该视频片段的组合图,所述组合图的各像素的像素值存储于三维数组中;其中,所述三维数组包括行、列、页,所述三维数组的行、列的数量分别与该视频帧序列中的任意视频帧所包括的像素的行数、列数相同,所述三维数组的页数与该视频帧序列所包括的视频帧的数量相同,所述视频帧序列的每一个视频帧中,处于同一位置的像素的像素值存储于所述三维数组的每一页中的相同的位置;将各视频片段分别对应的三维数组输入到预先训练的视频特征提取模型,得到所述目标视频的特征向量。

【技术特征摘要】
1.一种用于提取视频特征向量的方法,包括:从目标视频中采集多个视频片段,每个视频片段包括一个视频帧序列;对于每一个视频片段,基于该视频片段对应的视频帧序列生成该视频片段的组合图,所述组合图的各像素的像素值存储于三维数组中;其中,所述三维数组包括行、列、页,所述三维数组的行、列的数量分别与该视频帧序列中的任意视频帧所包括的像素的行数、列数相同,所述三维数组的页数与该视频帧序列所包括的视频帧的数量相同,所述视频帧序列的每一个视频帧中,处于同一位置的像素的像素值存储于所述三维数组的每一页中的相同的位置;将各视频片段分别对应的三维数组输入到预先训练的视频特征提取模型,得到所述目标视频的特征向量。2.根据权利要求1所述的方法,其中,所述视频特征提取模型包括至少一个卷积单元,所述卷积单元包括级联的二维卷积神经网络和一维卷积神经网络,其中,所述二维卷积神经网络用于对视频片段的组合图所对应的三维数组的行与列方向进行卷积,输出表征所述视频片段的组合图的特征的特征三维数组;所述一维卷积神经网络用于对所述特征三维数组的页方向进行卷积。3.根据权利要求2所述的方法,其中,在将各视频片段分别对应的三维数组输入到预先训练的视频特征提取模型,得到所述目标视频的特征向量之前,所述方法还包括:使用多个添加了类别标注的视频片段对初始视频特征提取模型进行训练,得到训练后的视频特征提取模型;其中,每一个视频片段可以包括一个视频帧序列。4.根据权利要求1所述的方法,其中,所述方法还包括:将所述特征向量输入到预先训练的视频类别识别模型,根据视频类别识别模型的输出确定所述目标视频对应的类别。5.根据权利要求1所述的方法,其中,所述多个视频片段在时间上不连续。6.根据权利要求1所述的方法,其中,每一视频片段的视频帧序列中的各视频帧在时间上不连续。7.一种用于提取视频特征向量的装置,包括:采集模块,被配置成从目标视频中采集多个视频片段,每个视频片段包括一个视频帧序列;生成模块,被配置成对于每一个视频片段,基于该视频片段对应的视频帧序列生成该视频片段的组合图,所述组合图的各像...

【专利技术属性】
技术研发人员:何栋梁文石磊李甫孙昊
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1