视频特征学习方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:18445046 阅读:22 留言:0更新日期:2018-07-14 10:26
本发明专利技术实施例提供一种视频特征学习方法、装置、电子设备及可读存储介质。该方法包括:获得待训练的视频样本,所述视频样本包括有多帧图像;对所述视频样本进行分段,得到多个连续的视频分段;针对各视频分段,提取各视频分段的视觉特征,并计算各视频分段的运动基元数量;针对所述视频样本,提取所述视频样本的视觉特征,并计算所述视频样本的运动基元数量;基于各视频分段的运动基元数量、所述视频样本的运动基元数量和预设约束条件对目标分类模型进行训练,得到训练后的目标分类模型,以实现对视频特征的学习。由此,无需获知视频的标签和分类信息就可以实现视频特征的无监督学习,降低资源和成本消耗,并且可以适应于广泛的视频场景。

Video feature learning method, device, electronic device and readable storage medium

The embodiment of the invention provides a video feature learning method, a device, an electronic device and a readable storage medium. The method includes: obtaining a video sample to be trained, including a multi frame image, segmenting the video sample, obtaining multiple continuous video segments, extracting visual features of each video segment for each video segment, and calculating the number of motion base elements in each video segment; This paper extracts the visual features of the video samples and calculates the number of motion base elements of the video samples, training the target classification model based on the number of motion primitives, the number of motion base elements of the video samples and the preset constraint conditions of the video segments, and obtains the trained target classification model for the realization of the video. Characteristic learning. Thus, the unsupervised learning of video features can be realized without knowing the labels and classification information of the video, reducing the resource and cost consumption, and can be adapted to a wide range of video scenes.

【技术实现步骤摘要】
视频特征学习方法、装置、电子设备及可读存储介质
本专利技术涉及计算机
,具体而言,涉及一种视频特征学习方法、装置、电子设备及可读存储介质。
技术介绍
视频特征学习具有广泛的应用领域,例如可包括视频分类、相似视频检索、视频匹配等。目前的视频特征学习方法主要是基于视频标签和分类信息,而上述视频标签和分类信息需要人工标注作业,在数据量巨大的实际业务应用场景,非常消耗资源和成本。
技术实现思路
为了克服现有技术中的上述不足,本专利技术的目的在于提供一种视频特征学习方法、装置、电子设备及可读存储介质,无需获知视频的标签和分类信息就可以实现视频特征的无监督学习,降低资源和成本消耗,并且可以适应于广泛的视频场景。为了实现上述目的,本专利技术较佳实施例采用的技术方案如下:本专利技术较佳实施例提供一种视频特征学习方法,应用于电子设备,所述方法包括:获得待训练的视频样本,所述视频样本包括有多帧图像;对所述视频样本进行分段,得到多个连续的视频分段,其中,每个所述视频分段对应至少一个运动基元;针对各视频分段,提取各视频分段的视觉特征,并计算各视频分段的运动基元数量;针对所述视频样本,提取所述视频样本的视觉特征,并计算所述视频样本的运动基元数量;基于各视频分段的运动基元数量、所述视频样本的运动基元数量和预设约束条件对目标分类模型进行训练,得到训练后的目标分类模型,以实现对视频特征的学习。在本专利技术较佳实施例中,所述提取各视频分段的视觉特征的方式,包括:通过预先配置的特征提取模型或者深度学习模型将各视频分段中的各帧图像信息进行融合后提取各视频分段的视觉特征。在本专利技术较佳实施例中,所述计算各视频分段的运动基元数量的方式,包括:将所述各视频分段的视觉特征输入到预先配置的运动基元计算模型,得到各视频分段的运动基元数量。在本专利技术较佳实施例中,所述基于各视频分段的运动基元数量、所述视频样本的运动基元数量和预设约束条件对目标分类模型进行训练,得到训练后的目标分类模型,包括:基于各视频分段的运动基元数量和所述视频样本的运动基元数量对目标分类模型进行训练;在训练过程中根据预设损失函数计算该目标分类模型的Loss值,直到所述Loss值小于预设值时结束训练,得到训练后的目标分类模型,其中,当所述Loss值小于预设值时,所述训练后的目标分类模型满足所述预设约束条件。在本专利技术较佳实施例中,所述预设损失函数为:其中,Xtotal为视频样本X,Xm为视频视频样本X中的第m个视频分段,Y为不同于视频样本X的另一个视频样本,函数F为对视频片段的特征表示方法,函数N为根据视频特征提取运动基元数量的方法,为将视频样本X中所有视频分段取样的运动基元数量相加的方法,C为用于保证最优解非零的一个常数。在本专利技术较佳实施例中,所述预设约束条件包括:视频样本的运动基元数量等于该视频样本中的各个视频分段对应的运动基元数量之和。在本专利技术较佳实施例中,所述视频样本的运动基元数量等于该视频样本中的各个视频分段对应的运动基元数量之和的表达式为:Numtotal=Numgroup1+Numgroup2+…+Numgroupm其中,Numtotal为视频样本X的视觉特征的运动基元数量,Numgroupm为视频样本X的第m个视频分段的视觉特征的运动基元数量。本专利技术较佳实施例还提供一种视频特征学习装置,应用于电子设备,所述装置包括:获得模块,用于获得待训练的视频样本,所述视频样本包括有多帧图像。分段模块,用于对所述视频样本进行分段,得到多个连续的视频分段,其中,每个所述视频分段对应至少一个运动基元。第一提取模块,用于针对各视频分段,提取各视频分段的视觉特征,并计算各视频分段的运动基元数量。第二提取模块,用于针对所述视频样本,提取所述视频样本的视觉特征,并计算所述视频样本的运动基元数量。训练模块,用于基于各视频分段的运动基元数量、所述视频样本的运动基元数量和预设约束条件对目标分类模型进行训练,得到训练后的目标分类模型。本专利技术较佳实施例还提供一种电子设备,所述电子设备包括:存储器;处理器;以及视频特征学习装置,所述装置存储于所述存储器中并包括由所述处理器执行的软件功能模块,所述装置包括:获得模块,用于获得待训练的视频样本,所述视频样本包括有多帧图像。分段模块,用于对所述视频样本进行分段,得到多个连续的视频分段,其中,每个所述视频分段对应至少一个运动基元。第一提取模块,用于针对各视频分段,提取各视频分段的视觉特征,并计算各视频分段的运动基元数量。第二提取模块,用于针对所述视频样本,提取所述视频样本的视觉特征,并计算所述视频样本的运动基元数量。训练模块,用于基于各视频分段的运动基元数量、所述视频样本的运动基元数量和预设约束条件对目标分类模型进行训练,得到训练后的目标分类模型。本专利技术较佳实施例还提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被执行时实现上述的视频特征学习方法。相对于现有技术而言,本专利技术具有以下有益效果:本专利技术实施例提供一种视频特征学习方法、装置、电子设备及可读存储介质,首先,获得待训练的视频样本,并对所述视频样本进行分段,得到多个连续的视频分段,接着,针对各视频分段,提取各视频分段的视觉特征,并计算各视频分段的运动基元数量,同时,针对所述视频样本,提取所述视频样本的视觉特征,并计算所述视频样本的运动基元数量,最后基于各视频分段的运动基元数量、所述视频样本的运动基元数量和预设约束条件对目标分类模型进行训练,得到训练后的目标分类模型,以实现对视频特征的学习。由此,不需要获知视频样本的标签和分类信息,只需要提供两组或者多组不同视频样本,通过对视频运动基元的提取就可以实现无监督学习。另外,由于基于视频自身底层信息,关注视频自身内容,具有更好的自适应性,针对运动信息较多(画面和场景变化大)和运动信息较少(画面和场景变化小)的视频样本都可以提取运动基元,通用性较强。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。图1为本专利技术较佳实施例提供的视频特征学习方法的一种流程示意图;图2为本专利技术较佳实施例提供的视频分段组合的一种示意图;图3为本专利技术较佳实施例提供的运动基元分解的一种示意图;图4为本专利技术较佳实施例提供的视频分段组合提取运动基元的一种方框示意图;图5为本专利技术较佳实施例提供的用于实现上述视频特征学习方法的电子设备的方框示意图。图标:100-电子设备;110-存储器;120-处理器;200-视频特征学习装置;210-获得模块;220-分段模块;230-第一提取模块;240-第二提取模块;250-训练模块。具体实施方式本申请专利技术人在实现本专利技术实施例提供的技术方案过程中,发现目前采用的有监督的视频特征学习方法基于视频标签和分类信息,需要人工标注作业,在数据量巨大的实际业务应用场景,非常消耗资源和成本,针对上述问题,目前已有的无监督视频特征学习方法虽然可以在一定程度上改善上述问题,但是经专利技术人仔细研究后发现,目前的无监督视频特征学习方法主要是利用了视频中主体物体的连续运动本文档来自技高网...

【技术保护点】
1.一种视频特征学习方法,其特征在于,应用于电子设备,所述方法包括:获得待训练的视频样本,所述视频样本包括有多帧图像;对所述视频样本进行分段,得到多个连续的视频分段,其中,每个所述视频分段对应至少一个运动基元;针对各视频分段,提取各视频分段的视觉特征,并计算各视频分段的运动基元数量;针对所述视频样本,提取所述视频样本的视觉特征,并计算所述视频样本的运动基元数量;基于各视频分段的运动基元数量、所述视频样本的运动基元数量和预设约束条件对目标分类模型进行训练,得到训练后的目标分类模型,以实现对视频特征的学习。

【技术特征摘要】
1.一种视频特征学习方法,其特征在于,应用于电子设备,所述方法包括:获得待训练的视频样本,所述视频样本包括有多帧图像;对所述视频样本进行分段,得到多个连续的视频分段,其中,每个所述视频分段对应至少一个运动基元;针对各视频分段,提取各视频分段的视觉特征,并计算各视频分段的运动基元数量;针对所述视频样本,提取所述视频样本的视觉特征,并计算所述视频样本的运动基元数量;基于各视频分段的运动基元数量、所述视频样本的运动基元数量和预设约束条件对目标分类模型进行训练,得到训练后的目标分类模型,以实现对视频特征的学习。2.根据权利要求1所述的视频特征学习方法,其特征在于,所述提取各视频分段的视觉特征的方式,包括:通过预先配置的特征提取模型或者深度学习模型将各视频分段中的各帧图像信息进行融合后提取各视频分段的视觉特征。3.根据权利要求1所述的视频特征学习方法,其特征在于,所述计算各视频分段的运动基元数量的方式,包括:将所述各视频分段的视觉特征输入到预先配置的运动基元计算模型,得到各视频分段的运动基元数量。4.根据权利要求1所述的视频特征学习方法,其特征在于,所述基于各视频分段的运动基元数量、所述视频样本的运动基元数量和预设约束条件对目标分类模型进行训练,得到训练后的目标分类模型,包括:基于各视频分段的运动基元数量和所述视频样本的运动基元数量对目标分类模型进行训练;在训练过程中根据预设损失函数计算该目标分类模型的Loss值,直到所述Loss值小于预设值时结束训练,得到训练后的目标分类模型,其中,当所述Loss值小于预设值时,所述训练后的目标分类模型满足所述预设约束条件。5.根据权利要求4所述的视频特征学习方法,其特征在于,所述预设损失函数为:其中,Xtotal为视频样本X,Xm为视频视频样本X中的第m个视频分段,Y为不同于视频样本X的另一个视频样本,函数F为对视频片段的特征表示方法,函数N为根据视频特征提取运动基元数量的方法,为将视频样本X中所有视频分段取样的运动基元数量相加的方法,C为用于保证最优解非零的一个常数。6.根据权利要求1-5中任意一项所述的视频特征学习方法,其特征在于,所述预设约束...

【专利技术属性】
技术研发人员:丁大钧赵丽丽刘旭
申请(专利权)人:厦门美图之家科技有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1