神经网络训练及图像处理方法、装置、系统制造方法及图纸

技术编号:19547655 阅读:37 留言:0更新日期:2018-11-24 21:16
本发明专利技术提供了一种神经网络训练及图像处理方法、装置、系统,涉及视频提取技术领域,其中,该神经网络训练方法包括:首先,利用3D卷积神经网络对M帧图像进行3D卷积处理,获得M帧图像的特征图,之后,将M帧图像的特征图通过归一化指数函数,获得与M帧图像中每一帧图像为关键帧的概率值,之后,根据M个概率值以及应用端对M帧图像序列的评分,对3D卷积神经网络的网络参数进行调整,从而使经过调整后的网络参数更加适合关键帧的提取,解决了现有技术中关键帧提取时的无法适应视频内容的变化、无法借助高层的语义信息等的问题,使关键帧提取更加快速有效。

Neural Network Training and Image Processing Method, Device and System

The invention provides a neural network training and image processing method, device and system, which relates to the technical field of video extraction. The training method of the neural network includes: firstly, 3D convolution processing of M frame image by using 3D convolution neural network, obtaining the feature map of M frame image, and then, the feature map of M frame image. Through normalized exponential function, the probability of each frame in M frame image being the key frame is obtained. Then, according to M probability values and the evaluation of M frame image sequence at application end, the network parameters of 3D convolution neural network are adjusted, so that the adjusted network parameters are more suitable for extracting key frames. In the existing technology, key frame extraction can not adapt to the changes of video content, and can not rely on high-level semantic information, so that key frame extraction is faster and more effective.

【技术实现步骤摘要】
神经网络训练及图像处理方法、装置、系统
本专利技术涉及视频提取
,尤其是涉及一种神经网络训练及图像处理方法、装置、系统。
技术介绍
在视频处理和分析过程中,需要选取其中的一些视频帧作为关键帧,之后,将关键帧作为处理和分析的对象,即关键帧提取是在一组镜头内高度冗余的连续多帧中提取具有代表性并且质量高的少数帧来保存或分析,从而降低存储空间和计算量。目前,常见的关键帧提取的方法有:(1)固定步长采样方法,该方法虽实现简单,但是,固定的步长无法适应视频内容的变化;(2)基于变化阈值的帧差方法,该方法无法保证提取高质量的关键帧;(3)基于运动光流的关键帧选择,该方法依赖于光流计算的准确度,并且,是一种非可学习的方法;(4)基于聚类的选择方法,该方法是一种非监督方法,而且,对异常帧较为敏感,但是,无法借助高层的语义信息来进行分析。可见,现有的提取方法都无法快速有效的从视频中提取出关键帧。针对上述问题,还未提出有效的解决方案。
技术实现思路
有鉴于此,本专利技术的目的在于提供了神经网络训练及图像处理方法、装置、系统,增加了关键帧提取的可靠性。第一方面,本专利技术实施例提供了一种神经网络训练方法,包括:利用3D卷积神经网络对M帧图像进行3D卷积处理,获得M帧图像的特征图;将M帧图像的特征图通过归一化指数函数,获得与M帧图像中每一帧图像为关键帧的概率值;根据M个概率值以及应用端对M帧图像序列的评分,对3D卷积神经网络的网络参数进行调整。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,3D卷积神经网络中,每一层的3D卷积核为五维数组,每个维度的尺寸分别表示卷积核的时间深度、高度、宽度、输入通道数和输出通道数。结合第一方面第一种可能的实施方式,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,根据M个概率值以及应用端对M帧图像序列的评分,对3D卷积神经网络的网络参数进行调整,具体包括:以M个概率值作为权重,与每一帧输入图像的评分相乘,得到每一帧输入图像的奖赏;根据每一帧输入图像的奖赏,通过策略梯度调整3D卷积神经网络的网络参数。结合第一方面第一种可能的实施方式,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,根据M个概率值以及应用端对M帧图像序列的评分,对3D卷积神经网络的网络参数进行调整,具体包括:以M个概率值π(am|θ)作为权重,与每一帧输入图像的评分相乘,得到每一帧输入图像的奖赏Rm,其中,am表示选取第m帧作为关键帧的动作,θ为网络参数;对每一帧输入图像的奖赏Rm进行降低方差处理,获得降低方差后的奖赏Rm-b,其中,基于3D卷积神经网络的目标函数以及目标函数对网络参数θ的偏导数通过策略梯度算法,梯度反向传播,来更新各层网络参数θ。结合第一方面第一种可能的实施方式,本专利技术实施例提供了第一方面的第四种可能的实施方式,利用3D卷积神经网络对M帧图像进行3D卷积处理,获得M帧图像的特征图之前,还包括:获取镜头片段中的N帧输入图像;按照预设的间隔从N帧输入图像中提取出M帧图像。结合第一方面第一种可能的实施方式,本专利技术实施例提供了第一方面的第五种可能的实施方式,根据M个概率值以及应用端对M帧图像序列的评分,对3D卷积神经网络的网络参数进行调整,具体包括:以M个概率值π(am|θ)作为权重,与每一帧输入图像的评分相乘,得到每一帧输入图像的奖赏Rm,其中,am表示选取第m帧作为关键帧的动作,θ为网络参数;按照M个概率值π(am|θ)将M帧图像构成多项式分布;从M帧图像中抽取出K帧图像;对每一帧输入图像的奖赏Rm进行降低方差处理,获得降低方差后的奖赏Rm-b,其中,基于3D卷积神经网络的目标函数以及目标函数对网络参数θ的偏导数通过策略梯度算法,梯度反向传播,更新各层网络参数θ。第二方面,本专利技术实施例还提供一种图像处理方法,包括:利用3D卷积神经网络对M帧图像进行3D卷积处理,获得M帧图像的特征图;将M帧图像的特征图通过归一化指数函数,获得与M帧图像中每一帧图像为关键帧的概率值;选取概率值高于预设阈值的输入图像作为关键帧。结合第二方面,本专利技术实施例提供了第二方面的第一种可能的实施方式,其中,3D卷积神经网络中,每一层的3D卷积核为五维数组,每个维度的尺寸分别表示卷积核的时间深度、高度、宽度、输入通道数和输出通道数。结合第二方面,本专利技术实施例提供了第二方面的第二种可能的实施方式,其中,需要选取一个关键帧时,预设阈值为0.5;需要选取两个以上关键帧时,预设阈值为0.3。第三方面,本专利技术实施例还提供一种神经网络训练装置,包括:3D卷积模块,用于利用3D卷积神经网络对M帧图像进行3D卷积处理,获得M帧图像的特征图;概率值获取模块,用于将M帧图像的特征图通过归一化指数函数,获得与M帧图像中每一帧图像为关键帧的概率值;网络参数调整模块,用于根据M个概率值以及应用端对M帧图像的评分,对3D卷积神经网络的网络参数进行调整。第四方面,本专利技术实施例还提供一种关键帧提取装置,包括:3D卷积模块,用于利用3D卷积神经网络对M帧图像进行3D卷积处理,获得M帧图像的特征图;概率值获取模块,用于将M帧图像的特征图通过归一化指数函数,获得与M帧图像中每一帧图像为关键帧的概率值;关键帧提取模块,用于选取概率值高于预设阈值的输入图像作为关键帧。第五方面,本专利技术实施例还提供一种图像处理系统,包括:图像采集装置、处理器和存储装置;图像采集装置,用于采集待识别的图像信息;存储装置上存储有计算机程序,计算机程序在被处理器运行时执行上述的方法。第六方面,本专利技术实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述任一项方法的步骤。本专利技术实施例带来了以下有益效果:本专利技术实施例提供的神经网络训练方法中,经过3D卷积处理M帧图像并获得M帧图像的特征图,从而能够从连续的视频帧中获得多通道的信息,之后,通过归一化指数函数获得与M帧图像中每一帧图像为关键帧的概率值,分别通过各个概率值的大小来衡量每一帧图像为关键帧的可能性,从而有效的比较出了第m帧作为输出的概率,之后,根据M个概率值以及应用端对M帧图像序列的评分,对3D卷积神经网络的网络参数进行调整,从而获取更加可靠的关键帧提取模型,这样,在进行关键帧提取时,能够预先通过3D卷积处理获取图像的特征图,以及通过归一化指数函数获取到每一帧图像为关键帧的概率值,并结合上述概率值获得的评分对3D卷积神经网络的网络参数进行调整,使得网络参数在修正后更加适合关键帧的提取,并以此构建更加可靠的关键帧提取模型,从而使提取出的关键帧更加有效可靠。本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可本文档来自技高网...

【技术保护点】
1.一种神经网络训练方法,其特征在于,包括:利用3D卷积神经网络对M帧图像进行3D卷积处理,获得所述M帧图像的特征图;将所述M帧图像的特征图通过归一化指数函数,获得与所述M帧图像中每一帧图像为关键帧的概率值;根据M个所述概率值以及应用端对所述M帧图像的评分,对所述3D卷积神经网络的网络参数进行调整。

【技术特征摘要】
1.一种神经网络训练方法,其特征在于,包括:利用3D卷积神经网络对M帧图像进行3D卷积处理,获得所述M帧图像的特征图;将所述M帧图像的特征图通过归一化指数函数,获得与所述M帧图像中每一帧图像为关键帧的概率值;根据M个所述概率值以及应用端对所述M帧图像的评分,对所述3D卷积神经网络的网络参数进行调整。2.根据权利要求1所述的方法,其特征在于,所述3D卷积神经网络中,每一层的3D卷积核为五维数组,每个维度的尺寸分别表示卷积核的时间深度、高度、宽度、输入通道数和输出通道数。3.根据权利要求2所述的方法,其特征在于,所述根据所述M个概率值以及应用端对所述M帧图像序列的评分,对所述3D卷积神经网络的网络参数进行调整,具体包括:以所述M个概率值作为权重,与每一帧输入图像的评分相乘,得到每一帧输入图像的奖赏;根据每一帧输入图像的奖赏,通过策略梯度调整所述3D卷积神经网络的网络参数。4.根据权利要求2所述的方法,其特征在于,所述根据所述M个概率值以及应用端对所述M帧图像序列的评分,对所述3D卷积神经网络的网络参数进行调整,具体包括:以所述M个概率值π(am|θ)作为权重,与每一帧输入图像的评分相乘,得到每一帧输入图像的奖赏Rm,其中,am表示选取第m帧作为关键帧的动作,θ为网络参数;对每一帧输入图像的奖赏Rm进行降低方差处理,获得降低方差后的奖赏Rm-b,其中,基于所述3D卷积神经网络的目标函数以及目标函数对网络参数θ的偏导数通过策略梯度算法,梯度反向传播,更新各层网络参数θ。5.根据权利要求1所述的方法,其特征在于,所述利用3D卷积神经网络对M帧图像进行3D卷积处理,获得所述M帧图像的特征图之前,还包括:获取N帧输入图像;按照预设的间隔从所述N帧输入图像中提取出所述M帧图像。6.根据权利要求2所述的方法,其特征在于,所述根据所述M个概率值以及应用端对所述M帧图像序列的评分,对所述3D卷积神经网络的网络参数进行调整,具体包括:以所述M个概率值π(am|θ)作为权重,与每一帧输入图像的评分相乘,得到每一帧输入图像的奖赏Rm,其中,am表示选取第m帧作为关键帧的动作,θ为网络参数;按照所述M个概率值π(am|θ)将所述M帧图像构成多项式分布;...

【专利技术属性】
技术研发人员:赵子健俞刚
申请(专利权)人:北京旷视科技有限公司北京迈格威科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1