The invention provides a neural network training and image processing method, device and system, which relates to the technical field of video extraction. The training method of the neural network includes: firstly, 3D convolution processing of M frame image by using 3D convolution neural network, obtaining the feature map of M frame image, and then, the feature map of M frame image. Through normalized exponential function, the probability of each frame in M frame image being the key frame is obtained. Then, according to M probability values and the evaluation of M frame image sequence at application end, the network parameters of 3D convolution neural network are adjusted, so that the adjusted network parameters are more suitable for extracting key frames. In the existing technology, key frame extraction can not adapt to the changes of video content, and can not rely on high-level semantic information, so that key frame extraction is faster and more effective.
【技术实现步骤摘要】
神经网络训练及图像处理方法、装置、系统
本专利技术涉及视频提取
,尤其是涉及一种神经网络训练及图像处理方法、装置、系统。
技术介绍
在视频处理和分析过程中,需要选取其中的一些视频帧作为关键帧,之后,将关键帧作为处理和分析的对象,即关键帧提取是在一组镜头内高度冗余的连续多帧中提取具有代表性并且质量高的少数帧来保存或分析,从而降低存储空间和计算量。目前,常见的关键帧提取的方法有:(1)固定步长采样方法,该方法虽实现简单,但是,固定的步长无法适应视频内容的变化;(2)基于变化阈值的帧差方法,该方法无法保证提取高质量的关键帧;(3)基于运动光流的关键帧选择,该方法依赖于光流计算的准确度,并且,是一种非可学习的方法;(4)基于聚类的选择方法,该方法是一种非监督方法,而且,对异常帧较为敏感,但是,无法借助高层的语义信息来进行分析。可见,现有的提取方法都无法快速有效的从视频中提取出关键帧。针对上述问题,还未提出有效的解决方案。
技术实现思路
有鉴于此,本专利技术的目的在于提供了神经网络训练及图像处理方法、装置、系统,增加了关键帧提取的可靠性。第一方面,本专利技术实施例提供了一种神经网络训练方法,包括:利用3D卷积神经网络对M帧图像进行3D卷积处理,获得M帧图像的特征图;将M帧图像的特征图通过归一化指数函数,获得与M帧图像中每一帧图像为关键帧的概率值;根据M个概率值以及应用端对M帧图像序列的评分,对3D卷积神经网络的网络参数进行调整。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,3D卷积神经网络中,每一层的3D卷积核为五维数组,每个维度的尺寸 ...
【技术保护点】
1.一种神经网络训练方法,其特征在于,包括:利用3D卷积神经网络对M帧图像进行3D卷积处理,获得所述M帧图像的特征图;将所述M帧图像的特征图通过归一化指数函数,获得与所述M帧图像中每一帧图像为关键帧的概率值;根据M个所述概率值以及应用端对所述M帧图像的评分,对所述3D卷积神经网络的网络参数进行调整。
【技术特征摘要】
1.一种神经网络训练方法,其特征在于,包括:利用3D卷积神经网络对M帧图像进行3D卷积处理,获得所述M帧图像的特征图;将所述M帧图像的特征图通过归一化指数函数,获得与所述M帧图像中每一帧图像为关键帧的概率值;根据M个所述概率值以及应用端对所述M帧图像的评分,对所述3D卷积神经网络的网络参数进行调整。2.根据权利要求1所述的方法,其特征在于,所述3D卷积神经网络中,每一层的3D卷积核为五维数组,每个维度的尺寸分别表示卷积核的时间深度、高度、宽度、输入通道数和输出通道数。3.根据权利要求2所述的方法,其特征在于,所述根据所述M个概率值以及应用端对所述M帧图像序列的评分,对所述3D卷积神经网络的网络参数进行调整,具体包括:以所述M个概率值作为权重,与每一帧输入图像的评分相乘,得到每一帧输入图像的奖赏;根据每一帧输入图像的奖赏,通过策略梯度调整所述3D卷积神经网络的网络参数。4.根据权利要求2所述的方法,其特征在于,所述根据所述M个概率值以及应用端对所述M帧图像序列的评分,对所述3D卷积神经网络的网络参数进行调整,具体包括:以所述M个概率值π(am|θ)作为权重,与每一帧输入图像的评分相乘,得到每一帧输入图像的奖赏Rm,其中,am表示选取第m帧作为关键帧的动作,θ为网络参数;对每一帧输入图像的奖赏Rm进行降低方差处理,获得降低方差后的奖赏Rm-b,其中,基于所述3D卷积神经网络的目标函数以及目标函数对网络参数θ的偏导数通过策略梯度算法,梯度反向传播,更新各层网络参数θ。5.根据权利要求1所述的方法,其特征在于,所述利用3D卷积神经网络对M帧图像进行3D卷积处理,获得所述M帧图像的特征图之前,还包括:获取N帧输入图像;按照预设的间隔从所述N帧输入图像中提取出所述M帧图像。6.根据权利要求2所述的方法,其特征在于,所述根据所述M个概率值以及应用端对所述M帧图像序列的评分,对所述3D卷积神经网络的网络参数进行调整,具体包括:以所述M个概率值π(am|θ)作为权重,与每一帧输入图像的评分相乘,得到每一帧输入图像的奖赏Rm,其中,am表示选取第m帧作为关键帧的动作,θ为网络参数;按照所述M个概率值π(am|θ)将所述M帧图像构成多项式分布;...
【专利技术属性】
技术研发人员:赵子健,俞刚,
申请(专利权)人:北京旷视科技有限公司,北京迈格威科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。