时间信息差异的度量算法制造技术

技术编号:20390465 阅读:22 留言:0更新日期:2019-02-20 03:05
时间信息差异的度量算法,属于计算机视觉应用中的视频理解领域,为了解决增加卷积神经网络可获取信息的种类,时间信息的最大均值差异为:将原始视频图像与卷积特征图分为两个集合,各集合内,相邻的两个图像作为集合内的一组待计算时间信息元素,得到的集合即为第一原始视频图像集合、第一卷积特征图集合,效果是所以两组数据的时间信息也可以被视为拥有直接联系,合理运用两者之间的联系对于视频理解领域及其相关应用具有一定的价值。

【技术实现步骤摘要】
时间信息差异的度量算法
本专利技术属于计算机视觉应用中的视频理解领域,具体的说是一种度量视频连续帧与其卷积特征图间差异的方法。
技术介绍
深度学习利用神经网络结构构建的模型实现了端到端应用方式的同时,模型本身对于庞大数据中关键信息的储存能力保证了模型的可靠程度,使深度学习模型相较于传统算法来说有着不可比拟的优势,在短暂的几年时间中被图像、语音、文本领域的众多学者研究并取得了长足的发展。在计算机视觉技术中的目标检测、目标分类、目标识别、目标分割等针对单帧图像应用中,深度学习都能够得到满足实际落地需求精度的对应模型。Faster-RCNN算法作为当下多种目标检测算法的基础计算结构,利用建议区域与提取特征卷积的双重结构在目标检测的过程中相互反馈,将建议区域生成窗口的置信度、卷积特征权重与最终输出目标检测结果的正确率进行关联式计算,使之在神经网络正反向传播的过程中共同提升拟合程度,最终达到优良的效果。深度残差神经网络在多个计算机视觉应用的方向都表现出了良好的效果,它通过阶段式的引入短路层的方法来处理神经元之间交换的信息,使神经网络的正向传递过程变得十分平滑,从而有效解决深度神经网络中的梯度消失和梯度爆炸问题。OSVOS(OneShotVideoObjectSegmentation)算法作为一种经典的目标分割神经网络方法,将图像提取前景与轮廓的部分分流计算,与前景掩码重合度大于一定程度的轮廓区域作为最终的分割结果,使目标分割具有良好的鲁棒性。随着对于单帧图像相关应用技术的日渐成熟,进一步的,对连续图像帧之间逻辑信息的理解,即对视频连续帧时间信息理解的研究需求也被提出。在对视频中的行人动作分类这一研究方向上,最主要的技术手段有两种,分别为利用光流信息的双流网络与3D卷积神经网络。双流网络将视频帧的RGB图像和光流图像分别作为输入数据,输入到两个网络来进行模型的训练,将彼此输出的判定信息融合计算,来得到最终的行人动作分类结果。3D卷积神经网络利用3维卷积核处理连续的多帧图像,保留了视频连续帧的时间信息,从而得到可靠地分类结果。但由于视频理解方向的发展时间并不算长,在实际应用场景下的准确度并不能让人满意。越来越多的学者认为现有的方法无法准确的提取视频连续帧的时间信息,从而导致模型的准确度不足以达到应用需求,需要对原始方法进一步改进。
技术实现思路
为了解决增加卷积神经网络可获取信息的种类,从而加大卷积神经网络对于视频数据的理解能力的问题,本专利技术提出如下技术方案:一种时间信息差异的度量算法,时间信息的最大均值差异为:f(x)是第三原始视频图像集合,f(xc)是第三卷积特征图集合,f是被映射的可再生核希尔伯特空间上的连续函数集,n是得到的视频帧图像总数;其中:第二原始视频图像集合P’n-1与第二卷积特征图集合Q'n-1的集合内的所有数据进行空间映射计算并求平均,得到第三原始视频图像集合f(x)与第三卷积特征图集合f(xc);其中:针对第一原始视频图像集合:Pn-1={[x1,x2],[x2,x3],[x3,x4]…[xn-1,xn]}第一卷积特征图集合:对维度不同的数据的进行补零升维或去零降维以使得各数据同维度,得到第二原始视频图像集合P’n-1与第二卷积特征图集合Q'n-1;其中:xi是原始视频图像帧,是原始视频图像帧对应的卷积特征图,i是帧数,将原始视频图像与卷积特征图分为两个集合,各集合内,相邻的两个图像作为集合内的一组待计算时间信息元素,得到的集合即为第一原始视频图像集合Pn-1、第一卷积特征图集合Qn-1。有益效果:(1)利用时间信息差异方法得到可靠的时间信息差异,可以在卷积神经网络的训练过程中得以良好的运用。通过原输入视频连续帧与其卷积特征图间的时间信息差异来丰富神经网络的梯度信息,使训练神经网络模型的过程更为可靠,最终提升模型对输入数据时间信息的理解能力。将时间信息差异参数作为损失函数的一部分,使其参与卷积神经网络反向传播的梯度下降过程,由于梯度下降过程本身能够根据损失函数的数值来对网络中各个卷积核的梯度进行对应的求导和更新,以降低损失函数的数值为反向传播的最终目的。而将时间信息差异参数也作为损失函数一部分的同时,使卷积神经网络在更新各个卷积核的梯度时不仅运用了输出值与真实值的差异大小信息,也运用了最大均值差异来作为梯度更新的计算依据,导致各个卷积核的梯度参数朝着减小最大均值差异的方向进行更新。随着梯度下降,两组时间信息的相似度趋向于增加,从而保证卷积神经网络能够更好的保留原始数据的时间信息。(2)时间信息差异方法中运用的可再生核希尔伯特空间拥有完备的内积空间,将信息映射到该空间能够完好的保留原始数据的性质,保证时间信息差异方法计算的数据足够可靠,能有效的体现出视频连续帧与其卷积特征图间的时间信息差异。同时,该映射空间本身具有稳健的正则性,可以保证方法具有足够的连续性,即随着输入数据集合的增大,方法也能够快速收敛到它的期望值。(3)现有常见卷积神经网络的特征计算重点仅仅在于场景信息上,无法很好地运用到时间信息,本方法将卷积神经网络结合时间信息差异方法来使其获取了视频连续帧与其卷积特征图间的时间信息差异,提升了网络可获取信息的种类,从而加大卷积神经网络对于视频数据的理解能力。通过度量视频连续帧与其卷积特征图间时间信息差异并使其参与反向传播过程,从而提升模型对视频连续帧时间信息理解能力的同时,也能够提高该神经网络模型在视频理解相关的多种应用中的准确程度,例如提升视频动作分类的正确性,提高视频行为识别的精确性,保证监控视频内异常行为检测的有效输出等等。进一步的在其他应用场景下也能够提供一定的辅助功能,例如在航拍视频的相关识别应用中提供可靠的时间信息差异,在自主汽车视觉感应部分的障碍物检测系统中提升对非静态物体的理解能力,加大对不同时间段实时路况时间信息差异的理解能力,给自主汽车后续操作预判、路径规划等操作提供有效帮助。(4)由于本方法的计算逻辑主要针对不同数据之间的差异性来进行度量计算,通过对不同的输入数据使用合适的跨领域转换手段,可以使本方法不仅能够用于度量视频连续帧与其卷积特征图之间的时间信息差异,也能够有助于度量连续的语音信息的相关应用任务:比如将不同地方方言甚至不同语言的语音数据进行提取比较,得出不同语言之间的音调差异与语法结构差异,使神经网络具备根据语音数据来判断不同语言类型的能力;或者针对连续的文本信息的相关应用任务:通过对不同体裁的文本信息差异进行对比计算,使神经网络具备根据文本信息来判断该文本体裁类型的能力;等其他可以运用其他数据类型差异信息的相关应用,拥有很好的跨领域推广性。附图说明图1是本方法处理某一组视频连续帧与其卷积特征图的示意图图2是实施实例1中两幅原始的视频连续帧图像图3是实施实例1中两幅原始视频连续帧图像对应的卷积特征图图4是实施实例1所得的量化时间信息差异距离图5是实施实例2中两幅原始的视频连续帧图像图6是实施实例2中两幅原始视频连续帧图像对应的卷积特征图图7是实施实例2所得的量化时间信息差异距离图8是实施实例3中两幅原始的视频连续帧图像图9是实施实例3中两幅原始视频连续帧图像对应的卷积特征图图10是实施实例3所得的量化时间信息差异距离图11是实施实例4中两幅原始的视频连续帧本文档来自技高网
...

【技术保护点】
1.一种时间信息差异的度量算法,其特征在于:时间信息的最大均值差异为:

【技术特征摘要】
1.一种时间信息差异的度量算法,其特征在于:时间信息的最大均值差异为:f(x)是第三原始视频图像集合,f(xc)是第三卷积特征图集合,f是被映射的可再生核希尔伯特空间上的连续函数集,n是得到的视频帧图像总数;其中:第二原始视频图像集合P′n-1与第二卷积特征图集合Q'n-1的集合内的所有数据进行空间映射计算并求平均,得到第三原始视频图像集合f(x)与第三卷积特征图集合f(xc);其中:针对第一原始视频图像集合:Pn-1={[x1,x2],...

【专利技术属性】
技术研发人员:毛琳陈思宇杨大伟
申请(专利权)人:大连民族大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1