度量视频连续帧与其卷积特征图间差异的系统及装置制造方法及图纸

技术编号:20364186 阅读:13 留言:0更新日期:2019-02-16 17:06
度量视频连续帧与其卷积特征图间差异的系统及装置,属于计算机视觉应用中的视频理解领域,为了解决增加卷积神经网络可获取信息的种类,从而加大卷积神经网络对于视频数据的理解能力的问题,包括摄像头及计算机,所述的摄像头用于拍摄视频,所述计算机存储有多条指令,所述指令适于处理器加载并执行:将摄像头拍摄的视频连续帧数据与其对应卷积特征图用于计算,以获取二者的关于时间信息的差异;将时间信息的差异作为卷积神经网络损失函数的一部分,参与卷积神经网络反向传播的梯度下降过程,使卷积核的梯度参数朝着保留输入数据时间信息的情况来进行参数更新。

【技术实现步骤摘要】
度量视频连续帧与其卷积特征图间差异的系统及装置
本专利技术属于计算机视觉应用中的视频理解领域,具体的说是一种度量视频连续帧与其卷积特征图间差异的方法、系统及装置。
技术介绍
深度学习利用神经网络结构构建的模型实现了端到端应用方式的同时,模型本身对于庞大数据中关键信息的储存能力保证了模型的可靠程度,使深度学习模型相较于传统算法来说有着不可比拟的优势,在短暂的几年时间中被图像、语音、文本领域的众多学者研究并取得了长足的发展。在计算机视觉技术中的目标检测、目标分类、目标识别、目标分割等针对单帧图像应用中,深度学习都能够得到满足实际落地需求精度的对应模型。Faster-RCNN算法作为当下多种目标检测算法的基础计算结构,利用建议区域与提取特征卷积的双重结构在目标检测的过程中相互反馈,将建议区域生成窗口的置信度、卷积特征权重与最终输出目标检测结果的正确率进行关联式计算,使之在神经网络正反向传播的过程中共同提升拟合程度,最终达到优良的效果。深度残差神经网络在多个计算机视觉应用的方向都表现出了良好的效果,它通过阶段式的引入短路层的方法来处理神经元之间交换的信息,使神经网络的正向传递过程变得十分平滑,从而有效解决深度神经网络中的梯度消失和梯度爆炸问题。OSVOS(OneShotVideoObjectSegmentation)算法作为一种经典的目标分割神经网络方法,将图像提取前景与轮廓的部分分流计算,与前景掩码重合度大于一定程度的轮廓区域作为最终的分割结果,使目标分割具有良好的鲁棒性。随着对于单帧图像相关应用技术的日渐成熟,进一步的,对连续图像帧之间逻辑信息的理解,即对视频连续帧时间信息理解的研究需求也被提出。在对视频中的行人动作分类这一研究方向上,最主要的技术手段有两种,分别为利用光流信息的双流网络与3D卷积神经网络。双流网络将视频帧的RGB图像和光流图像分别作为输入数据,输入到两个网络来进行模型的训练,将彼此输出的判定信息融合计算,来得到最终的行人动作分类结果。3D卷积神经网络利用3维卷积核处理连续的多帧图像,保留了视频连续帧的时间信息,从而得到可靠地分类结果。但由于视频理解方向的发展时间并不算长,在实际应用场景下的准确度并不能让人满意。越来越多的学者认为现有的方法无法准确的提取视频连续帧的时间信息,从而导致模型的准确度不足以达到应用需求,需要对原始方法进一步改进。
技术实现思路
为了解决增加卷积神经网络可获取信息的种类,从而加大卷积神经网络对于视频数据的理解能力的问题,本专利技术提出如下技术方案:一种度量视频连续帧与其卷积特征图间差异系统,包括摄像头及计算机,所述的摄像头用于拍摄视频,所述计算机存储有多条指令,所述指令适于处理器加载并执行:将摄像头拍摄的视频连续帧数据与其对应卷积特征图用于计算,以获取二者的关于时间信息的差异;将时间信息的差异作为卷积神经网络损失函数的一部分,参与卷积神经网络反向传播的梯度下降过程,使卷积核的梯度参数朝着保留输入数据时间信息的情况来进行参数更新。进一步的,所述计算机基于如下方式获取关于时间信息的差异:第一步:将视频转换为图像,得到总数为n的视频帧图像,取出所有原始视频图像帧xi,以及该图像帧对应的卷积特征图其中i代表帧数,将原始视频图像与卷积特征图分为两个集合,各集合内,相邻的两个图像作为集合内的一组待计算时间信息元素;第二步:对维度不同的数据的进行补零升维或去零降维以使得各数据同维度,得到第二原始视频图像集合P′n-1与第二卷积特征图集合Q'n-1;第三步:将第二原始视频图像集合P′n-1与第二卷积特征图集合Q'n-1的集合内的所有数据进行空间映射计算并求平均,得到第三原始视频图像集合f(x)与第三卷积特征图集合f(xc);其中f代表被映射的可再生核希尔伯特空间上的连续函数集;第四步:对第三原始视频图像集合f(x)、第三卷积特征图集合f(xc),分别计算各集合内的各组待计算同维度时间信息元素的映射数据的差值,对差值求和并计算平均值,对所述两个均值作差并平方,得到时间信息的最大均值差异;第五步:将时间信息的最大均值差异的数值作为卷积神经网络模型损失函数的一部分,参与网络反向传播中的梯度下降过程,使卷积核的梯度参数朝着保留输入数据时间信息的情况来进行参数更新。进一步的,第一原始视频图像集合表示为:Pn-1={[x1,x2],[x2,x3],[x3,x4]…[xn-1,xn]}第一卷积特征图集合表示为:用算式表示时间信息的最大均值差异为:进一步的,可再生核希尔伯特空间是利用可再生核函数作为空间内基础数据构成的具有完备性的内积空间,完备性代表该空间内任何函数的极限运算都不能脱离该空间的范围,内积空间为一种任意维度空间内任意数据都可进行内积并满足数据间共轭对称、线性性与正定性的空间,任何满足上述两个条件的空间都被称为希尔伯特空间,可再生核函数代表满足在无限维空间中拥有特征值与特征函数且任意特征函数都两两正交的核函数。进一步的,所述计算机基于如下方式实现使卷积核的梯度参数朝着保留输入数据时间信息的情况来进行参数更新:卷积神经网络在更新各个卷积核的梯度时不仅运用了输出值与真实值的差异大小信息,也运用了最大均值差异来作为梯度更新的计算依据,使各个卷积核的梯度参数朝着减小最大均值差异的方向进行更新,减小两组时间信息的最大均值差异代表:随着梯度下降,两组时间信息的相似度趋向于增加,从而保证卷积神经网络能够更好的保留原始数据的时间信息。本专利技术还涉及一种度量视频连续帧与其卷积特征图间差异装置,包括时间信息的差异获取模块:将摄像头拍摄的视频连续帧数据与其对应卷积特征图用于计算,以获取二者的关于时间信息的差异;参数更新模块:将时间信息的差异作为卷积神经网络损失函数的一部分,参与卷积神经网络反向传播的梯度下降过程,使卷积核的梯度参数朝着保留输入数据时间信息的情况来进行参数更新。进一步的,所述时间信息的差异获取模块基于如下方式实现获取时间信息的差异:将视频转换为图像,得到总数为n的视频帧图像,取出所有原始视频图像帧xi,以及该图像帧对应的卷积特征图其中i代表帧数,将原始视频图像与卷积特征图分为两个集合,各集合内,相邻的两个图像作为集合内的一组待计算时间信息元素;对维度不同的数据的进行补零升维或去零降维以使得各数据同维度,得到第二原始视频图像集合P′n-1与第二卷积特征图集合Q'n-1;将第二原始视频图像集合P′n-1与第二卷积特征图集合Q'n-1的集合内的所有数据进行空间映射计算并求平均,得到第三原始视频图像集合f(x)与第三卷积特征图集合f(xc);其中f代表被映射的可再生核希尔伯特空间上的连续函数集;对第三原始视频图像集合f(x)、第三卷积特征图集合f(xc),分别计算各集合内的各组待计算同维度时间信息元素的映射数据的差值,对差值求和并计算平均值,对所述两个均值作差并平方,得到时间信息的最大均值差异。进一步的,所述参数更新模块基于如下方式实现更新:将时间信息的最大均值差异的数值作为卷积神经网络模型损失函数的一部分,参与网络反向传播中的梯度下降过程,使卷积核的梯度参数朝着保留输入数据时间信息的情况来进行参数更新。进一步的,第一原始视频图像集合表示为:Pn-1={[x1,x2],[x2,x3],[x3,x4]本文档来自技高网
...

【技术保护点】
1.一种度量视频连续帧与其卷积特征图间差异系统,其特征在于:包括摄像头及计算机,所述的摄像头用于拍摄视频,所述计算机存储有多条指令,所述指令适于处理器加载并执行:将摄像头拍摄的视频连续帧数据与其对应卷积特征图用于计算,以获取二者的关于时间信息的差异;将时间信息的差异作为卷积神经网络损失函数的一部分,参与卷积神经网络反向传播的梯度下降过程,使卷积核的梯度参数朝着保留输入数据时间信息的情况来进行参数更新。

【技术特征摘要】
1.一种度量视频连续帧与其卷积特征图间差异系统,其特征在于:包括摄像头及计算机,所述的摄像头用于拍摄视频,所述计算机存储有多条指令,所述指令适于处理器加载并执行:将摄像头拍摄的视频连续帧数据与其对应卷积特征图用于计算,以获取二者的关于时间信息的差异;将时间信息的差异作为卷积神经网络损失函数的一部分,参与卷积神经网络反向传播的梯度下降过程,使卷积核的梯度参数朝着保留输入数据时间信息的情况来进行参数更新。2.如权利要求1所述的度量视频连续帧与其卷积特征图间差异系统,其特征在于:所述计算机基于如下方式获取关于时间信息的差异:第一步:将视频转换为图像,得到总数为n的视频帧图像,取出所有原始视频图像帧xi,以及该图像帧对应的卷积特征图其中i代表帧数,将原始视频图像与卷积特征图分为两个集合,各集合内,相邻的两个图像作为集合内的一组待计算时间信息元素;第二步:对维度不同的数据的进行补零升维或去零降维以使得各数据同维度,得到第二原始视频图像集合P′n-1与第二卷积特征图集合Q'n-1;第三步:将第二原始视频图像集合P′n-1与第二卷积特征图集合Q'n-1的集合内的所有数据进行空间映射计算并求平均,得到第三原始视频图像集合f(x)与第三卷积特征图集合f(xc);其中f代表被映射的可再生核希尔伯特空间上的连续函数集;第四步:对第三原始视频图像集合f(x)、第三卷积特征图集合f(xc),分别计算各集合内的各组待计算同维度时间信息元素的映射数据的差值,对差值求和并计算平均值,对所述两个均值作差并平方,得到时间信息的最大均值差异;第五步:将时间信息的最大均值差异的数值作为卷积神经网络模型损失函数的一部分,参与网络反向传播中的梯度下降过程,使卷积核的梯度参数朝着保留输入数据时间信息的情况来进行参数更新。3.如权利要求1所述的度量视频连续帧与其卷积特征图间差异系统,其特征在于:第一原始视频图像集合表示为:Pn-1={[x1,x2],[x2,x3],[x3,x4]…[xn-1,xn]}第一卷积特征图集合表示为:用算式表示时间信息的最大均值差异为:4.如权利要求1所述的度量视频连续帧与其卷积特征图间差异系统,其特征在于:可再生核希尔伯特空间是利用可再生核函数作为空间内基础数据构成的具有完备性的内积空间,完备性代表该空间内任何函数的极限运算都不能脱离该空间的范围,内积空间为一种任意维度空间内任意数据都可进行内积并满足数据间共轭对称、线性性与正定性的空间,任何满足上述两个条件的空间都被称为希尔伯特空间,可再生核函数代表满足在无限维空间中拥有特征值与特征函数且任意特征函数都两两正交的核函数。5.如权利要求1所述的度量视频连续帧与其卷积特征图间差异系统,其特征在于:所述计算机基于如下方式实现使卷积核的梯度参数朝着保留输入数据时间信息的情况来进行参数更新:卷积神经网络在更新各个卷积核的梯度时不仅运用了输出值与真实值的差异大小信息,也运用了最大均值差异来作为梯度更新的计算依据,使各个卷积核的梯度参数朝着减小最大均值差异的方向进行更新,减小两组时间信息的最大均值差异代表:随着梯度下降,两组时间信息的相似度趋向于增加,从而保证卷积神经网络能够更好的保留原始数据的时间信息。6.一种度量...

【专利技术属性】
技术研发人员:杨大伟陈思宇毛琳
申请(专利权)人:大连民族大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1