当前位置: 首页 > 专利查询>吉林大学专利>正文

一种基于密集连接网络的视频帧序列生成方法技术

技术编号:21634495 阅读:27 留言:0更新日期:2019-07-17 12:56
本发明专利技术涉及一种基于密集连接网络的视频帧序列生成方法,属于计算机视觉领域以及视频信号处理技术领域。以生成对抗网络为本发明专利技术方法的结构的基线,使用密集连接网络构建本发明专利技术的生成器模型,对输入视频帧序列的后续视频帧序列进行生成。本发明专利技术充分考虑输入视频帧序列内容的分布差异性,对具有特殊运动特点的部分增加权重。根据这种方式设计的损失函数能够为本发明专利技术中的生成器模型提供注意力机制,使得生成器模型能够对后续视频帧序列的不同部分有针对性地生成,实现对同一后续视频帧不同部分的差异性处理,在保证生成的后续视频帧序列与输入视频帧序列具有连续运动信息的同时,能够有效提升生成的后续视频帧序列的图像质量。

A Video Frame Sequence Generation Method Based on Dense Connection Network

【技术实现步骤摘要】
一种基于密集连接网络的视频帧序列生成方法
本专利技术涉及计算机视觉领域以及视频信号处理
,尤其涉及一种基于密集连接网络的视频帧序列生成方法。
技术介绍
近年来,人工智能技术逐步普及,成为应用系统的重要组成部分,应用场景十分广泛。在公共交通领域,监控系统使用摄像头捕获视频序列,再通过系统的深度学习图像处理模块对捕获到的视频帧进行分析处理,可以实现对特定目标的识别追踪。对自动驾驶汽车而言,其系统搭建完全基于人工智能技术,其中的视觉系统作为自动驾驶汽车的“眼睛”,是整个系统中最重要的组成部分之一。在体育竞技中,智能电子裁判通过对目标运动员姿态进行跟踪,能够对运动员冲线时间或犯规等关键点进行监控,这使得体育裁决更加公正公开。在这些应用中,视频帧序列作为整个智能系统的输入,它的质量将直接影响整个智能系统的后续决策。在一些特定场景下,视频采集系统有可能会在某个时刻失效。以自动驾驶为例,日间行车进入隧道时会发生骤暗的情况,夜间行车被灯光照射时会发生骤明的情况,这些光线变换都会导致视频采集系统无法采集到有效的图像。再者,当汽车行驶在较为颠簸的路面上时,视频采集系统此时虽然能够正常运转,但是由于拍摄到的视频图像模糊程度较高,对视频处理系统而言这些图像只能被当作无效帧处理。对于自动驾驶等对实时性要求较高的系统,这种采集信息的缺失无疑将对整个系统造成较大影响。一旦作为输入的视频帧序列失效,会导致整个系统的后续部分都无法正常工作,陷入瘫痪状态。因此,如何保证系统在输入视频中存在失效帧的情况下仍能够正常工作已经成为一个紧迫的问题。一种方法是依赖现有的有效输入视频帧序列,对失效帧位置的图像做生成处理。目前已经有一些基于深度学习的算法用于解决视频帧序列生成问题。使用基于卷积网络的模型能够学习视频帧序列的运动信息,卷积网络中的池化层能够抽取到视频帧序列中更为完整的特征,但同时也会丢失掉大量的纹理信息,这将导致生成的后续视频帧序列的关键细节部分丢失较为严重。另一种方法是对输入视频帧序列以及对应光流图像进行卷积操作从而生成后续视频帧序列,这种方法虽然能够更加精准的捕获运动信息,生成质量较高的后续视频帧序列,但由于光流图像需要依赖输入视频帧序列计算获得,因此所需的计算时间更长,耗费的算力资源更多,并且不同的光流计算方法的选择也会导致最终生成后续视频帧序列的质量不同。现有的后续视频帧序列生成方法没有考虑到视频采集对象所具备的特点。视频采集的对象不同,获得的视频帧的内容分布特点也不同。如果采集对象为参加田径比赛的运动员,对视频内容而言,图像中存在运动员的部分为视频帧内容的主体,在采集图像的过程中,通常会将视频帧内容的主体部分放在视频中较为靠近中心的位置。在后续视频帧序列生成的过程中,模型需要为生成后续视频帧序列的中心位置分配更多注意力。如果采集对象是驾驶场景,此时视频帧的主体部分并不明显,但对行驶中的车辆而言,越靠近视野中心位置的部分,在获得的视频帧序列中变化频率越慢,越靠近视野边缘位置的部分,在获得的视频帧序列中变化频率越快,因此在模型生成后续视频帧序列的过程中,需要对靠近视野周边的部分给予更多的注意力。而现有的用于后续视频帧序列生成的方法并没有有效使用输入视频帧序列的内容分布特点,没有对输入视频帧序列的不同部分给出不同的权重,因此导致生成的后续视频帧序列质量不高的问题。现有的后续视频帧序列生成方法通常使用卷积神经网络作为搭建模型的基础。卷积神经网络通过对输入对象进行卷积处理,能够较好的抽取图像中的有效信息,通常被用于解决分类,识别等问题。但对生成后续视频帧序列而言,由于卷积神经网络只能够对卷积获得的信息加以利用,因此单一地使用卷积神经网络生成的后续视频帧序列较真实视频帧序列而言还是具有一定的差距,并不十分适用于生成任务。
技术实现思路
本专利技术提出一种基于密集连接网络的视频帧序列生成方法,以解决现有技术生成后续视频帧序列中存在的细节模糊以及生成的后续视频帧图像质量不高的问题,为视频帧生成、仍至自动驾驶领域提供了一种新的解决方法。本专利技术采取的技术方案是,包括下列步骤:(1)以生成对抗网络为模型的基线,构建基于密集连接网络的生成器模型G和基于卷积神经网络的判别器模型D;(2)获取输入视频帧序列,根据输入视频帧序列的特点,对生成后续视频帧序列的高权重区域进行设定,得注意力机制损失函数;(3)构建模型的损失函数:生成器模型G的总损失函数由生成对抗网络部分的损失函数、步骤(2)中注意力机制损失函数以及生成后续视频帧序列与真实后续视频帧序列间的欧氏距离构成,判别器模型D由生成对抗网络部分的损失函数构成;(4)对输入视频帧序列进行预处理包括:对输入视频帧序列的图像进行归一化处理,在完成对输入视频帧图像的归一化处理之后,将预处理后的视频帧序列输入到生成器模型G中生成后续视频帧序列;(5)将输入视频帧序列分别与使用生成器模型G生成的后续视频帧序列和真实的视频帧序列进行拼接,将其输入到判别器模型D中得到输出的概率Perceimg,并将生成的后续视频帧序列和概率Perceimg作为步骤(3)中损失函数的输入,计算损失函数,对模型整体进行训练;(6)对生成器模型G和判别器模型D进行ite次迭代训练后,当生成器模型G和判别器模型D的损失函数值逐步稳定在区间范围φ内时,认为生成器模型G和判别器模型D已经达到稳定状态,即可完成训练,在完成对生成器模型G和判别器模型D的训练后,即可得到生成器模型G的参数集αG和判别器模型D的参数集αD,可以将输入视频帧序列输入到生成器模型G,对后续视频帧序列进行生成。本专利技术所述步骤(1)中,以生成对抗网络为模型的基线,生成对抗网络基于博弈的思想,其基本结构包括一个生成器模型G和一个判别器模型D,生成器模型G表示如下:其中Outimg表示由生成器模型G生成的图像,αG表示生成器模型G的参数集,x1,x2,...,xl表示生成器模型G的输入由l帧输入视频帧组成,X表示输入视频帧序列集合;判别器模型D表示如下其中Perceimg表示判别器模型D认定输入为由输入的视频帧序列和真实的后续视频帧序列拼接构成的概率,αD表示判别器模型D的参数集,img1,img2,...,imgl,omgl+1,omgl+2,...,omgl+t表示判别器模型D的输入,X表示输入视频帧序列集合,Y表示真实的后续视频帧序列集合,表示由生成器模型G生成的后续视频帧序列集合,也即判别器模型D的输入共有两种,分别为由l帧输入视频帧序列和t帧生成的后续视频帧序列拼接构成的(l+t)帧序列和由l帧输入视频帧序列和t帧真实的后续视频帧序列拼接构成的(l+t)帧序列;生成器模型G使用密集连接网络,归一化层BN和激活函数AF搭建,密集连接网络由b个密集连接块DB构成,每个密集连接块包括卷积层CN,归一化层BN以及激活函数AF,每个卷积层的滤波器大小为fs×fs,步长为s,密集连接块可表示为:DB=AF(BN(CN(data)))其中data表示密集连接块的输入,生成器模型G可由密集连接块表示为:判别器模型D使用c个卷积层CN,c个激活函数AF以及f个全连接层FN搭建,每个卷积层的滤波器大小为fs×fs,步长为s,全连接层的长度为lf,在最后一层全连接层后加入激活函数AF用于本文档来自技高网
...

【技术保护点】
1.一种基于密集连接网络的视频帧序列生成方法,其特征在于,包括下列步骤:(1)以生成对抗网络为模型的基线,构建基于密集连接网络的生成器模型G和基于卷积神经网络的判别器模型D;(2)获取输入视频帧序列,根据输入视频帧序列的特点,对生成后续视频帧序列的高权重区域进行设定,得注意力机制损失函数;(3)构建模型的损失函数:生成器模型G的总损失函数由生成对抗网络部分的损失函数、步骤(2)中注意力机制损失函数以及生成后续视频帧序列与真实后续视频帧序列间的欧氏距离构成,判别器模型D由生成对抗网络部分的损失函数构成;(4)对输入视频帧序列进行预处理包括:对输入视频帧序列的图像进行归一化处理,在完成对输入视频帧图像的归一化处理之后,将预处理后的视频帧序列输入到生成器模型G中生成后续视频帧序列;(5)将输入视频帧序列分别与使用生成器模型G生成的后续视频帧序列和真实的视频帧序列进行拼接,将其输入到判别器模型D中得到输出的概率Perceimg,并将生成的后续视频帧序列和概率Perceimg作为步骤(3)中损失函数的输入,计算损失函数,对模型整体进行训练;(6)对生成器模型G和判别器模型D进行ite次迭代训练后,当生成器模型G和判别器模型D的损失函数值逐步稳定在区间范围φ内时,认为生成器模型G和判别器模型D已经达到稳定状态,即可完成训练,在完成对生成器模型G和判别器模型D的训练后,即可得到生成器模型G的参数集αG和判别器模型D的参数集αD,可以将输入视频帧序列输入到生成器模型G,对后续视频帧序列进行生成。...

【技术特征摘要】
1.一种基于密集连接网络的视频帧序列生成方法,其特征在于,包括下列步骤:(1)以生成对抗网络为模型的基线,构建基于密集连接网络的生成器模型G和基于卷积神经网络的判别器模型D;(2)获取输入视频帧序列,根据输入视频帧序列的特点,对生成后续视频帧序列的高权重区域进行设定,得注意力机制损失函数;(3)构建模型的损失函数:生成器模型G的总损失函数由生成对抗网络部分的损失函数、步骤(2)中注意力机制损失函数以及生成后续视频帧序列与真实后续视频帧序列间的欧氏距离构成,判别器模型D由生成对抗网络部分的损失函数构成;(4)对输入视频帧序列进行预处理包括:对输入视频帧序列的图像进行归一化处理,在完成对输入视频帧图像的归一化处理之后,将预处理后的视频帧序列输入到生成器模型G中生成后续视频帧序列;(5)将输入视频帧序列分别与使用生成器模型G生成的后续视频帧序列和真实的视频帧序列进行拼接,将其输入到判别器模型D中得到输出的概率Perceimg,并将生成的后续视频帧序列和概率Perceimg作为步骤(3)中损失函数的输入,计算损失函数,对模型整体进行训练;(6)对生成器模型G和判别器模型D进行ite次迭代训练后,当生成器模型G和判别器模型D的损失函数值逐步稳定在区间范围φ内时,认为生成器模型G和判别器模型D已经达到稳定状态,即可完成训练,在完成对生成器模型G和判别器模型D的训练后,即可得到生成器模型G的参数集αG和判别器模型D的参数集αD,可以将输入视频帧序列输入到生成器模型G,对后续视频帧序列进行生成。2.根据权利要求1所述的一种基于密集连接网络的视频帧序列生成方法,其特征在于,所述步骤(1)中,以生成对抗网络为模型的基线,生成对抗网络基于博弈的思想,其基本结构包括一个生成器模型G和一个判别器模型D,生成器模型G表示如下:其中Outimg表示由生成器模型G生成的图像,αG表示生成器模型G的参数集,x1,x2,...,xl表示生成器模型G的输入由l帧输入视频帧组成,X表示输入视频帧序列集合;判别器模型D表示如下Perceimg表示判别器模型D认定输入为由输入的视频帧序列和真实的后续视频帧序列拼接构成的概率,αD表示判别器模型D的参数集,img1,img2,...,imgl,omgl+1,omgl+2,...,omgl+t表示判别器模型D的输入,X表示输入视频帧序列集合,Y表示真实的后续视频帧序列集合,表示由生成器模型G生成的后续视频帧序列集合,也即判别器模型D的输入共有两种,分别为由l帧输入视频帧序列和t帧生成的后续视频帧序列拼接构成的(l+t)帧序列和由l帧输入视频帧序列和t帧真实的后续视频帧序列拼接构成的(l+t)帧序列;生成器模型G使用密集连接网络,归一化层BN和激活函数AF搭建,密集连接网络由b个密集连接块DB构成,每个密集连接块包括卷积层CN,归一化层BN以及激活函数AF,每个卷积层的滤波器大小为fs×fs,步长为s,密集连接块可表示为:DB=AF(BN(CN(data)))其中data表示密集连接块的输入,生成器模型G可由密集连接块表示为:判别器模型D使用c个卷积层CN,c个激活函数AF以及f个全连接层FN搭建,每个卷积层的滤波器大小为fs×fs,步长为s,全连接层的长度为lf,在最后一层全连接层后加入激活函...

【专利技术属性】
技术研发人员:晏婕秦贵和赵睿黄玥袁帅许骞艺姜慧明张钟翰
申请(专利权)人:吉林大学
类型:发明
国别省市:吉林,22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1