一种视频间插入图像帧的方法、系统及电子设备技术方案

技术编号:22367062 阅读:36 留言:0更新日期:2019-10-23 05:39
本申请涉及一种视频间插入图像帧的方法、系统及电子设备。包括:分别在视频丢失时间之前和视频复原时间之后各选择m帧包含行人的特征图,并从每张特征图中分别采集设定数量的人体姿态点;将所有人体姿态点输入Alex Net网络,所述Alex Net网络利用三次多项式拟合与三次样条插值相结合的方法对待复原图像的行人姿态进行预测;将视频丢失时间之前的特征图对应的人体姿态点输入LSTM网络,得到待复原图像的行人姿态预测结果;根据所述Alex Net网络和LSTM网络的行人姿态预测结果得到待复原图像,并计算所述待复原图像在视频中的插入位置,将所述待复原图像插入到视频中对应的位置上。本申请提升了现有算法的精度。

【技术实现步骤摘要】
一种视频间插入图像帧的方法、系统及电子设备
本申请属于视频间帧插入
,特别涉及一种视频间插入图像帧的方法、系统及电子设备。
技术介绍
伴随着越来越多的娱乐级短视频的应用,目前中国国内出现了大量的短视频传输和播放的需求,但与此同时带来的问题在于:由于网络传输等各种原因会造成视频传输过程中丢帧,这样的情况下就会造成观看视频的人视觉不连续的感觉,不仅影响观看体验,还有可能由于丢失关键信息造成视频可用价值不高。现有技术在面对丢失帧的情况下,往往会通过改善传输过程的质量从而使得视频尽可能不丢帧的上传或下载,但是面对已然造成的丢失视频帧的情况也是无能为力。近年来的最新学术界顶级研究成果在这方面的工作相当少,主要是因为这是工业界催生的新需求,目前的相关工作少之又少,现在技术中只有基于过去视频帧而还原出后面预测的几帧,但几乎很少涉及在连续视频中还原出丢失的几帧视频。文献[WalkerJ,MarinoK,GuptaA,etal.Theposeknows:Videoforecastingbygeneratingposefutures[C]//ProceedingsoftheIEEEInternationalConferenceonComputerVision.2017:3332-3341.]中表明在预测下一帧可能的行为上,可以使用VAE方法[KingmaDP,WellingM.Auto-encodingvariationalbayes[J].arXivpreprintarXiv:1312.6114,2013.]进行人的姿态预测,但是这些姿态预测仅仅是针对未来帧的一些预测,并不涉及到利用这些预测将两个相关视频但是中间帧数有缺失的画面补全。
技术实现思路
本申请提供了一种视频间插入图像帧的方法、系统及电子设备,旨在至少在一定程度上解决现有技术中的上述技术问题之一。为了解决上述问题,本申请提供了如下技术方案:一种视频间插入图像帧的方法,包括以下步骤:步骤a:分别在视频丢失时间之前和视频复原时间之后各选择m帧包含行人的特征图,并从每张特征图中分别采集设定数量的人体姿态点;步骤b:将所有人体姿态点输入AlexNet网络,所述AlexNet网络利用三次多项式拟合与三次样条插值相结合的方法对待复原图像的行人姿态进行预测;步骤c:将视频丢失时间之前的特征图对应的人体姿态点输入LSTM网络,得到待复原图像的行人姿态预测结果;步骤d:根据所述AlexNet网络和LSTM网络的行人姿态预测结果得到待复原图像,并计算所述待复原图像在视频中的插入位置,将所述待复原图像插入到视频中对应的位置上。本申请实施例采取的技术方案还包括:假设每张特征图中采集的人体姿态点为17个,在所述步骤b中,所述AlexNet网络的行人姿态预测方法具体包括:步骤b1:将17个人体姿态点作为17个ID,分别利用三次多项式拟合方法确定一个回归曲线;每一个ID对应的人体姿态点在图像中都具有一个坐标,表示为:locationID=(xi,yi),i=ID,将每一个ID形成的一系列(xi,yi)代入三次多项式,得到:y=ax3+bx2+cx+d借助计算机拟合得到17组(ai,bi,ci,di),并形成17个三次多项式拟合所确定的y=f(x),将y=f(x)绘制在一张图像上,生成17条曲线,曲线中的横纵坐标分别是各个人体姿态点的位置表示;步骤b2:通过三次样条插值法,将视频丢失时间前后两帧之间的图像坐标点还原出来,得到待复原图像的行人姿态预测结果。本申请实施例采取的技术方案还包括:在所述步骤c中,所述LSTM网络的输入结构为:[ht,ct]=LSTM(pt,ht-1,ct-1)则下一帧待复原图像的姿态预测为:上述公式中,WT表示神经网络训练出的权重,ht,ct为LSTM结构固有参数,LSTM网络的损失函数表示为object2=Loss(LSTM)。本申请实施例采取的技术方案还包括:所述步骤c后还包括:定义目标函数,根据所述目标函数对Alexnet网络和LSTM网络进行优化:objectfinal=object1+object2+|object1-object2|上述公式中,|object1-object2|表示让AlexNet网络和LSTM网络生成的行人姿态预测结果尽可能的靠近。本申请实施例采取的技术方案还包括:在所述步骤d中,所述将待复原图像插入到视频中对应的位置上具体包括:经过优化后的AlexNet网络和LSTM网络,分别得到两组相同帧数的待复原图像,每一帧待复原图像中都包含17个人体姿态点,分别将每一帧待复原图像中的17个人体姿态点与其ID相互对应,并求从AlexNet网络传入的(xi,yi)与从LSTM网络传入的的平均值,得到每一帧待复原图像的插入位置,并将所有待复原图像插入到对应的位置处;所述位置计算公式为:本申请实施例采取的另一技术方案为:一种视频间插入图像帧的系统,包括:特征图选择模块:用于分别在视频丢失时间之前和视频复原时间之后各选择m帧包含行人的特征图;姿态点采集模块:用于从每张特征图中分别采集设定数量的人体姿态点;AlexNet网络预测模块:用于将所有人体姿态点输入AlexNet网络,所述AlexNet网络利用三次多项式拟合与三次样条插值相结合的方法对待复原图像的行人姿态进行预测;LSTM网络预测模块:用于将视频丢失时间之前的特征图对应的人体姿态点输入LSTM网络,得到待复原图像的行人姿态预测结果;图像插入模块:用于根据所述AlexNet网络和LSTM网络的行人姿态预测结果得到待复原图像,并计算所述待复原图像在视频中的插入位置,将所述待复原图像插入到视频中对应的位置上。本申请实施例采取的技术方案还包括:假设每张特征图中采集的人体姿态点为17个,所述AlexNet网络预测模块的行人姿态预测方法具体为:将17个人体姿态点作为17个ID,分别利用三次多项式拟合方法确定一个回归曲线;每一个ID对应的人体姿态点在图像中都具有一个坐标,表示为:locationID=(xi,yi),i=ID,将每一个ID形成的一系列(xi,yi)代入三次多项式,得到:y=ax3+bx2+cx+d借助计算机拟合得到17组(ai,bi,ci,di),并形成17个三次多项式拟合所确定的y=f(x),将y=f(x)绘制在一张图像上,生成17条曲线,曲线中的横纵坐标分别是各个人体姿态点的位置表示;通过三次样条插值法,将视频丢失时间前后两帧之间的图像坐标点还原出来,得到待复原图像的行人姿态预测结果。本申请实施例采取的技术方案还包括:所述LSTM网络的输入结构为:[ht,ct]=LSTM(pt,ht-1,ct-1)则下一帧待复原图像的姿态预测为:上述公式中,WT表示神经网络训练出的权重,ht,ct为LSTM结构固有参数,LSTM网络的损失函数表示为object2=Loss(LSTM)。本申请实施例采取的技术方案还包括网络优化模块,所述网络优化模块用于定义目标函数,根据所述目标函数对Alexnet网络和LSTM网络进行优化:objectfinal=object1+object2+|object1-object2|上述公式中,|object1-object2|表示让AlexNet网络和LSTM网本文档来自技高网
...

【技术保护点】
1.一种视频间插入图像帧的方法,其特征在于,包括以下步骤:步骤a:分别在视频丢失时间之前和视频复原时间之后各选择m帧包含行人的特征图,并从每张特征图中分别采集设定数量的人体姿态点;步骤b:将所有人体姿态点输入Alex Net网络,所述Alex Net网络利用三次多项式拟合与三次样条插值相结合的方法对待复原图像的行人姿态进行预测;步骤c:将视频丢失时间之前的特征图对应的人体姿态点输入LSTM网络,得到待复原图像的行人姿态预测结果;步骤d:根据所述Alex Net网络和LSTM网络的行人姿态预测结果得到待复原图像,并计算所述待复原图像在视频中的插入位置,将所述待复原图像插入到视频中对应的位置上。

【技术特征摘要】
1.一种视频间插入图像帧的方法,其特征在于,包括以下步骤:步骤a:分别在视频丢失时间之前和视频复原时间之后各选择m帧包含行人的特征图,并从每张特征图中分别采集设定数量的人体姿态点;步骤b:将所有人体姿态点输入AlexNet网络,所述AlexNet网络利用三次多项式拟合与三次样条插值相结合的方法对待复原图像的行人姿态进行预测;步骤c:将视频丢失时间之前的特征图对应的人体姿态点输入LSTM网络,得到待复原图像的行人姿态预测结果;步骤d:根据所述AlexNet网络和LSTM网络的行人姿态预测结果得到待复原图像,并计算所述待复原图像在视频中的插入位置,将所述待复原图像插入到视频中对应的位置上。2.根据权利要求1所述的视频间插入图像帧的方法,其特征在于,假设每张特征图中采集的人体姿态点为17个,在所述步骤b中,所述AlexNet网络的行人姿态预测方法具体包括:步骤b1:将17个人体姿态点作为17个ID,分别利用三次多项式拟合方法确定一个回归曲线;每一个ID对应的人体姿态点在图像中都具有一个坐标,表示为:locationID=(xi,yi),i=ID,将每一个ID形成的一系列(xi,yi)代入三次多项式,得到:y=ax3+bx2+cx+d借助计算机拟合得到17组(ai,bi,ci,di),并形成17个三次多项式拟合所确定的y=f(x),将y=f(x)绘制在一张图像上,生成17条曲线,曲线中的横纵坐标分别是各个人体姿态点的位置表示;步骤b2:通过三次样条插值法,将视频丢失时间前后两帧之间的图像坐标点还原出来,得到待复原图像的行人姿态预测结果。3.根据权利要求1所述的视频间插入图像帧的方法,其特征在于,在所述步骤c中,所述LSTM网络的输入结构为:[ht,ct]=LSTM(pt,ht-1,ct-1)则下一帧待复原图像的姿态预测为:上述公式中,WT表示神经网络训练出的权重,ht,ct为LSTM结构固有参数,LSTM网络的损失函数表示为object2=Loss(LSTM)。4.根据权利要求1至3任一项所述的视频间插入图像帧的方法,其特征在于,所述步骤c后还包括:定义目标函数,根据所述目标函数对Alexnet网络和LSTM网络进行优化:objectfinal=object1+object2+|object1-object2|上述公式中,|object1-object2|表示让AlexNet网络和LSTM网络生成的行人姿态预测结果尽可能的靠近。5.根据权利要求4所述的视频间插入图像帧的方法,其特征在于,在所述步骤d中,所述将待复原图像插入到视频中对应的位置上具体包括:经过优化后的AlexNet网络和LSTM网络,分别得到两组相同帧数的待复原图像,每一帧待复原图像中都包含17个人体姿态点,分别将每一帧待复原图像中的17个人体姿态点与其ID相互对应,并求从AlexNet网络传入的(xi,yi)与从LSTM网络传入的的平均值,得到每一帧待复原图像的插入位置,并将所有待复原图像插入到对应的位置处;所述位置计算公式为:6.一种视频间插入图像帧的系统,其特征在于,包括:特征图选择模块:用于分别在视频丢失时间之前和视频复原时间之后各选择m帧包含行人的特征图;姿态点采集模块:用于从每张特征图中分别采集设定数量的人体姿态点;AlexNet网络预测模块:用于将所有人体姿态点输入AlexNet网络,所述AlexNet网络利用三次多项式拟合与三次样条插值相结合的方法对待复原图像的行人姿态进行预测;LSTM网络预测模块:用于将视频丢失时间之前的...

【专利技术属性】
技术研发人员:张昱航任宏帅叶可江须成忠
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1