基于WGAN-GP和U-net改进的图像增强的方法、装置及存储介质制造方法及图纸

技术编号:22649426 阅读:29 留言:0更新日期:2019-11-26 18:01
本发明专利技术公开了基于WGAN‑GP和U‑net改进的图像增强的方法、装置及存储介质,其方法包括如下步骤:解封装输入的视频流或文件,得到第一视频码流和第一音频码流;解码所述第一视频码流,得到第一YUV数据;构建WGAN‑GP网络;将所述第一YUV数据输入所述WGAN‑GP网络,经所述WGAN‑GP网络训练输出第二YUV数据;对所述第二YUV数据编码得到第二视频码流;将所述第二视频码流和第一音频码流封装为视频流或文件。本发明专利技术通过WGAN‑GP网络训练视频码流,可以提升视频的画质,降低重新采集视频的成本。

Improved image enhancement method, device and storage medium based on wgan-gp and u-net

The invention discloses an improved image enhancement method, device and storage medium based on wgan \u2011 GP and u \u2011 net. The method comprises the following steps: unpacking the input video stream or file, obtaining the first video stream and the first audio stream; decoding the first video stream, obtaining the first YUV data; constructing the wgan \u2011 GP network; inputting the first YUV data into the wgan \u2011 GP network After the wgan \u2011 GP network training, the second YUV data is output; the second YUV data is encoded to obtain a second video code stream; the second video code stream and the first audio code stream are encapsulated as a video stream or file. The invention trains video bitstream through wgan \u2011 GP network, which can improve the picture quality of video and reduce the cost of re collecting video.

【技术实现步骤摘要】
基于WGAN-GP和U-net改进的图像增强的方法、装置及存储介质
本申请涉及AI在计算机视觉领域的应用,特别涉及基于WGAN-GP和U-net改进的图像增强的方法、装置及存储介质。
技术介绍
伴随着超高清视频大时代的来临,视频质量的要求也越来越高,对于质量较差的老旧视频源和由于传输等因素造成的低质量视频源,重新采集视频需耗费大量的成本。在借鉴国外相对成熟理论体系和技术应用体系的条件下,国内的增强技术和应用也有了很大的发展,但传统图像增强的方法不能对所有视频适用,需要人工调节相关参数,以达到好的视觉效果,而人工调节参数势必会增加成本。同时,在当下人工智能的浪潮下,基于深度学习的图像增强方法不断出现,但各有优缺点。
技术实现思路
本方法的目的在于提高低质量视频的画质,减少重新采集视频源的成本,提高用户体验。为了解决上述问题,本专利技术提供了一种基于WGAN-GP和U-net改进的图像增强的方法,包括如下步骤:第一步骤:解封装输入的视频流或文件,得到第一视频码流和第一音频码流;第二步骤:解码所述第一视频码流,得到第一YUV数据;第三步骤:构建WGAN-GP网络;第四步骤:将所述第一YUV数据输入所述WGAN-GP网络,经所述WGAN-GP网络训练输出第二YUV数据;第五步骤:对所述第二YUV数据编码得到第二视频码流;第六步骤:将所述第二视频码流和第一音频码流封装为视频流或文件。较佳地,还可将所述第六步骤替换为如下步骤:第七步骤:对所述第一音频码流解码得到PCM数据,对所述PCM数据编码得到第二音频码流;第八步骤:将所述第二视频码流和第二音频码流封装为视频流或文件。较佳地,所述得到第一YUV数据后,若所述第一YUV数据为小于2048×2048的像素,则进一步对所述数据值中宽和高小于2048的部分使用0填充。较佳地,所述WGAN-GP网络包括生成器和判别器,所述生成器的损失函数为:其中,L(G)表示所述生成器的损失函数,Pg表示生成器生成样本的数据分布,E表示符合某种分布的输入通过函数处理后得到的输出期望,D(x)表示对真实的样本进行判别;所述判别器的损失函数为:其中,L(D)表示所述判别器的损失函数,Pr表示真实样本的数据分布,Pg表示生成器生成样本的数据分布,E表示符合某种分布的输入通过函数处理后得到的输出期望,λ表示惩罚因子,▽xD(x)表示判别器D(x)的梯度,D(x)表示对真实的样本进行判别,为Pr与Pg之间的线性采样。较佳地,所述公式(2)中,其中,M为样本i的样本数量,N为样本j的样本数量,y(i,j)为实际观察值,y'(i,j)为预测估计值。较佳地,所述生成器采用U-net网络结构。较佳地,所述生成器的网络层结构依次为:第一3x3x16卷积层→第一SeLU激活层→第一归一化BN层→第一5x5x32卷积层→第二SeLU激活层→第二归一化BN层→第一5x5x64卷积层→第三SeLU激活层→第三归一化BN层→第一5x5x128卷积层→第四SeLU激活层→第四归一化BN层→第一5x5x256卷积层→第五SeLU激活层→第五归一化BN层→第一5x5x512卷积层→第六SeLU激活层→第六归一化BN层→第二5x5x512卷积层→第七SeLU激活层→第七归一化BN层→第三5x5x512卷积层→第八SeLU激活层→第八归一化BN层→第四5x5x512卷积层→第九SeLU激活层→第九归一化BN层→8x8x512卷积层→第十SeLU激活层→第一1x1x512卷积层→第一3x3x512卷积层→全连接层→第二1x1x512卷积层→第十一SeLU激活层→第十归一化BN层→第二3x3x512卷积层→第一图像大小调整层→第一concat维度大小调整层→第十二SeLU激活层→第十一归一化BN层→第三3x3x512卷积层→第二图像大小调整层→第二concat维度大小调整层→第十三SeLU激活层→第十二归一化BN层→3x3x256卷积层→第三图像大小调整层→第三concat维度大小调整层→第十四SeLU激活层→第十三归一化BN层→3x3x128卷积层→第四图像大小调整层→第四concat维度大小调整层→第十五SeLU激活层→第十四归一化BN层→3x3x64卷积层→第五图像大小调整层→第五concat维度大小调整层→第十六SeLU激活层→第十五归一化BN层→3x3x32卷积层→第六图像大小调整层→第六concat维度大小调整层→第十七SeLU激活层→第十六归一化BN层→第二3x3x16卷积层→第十八SeLU激活层→第十七归一化BN层→3x3x3卷积层→残差层。较佳地,所述判别器的网络层结构依次为:第三3x3x16卷积层→第一LReLU激活层→第一归一化IN层→第二5x5x32卷积层→第二LReLU激活层→第二归一化IN层→第二5x5x64卷积层→第三LReLU激活层→第三归一化IN层→第二5x5x128卷积层→第四LReLU激活层→第四归一化IN层→第二5x5x256卷积层→第五LReLU激活层→第五归一化IN层→第五5x5x512卷积层→第二十四SeLU激活层→第六归一化IN层→第六5x5x512卷积层→第六LReLU激活层→第七归一化IN层→第七5x5x512卷积层→第七LReLU激活层→第八归一化IN层→16x16x1卷积层→reduce_mean维度大小调整层。本专利技术还提供了一种基于WGAN-GP和U-net改进的图像增强的装置,包括解封装模块、封装模块、视频解码模块、音频解码模块、视频编码模块、音频编码模块和图像增强模块,其中:所述解封装模块用于解封装输入的视频流或文件,得到第一视频码流和第一音频码流;所述视频解码模块解码所述第一视频码流,得到第一YUV数据;所述图像增强模块采用WGAN-GP网络模型,用于训练输入的所述第一YUV数据,并输出第二YUV数据;所述视频编码模块对所述第二YUV数据编码得到第二视频码流;所述音频解码模块对所述第一音频码流解码得到PCM数据;所述音频编码模块对所述PCM数据编码得到第二音频码流;所述封装模块将所述第二视频码流和第二音频码流封装为视频流或文件。本专利技术还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一项所述方法的步骤。与现有技术相比,本专利技术存在以下技术效果:1、本专利技术实施例基于WGAN-GP网络对低质量视频图像进行增强改进,提高低质量视频的画质,减少重新采集视频源的成本,提高用户体验。2、由于WGAN-GP网络的训练具有不稳定性,通过对WGAN-GP网络做了改进,加快模型的训练收敛性,降低模型训练的时间。3、通过扩展U-net网络结构,加入了全连接层,使WGAN-GP网络模型支持输入像素小于2048x2048(对于宽和高小于2048的部分使用0填充)的任意分辨率,输入像素大小更加灵活,可更大程度的保留视频中的信息,保持输入输出的像素大小一致以及支持更多类型的输入分辨率。当然,实施本发本文档来自技高网...

【技术保护点】
1.一种基于WGAN-GP和U-net改进的图像增强的方法,其特征在于,包括如下步骤:/n第一步骤:解封装输入的视频流或文件,得到第一视频码流和第一音频码流;/n第二步骤:解码所述第一视频码流,得到第一YUV数据;/n第三步骤:构建WGAN-GP网络;/n第四步骤:将所述第一YUV数据输入所述WGAN-GP网络,经所述WGAN-GP网络训练输出第二YUV数据;/n第五步骤:对所述第二YUV数据编码得到第二视频码流;/n第六步骤:将所述第二视频码流和第一音频码流封装为视频流或文件。/n

【技术特征摘要】
1.一种基于WGAN-GP和U-net改进的图像增强的方法,其特征在于,包括如下步骤:
第一步骤:解封装输入的视频流或文件,得到第一视频码流和第一音频码流;
第二步骤:解码所述第一视频码流,得到第一YUV数据;
第三步骤:构建WGAN-GP网络;
第四步骤:将所述第一YUV数据输入所述WGAN-GP网络,经所述WGAN-GP网络训练输出第二YUV数据;
第五步骤:对所述第二YUV数据编码得到第二视频码流;
第六步骤:将所述第二视频码流和第一音频码流封装为视频流或文件。


2.根据权利要求1所述的方法,其特征在于,还可将所述第六步骤替换为如下步骤:
第七步骤:对所述第一音频码流解码得到PCM数据,对所述PCM数据编码得到第二音频码流;
第八步骤:将所述第二视频码流和第二音频码流封装为视频流或文件。


3.根据权利要求1所述的方法,其特征在于,所述得到第一YUV数据后,若所述第一YUV数据为小于2048×2048的像素,则进一步对所述数据值中宽和高小于2048的部分使用0填充。


4.根据权利要求1-3任一所述的方法,其特征在于,所述WGAN-GP网络包括生成器和判别器,所述生成器的损失函数为:



其中,L(G)表示所述生成器的损失函数,Pg表示生成器生成样本的数据分布,E表示符合某种分布的输入通过函数处理后得到的输出期望,D(x)表示对真实的样本进行判别;
所述判别器的损失函数为:



其中,L(D)表示所述判别器的损失函数,Pr表示真实样本的数据分布,Pg表示生成器生成样本的数据分布,E表示符合某种分布的输入通过函数处理后得到的输出期望,λ表示惩罚因子,▽xD(x)表示判别器D(x)的梯度,D(x)表示对真实的样本进行判别,为Pr与Pg之间的线性采样。


5.根据权利要求4所述的方法,其特征在于,所述公式(2)中,



其中,M为样本i的样本数量,N为样本j的样本数量,y(i,j)为实际观察值,y'(i,j)为预测估计值。


6.根据权利要求4所述的方法,其特征在于,所述生成器采用U-net网络结构。


7.根据权利要求6所述的方法,其特征在于,所述生成器的网络层结构依次为:第一3x3x16卷积层→第一SeLU激活层→第一归一化BN层→第一5x5x32卷积层→第二SeLU激活层→第二归一化BN层→第一5x5x64卷积层→第三SeLU激活层→第三归一化BN层→第一5x5x128卷积层→第四SeLU激活层→第四归一化BN层→第一5x5x256卷积层→第五SeLU激活层→第五归一化BN层→第一5x5x512卷积层→第六SeLU激活层→第六归一化BN层→第二5x5x512卷积层→第七SeLU激活层→第七归一化BN层→第三5x5x512卷积层→第八SeLU激活层→第八归一化BN层→第四...

【专利技术属性】
技术研发人员:王红玲唐杰李庆瑜
申请(专利权)人:上海网达软件股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1