基于WGAN-GP和U-net改进的图像增强的方法、装置及存储介质制造方法及图纸

技术编号：22649426 阅读：29 留言：0更新日期：2019-11-26 18:01

本发明专利技术公开了基于WGAN‑GP和U‑net改进的图像增强的方法、装置及存储介质，其方法包括如下步骤：解封装输入的视频流或文件，得到第一视频码流和第一音频码流；解码所述第一视频码流，得到第一YUV数据；构建WGAN‑GP网络；将所述第一YUV数据输入所述WGAN‑GP网络，经所述WGAN‑GP网络训练输出第二YUV数据；对所述第二YUV数据编码得到第二视频码流；将所述第二视频码流和第一音频码流封装为视频流或文件。本发明专利技术通过WGAN‑GP网络训练视频码流，可以提升视频的画质，降低重新采集视频的成本。

Improved image enhancement method, device and storage medium based on wgan-gp and u-net

The invention discloses an improved image enhancement method, device and storage medium based on wgan \u2011 GP and u \u2011 net. The method comprises the following steps: unpacking the input video stream or file, obtaining the first video stream and the first audio stream; decoding the first video stream, obtaining the first YUV data; constructing the wgan \u2011 GP network; inputting the first YUV data into the wgan \u2011 GP network After the wgan \u2011 GP network training, the second YUV data is output; the second YUV data is encoded to obtain a second video code stream; the second video code stream and the first audio code stream are encapsulated as a video stream or file. The invention trains video bitstream through wgan \u2011 GP network, which can improve the picture quality of video and reduce the cost of re collecting video.

全部详细技术资料下载

【技术实现步骤摘要】
基于WGAN-GP和U-net改进的图像增强的方法、装置及存储介质
本申请涉及AI在计算机视觉领域的应用，特别涉及基于WGAN-GP和U-net改进的图像增强的方法、装置及存储介质。
技术介绍
伴随着超高清视频大时代的来临，视频质量的要求也越来越高，对于质量较差的老旧视频源和由于传输等因素造成的低质量视频源，重新采集视频需耗费大量的成本。在借鉴国外相对成熟理论体系和技术应用体系的条件下，国内的增强技术和应用也有了很大的发展，但传统图像增强的方法不能对所有视频适用，需要人工调节相关参数，以达到好的视觉效果，而人工调节参数势必会增加成本。同时，在当下人工智能的浪潮下，基于深度学习的图像增强方法不断出现，但各有优缺点。
技术实现思路
本方法的目的在于提高低质量视频的画质，减少重新采集视频源的成本，提高用户体验。为了解决上述问题，本专利技术提供了一种基于WGAN-GP和U-net改进的图像增强的方法，包括如下步骤：第一步骤：解封装输入的视频流或文件，得到第一视频码流和第一音频码流；第二步骤：解码所述第一视频码流，得到第一YUV数据；第三步骤：构建WGAN-GP网络；第四步骤：将所述第一YUV数据输入所述WGAN-GP网络，经所述WGAN-GP网络训练输出第二YUV数据；第五步骤：对所述第二YUV数据编码得到第二视频码流；第六步骤：将所述第二视频码流和第一音频码流封装为视频流或文件。较佳地，还可将所述第六步骤替换为如下步骤：第七步骤：对所述第一音频码流解码得到PCM数...

【技术保护点】
1.一种基于WGAN-GP和U-net改进的图像增强的方法，其特征在于，包括如下步骤：/n第一步骤：解封装输入的视频流或文件，得到第一视频码流和第一音频码流；/n第二步骤：解码所述第一视频码流，得到第一YUV数据；/n第三步骤：构建WGAN-GP网络；/n第四步骤：将所述第一YUV数据输入所述WGAN-GP网络，经所述WGAN-GP网络训练输出第二YUV数据；/n第五步骤：对所述第二YUV数据编码得到第二视频码流；/n第六步骤：将所述第二视频码流和第一音频码流封装为视频流或文件。/n

【技术特征摘要】
1.一种基于WGAN-GP和U-net改进的图像增强的方法，其特征在于，包括如下步骤：
第一步骤：解封装输入的视频流或文件，得到第一视频码流和第一音频码流；
第二步骤：解码所述第一视频码流，得到第一YUV数据；
第三步骤：构建WGAN-GP网络；
第四步骤：将所述第一YUV数据输入所述WGAN-GP网络，经所述WGAN-GP网络训练输出第二YUV数据；
第五步骤：对所述第二YUV数据编码得到第二视频码流；
第六步骤：将所述第二视频码流和第一音频码流封装为视频流或文件。

2.根据权利要求1所述的方法，其特征在于，还可将所述第六步骤替换为如下步骤：
第七步骤：对所述第一音频码流解码得到PCM数据，对所述PCM数据编码得到第二音频码流；
第八步骤：将所述第二视频码流和第二音频码流封装为视频流或文件。

3.根据权利要求1所述的方法，其特征在于，所述得到第一YUV数据后，若所述第一YUV数据为小于2048×2048的像素，则进一步对所述数据值中宽和高小于2048的部分使用0填充。

4.根据权利要求1-3任一所述的方法，其特征在于，所述WGAN-GP网络包括生成器和判别器，所述生成器的损失函数为：

其中，L(G)表示所述生成器的损失函数，Pg表示生成器生成样本的数据分布，E表示符合某种分布的输入通过函数处理后得到的输出期望，D(x)表示对真实的样本进行判别；
所述判别器的损失函数为：

其中，L(D)表示所述判别器的损失函数，Pr表示真实样本的数据分布，Pg表示生成器生成样本的数据分布，E表示符合某种分布的输入通过函数处理后得到的输出期望，λ表示惩罚因子，▽xD(x)表示判别器D(x)的梯度，D(x)表示对真实的样本进行判别，为Pr与Pg之间的线性采样。

5.根据权利要求4所述的方法，其特征在于，所述公式(2)中，

其中，M为样本i的样本数量，N为样本j的样本数量，y(i,j)为实际观察值，y'(i,j)为预测估计值。

6.根据权利要求4所述的方法，其特征在于，所述生成器采用U-net网络结构。

7.根据权利要求6所述的方法，其特征在于，所述生成器的网络层结构依次为：第一3x3x16卷积层→第一SeLU激活层→第一归一化BN层→第一5x5x32卷积层→第二SeLU激活层→第二归一化BN层→第一5x5x64卷积层→第三SeLU激活层→第三归一化BN层→第一5x5x128卷积层→第四SeLU激活层→第四归一化BN层→第一5x5x256卷积层→第五SeLU激活层→第五归一化BN层→第一5x5x512卷积层→第六SeLU激活层→第六归一化BN层→第二5x5x512卷积层→第七SeLU激活层→第七归一化BN层→第三5x5x512卷积层→第八SeLU激活层→第八归一化BN层→第四...

【专利技术属性】
技术研发人员：王红玲，唐杰，李庆瑜，
申请(专利权)人：上海网达软件股份有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人