一种基于深度神经网络的移除图像内台标和字幕的方法技术

技术编号：20589623 阅读：29 留言：0更新日期：2019-03-16 07:23

本发明专利技术公开了一种基于深度神经网络的移除图像内台标和字幕的方法，涉及图像修复技术领域，本发明专利技术包括如下步骤：S1、建立图像修复模型；S2、训练集图像预处理；S3、处理训练数据：将训练图像作为真实图像Pt；将训练图像中Mask1区域内的像素点RGB值置为0，作为训练图像P1；将训练图像中Mask2区域内的像素点RGB值置为0，作为训练图像P2；S4、训练图像修复模型，得到训练好的图像修复模型；S5、图像修复：将需要去除台标和字幕的图像或视频预处理后，输入训练好的图像修复模型中，将图像修复模型输出的图像与原图像结合，得到最终图像输出，本发明专利技术基于深度学习思想，实现自动、快速去除图像中的台标和字幕，处理过程清晰明确，修复实时性强，适用范围广。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度神经网络的移除图像内台标和字幕的方法
本专利技术涉及图像修复
，更具体的是涉及一种基于深度神经网络的移除图像内台标和字幕的方法。
技术介绍
随着互联网和移动互联网的高速发展，网络上的图片、视频的总量和播放时长不断上升，在2017年仅仅是YouTube上的日视频播放总量就已经超过10亿小时。某些视频画面中存在台标和字幕，由于年代久远或其他种种原因无法得到原始视频画面，如何在现有视频画面中实时、快速地去除台标和字幕等区域，以降低台标或字幕对内容的不利干扰，使观众获得良好的视觉体验是当前亟待解决的问题。现有的图像修复方法包括以下三种：1、手工添加马赛克通过视频编辑软件在台标和字幕区域直接添加马赛克以遮挡原有内容，这种方法虽然方式简单，但是视觉效果上受到了极大的影响，与原有初衷大相径庭，并不是一种合理的解决方法；2、基于图像块的图像修复这种方法通过收集待修复区域附近的小图像块来合成修复区域的纹理，这种方法的缺点也很明显：通过这种方式无法得到图像的整体语义，也就无法对修复区域进行语义层面的修复，因此修复复杂场景的能力较差，所需的计算量往往也很大；3、基于数据库的图像修复这种方法假定数据库中存在与待修复图像相似的内容，用视觉上足够相似的样本来估计当前图像中的待修补区域，当数据库内存在相似样本时图像修复的效果很好，但是当数据库中不存在相似样本时，修补结果可能就与真实情况大相径庭，极大地限制了可能的应用场景。
技术实现思路
本专利技术的目的在于：为了解决现有的图像修复方法修复影音图像中复杂场景的能力较差，所需计算量大，并且应用场景具有局限性的问题，本专利技术...

【技术保护点】
1.一种基于深度神经网络的移除图像内台标和字幕的方法，其特征在于，包括如下步骤：S1、建立图像修复模型：由类“U‑net”网络和GAN组成图像修复模型，类“U‑net”网络作为GAN的Generator；S2、训练集图像预处理：将训练集中的图像裁剪或缩放至限定大小，得到训练图像，根据通常情况下台标和字幕所在区域，将训练图像划分为区域1、区域2和区域3，其中区域1为台标所在区域，区域2为字幕所在区域，并在区域1和区域2中分别对应生成Mask1和Mask2；S3、处理训练数据：将未经处理的训练图像作为真实图像Pt；将训练图像中Mask1区域内的像素点RGB值置为0，作为训练图像P1；将训练图像中Mask2区域内的像素点RGB值置为0，作为训练图像P2；S4、训练图像修复模型：分别将训练图像P1和训练图像P2输入类“U‑net”网络中进行计算，得到各自的输出图像Pout，分别将输出图像Pout和真实图像Pt划分为Mask区和不变区两部分，然后将输出图像Pout的Mask区与真实图像Pt的不变区组合为组合图像Pc；将组合图像Pc和输出图像Pout的Mask区拼接起来作为GAN中的判别器的输入，...

【技术特征摘要】
1.一种基于深度神经网络的移除图像内台标和字幕的方法，其特征在于，包括如下步骤：S1、建立图像修复模型：由类“U-net”网络和GAN组成图像修复模型，类“U-net”网络作为GAN的Generator；S2、训练集图像预处理：将训练集中的图像裁剪或缩放至限定大小，得到训练图像，根据通常情况下台标和字幕所在区域，将训练图像划分为区域1、区域2和区域3，其中区域1为台标所在区域，区域2为字幕所在区域，并在区域1和区域2中分别对应生成Mask1和Mask2；S3、处理训练数据：将未经处理的训练图像作为真实图像Pt；将训练图像中Mask1区域内的像素点RGB值置为0，作为训练图像P1；将训练图像中Mask2区域内的像素点RGB值置为0，作为训练图像P2；S4、训练图像修复模型：分别将训练图像P1和训练图像P2输入类“U-net”网络中进行计算，得到各自的输出图像Pout，分别将输出图像Pout和真实图像Pt划分为Mask区和不变区两部分，然后将输出图像Pout的Mask区与真实图像Pt的不变区组合为组合图像Pc；将组合图像Pc和输出图像Pout的Mask区拼接起来作为GAN中的判别器的输入，基于真实图像Pt、输出图像Pout和组合图像Pc计算总偏差L，利用随机梯度下降法对图像修复模型的网络参数进行训练更新，直至判别器无法迭代；再从训练集中另外选取图像，重复执行S2至S4，得到训练好的图像修复模型；S5、图像修复：将需要去除台标和字幕的图像或视频预处理后，输入训练好的图像修复模型中，将图像修复模型输出的图像与原图像结合，得到最终图像输出。2.根据权利要求1所述的一种基于深度神经网络的移除图像内台标和字幕的方法，其特征在于，所述S4中类“U-net”网络由卷积层和反卷积层构成，类“U-net”网络对训练图像P1和训练图像P2的处理流程包括下采样过程和上采样过程，所述下采样过程由步长为2的卷积核进行特征尺寸缩小，上采样过程由步长为1/2的卷积核进行特征尺寸放大。3.根据权利要求2所述的一种基于深度神经网络的移除图像内台标和字幕的方法，其特征在于，所述类“U-net”网络对训练图像P1和训练图像P2进行计算时，每一卷积和反卷积操作后都有一个ReLU激活函数。4.根据权利要求1所述的一种基于深度神经网络的移除图像内台标和字幕的方法，其特征在于，所述S4中的总偏差L由外部偏差L1、内部偏差L2、可感知偏差L3、风格偏差L4、内部间隔偏差L5和GAN判别式损失L6加权求和得到，外部偏差L1为真实图像Pt的不变区像素点与输出图像P...

【专利技术属性】
技术研发人员：王炜，李杰，温序铭，谢超平，
申请(专利权)人：成都索贝数码科技股份有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人