一种基于深度神经网络的移除图像内台标和字幕的方法技术

技术编号:20589623 阅读:29 留言:0更新日期:2019-03-16 07:23
本发明专利技术公开了一种基于深度神经网络的移除图像内台标和字幕的方法,涉及图像修复技术领域,本发明专利技术包括如下步骤:S1、建立图像修复模型;S2、训练集图像预处理;S3、处理训练数据:将训练图像作为真实图像Pt;将训练图像中Mask1区域内的像素点RGB值置为0,作为训练图像P1;将训练图像中Mask2区域内的像素点RGB值置为0,作为训练图像P2;S4、训练图像修复模型,得到训练好的图像修复模型;S5、图像修复:将需要去除台标和字幕的图像或视频预处理后,输入训练好的图像修复模型中,将图像修复模型输出的图像与原图像结合,得到最终图像输出,本发明专利技术基于深度学习思想,实现自动、快速去除图像中的台标和字幕,处理过程清晰明确,修复实时性强,适用范围广。

【技术实现步骤摘要】
一种基于深度神经网络的移除图像内台标和字幕的方法
本专利技术涉及图像修复
,更具体的是涉及一种基于深度神经网络的移除图像内台标和字幕的方法。
技术介绍
随着互联网和移动互联网的高速发展,网络上的图片、视频的总量和播放时长不断上升,在2017年仅仅是YouTube上的日视频播放总量就已经超过10亿小时。某些视频画面中存在台标和字幕,由于年代久远或其他种种原因无法得到原始视频画面,如何在现有视频画面中实时、快速地去除台标和字幕等区域,以降低台标或字幕对内容的不利干扰,使观众获得良好的视觉体验是当前亟待解决的问题。现有的图像修复方法包括以下三种:1、手工添加马赛克通过视频编辑软件在台标和字幕区域直接添加马赛克以遮挡原有内容,这种方法虽然方式简单,但是视觉效果上受到了极大的影响,与原有初衷大相径庭,并不是一种合理的解决方法;2、基于图像块的图像修复这种方法通过收集待修复区域附近的小图像块来合成修复区域的纹理,这种方法的缺点也很明显:通过这种方式无法得到图像的整体语义,也就无法对修复区域进行语义层面的修复,因此修复复杂场景的能力较差,所需的计算量往往也很大;3、基于数据库的图像修复这种方法假定数据库中存在与待修复图像相似的内容,用视觉上足够相似的样本来估计当前图像中的待修补区域,当数据库内存在相似样本时图像修复的效果很好,但是当数据库中不存在相似样本时,修补结果可能就与真实情况大相径庭,极大地限制了可能的应用场景。
技术实现思路
本专利技术的目的在于:为了解决现有的图像修复方法修复影音图像中复杂场景的能力较差,所需计算量大,并且应用场景具有局限性的问题,本专利技术提供一种基于深度神经网络的移除图像内台标和字幕的方法,结合卷积神经网络和生成对抗网络的特性,构造图像修复模型,并对图像修复模型进行大量数据训练,然后将需要移除台标和字幕的视频帧带入图像修复模型进行计算,自动得到去除台标和字幕的图像帧,修复实时性强,适用范围广。本专利技术为了实现上述目的具体采用以下技术方案:一种基于深度神经网络的移除图像内台标和字幕的方法,包括如下步骤:S1、建立图像修复模型:由类“U-net”网络和GAN组成图像修复模型,类“U-net”网络作为GAN的Generator;S2、训练集图像预处理:将训练集中的图像裁剪或缩放至限定大小,得到训练图像,根据通常情况下台标和字幕所在区域,将训练图像在逻辑上划分为区域1、区域2和区域3,其中区域1为台标所在区域,区域2为字幕所在区域,并在区域1和区域2中分别生成对应的Mask1和Mask2;S3、处理训练数据:将未经处理的训练图像作为真实图像Pt;将训练图像中Mask1区域内的像素点RGB值置为0,作为训练图像P1;将训练图像中Mask2区域内的像素点RGB值置为0,作为训练图像P2;S4、训练图像修复模型:分别将训练图像P1和训练图像P2输入类“U-net”网络中进行计算,得到各自的输出图像Pout,分别将输出图像Pout和真实图像Pt划分为Mask区和不变区两部分,然后将输出图像Pout的Mask区与真实图像Pt的不变区组合为组合图像Pc;将组合图像Pc和输出图像Pout的Mask区拼接起来作为GAN中的判别器的输入,基于真实图像Pt、输出图像Pout和组合图像Pc计算总偏差L,利用随机梯度下降法对图像修复模型的网络参数进行训练更新,直至判别器无法迭代、无法辨别图像真伪;再从训练集中另外选取图像,重复执行S2至S4,得到训练好的图像修复模型;S5、图像修复:将需要去除台标和字幕的图像或视频预处理后,输入训练好的图像修复模型中,将图像修复模型输出的图像与原图像结合,得到最终图像输出。进一步的,所述S4中类“U-net”网络由卷积层和反卷积层构成,类“U-net”网络对训练图像P1和训练图像P2的处理流程包括下采样过程和上采样过程,所述下采样过程由步长为2的卷积核进行特征尺寸缩小,上采样过程由步长为1/2的卷积核进行特征尺寸放大。进一步的,所述类“U-net”网络对训练图像P1和训练图像P2进行计算时,每一卷积和反卷积操作后都有一个ReLU激活函数。进一步的,所述S4中的总偏差L由外部偏差L1、内部偏差L2、可感知偏差L3、风格偏差L4、内部间隔偏差L5和GAN判别式损失L6加权求和得到,外部偏差L1为真实图像Pt的不变区像素点与输出图像Pout的不变区像素点差异;内部偏差L2为真实图像Pt的Mask区像素点与输出图像Pout的Mask区像素点差异;可感知偏差L3和风格偏差L4:将真实图像Pt、输出图像Pout和组合图像Pc输入提前训练好的用于计算偏差的VGGNet19模型,分别获取真实图像Pt、输出图像Pout和组合图像Pc在VGGNet19模型中conv3_4、conv4_4和conv5_4层后的高层特征图Pt(_3、_4、_5)、Pout(_3、_4、_5)和Pc(_3、_4、_5)共9张特征图,由上述9张特征图求得可感知偏差L3和风格偏差L4;内部间隔偏差L5为输出图像Pout的Mask区像素矩阵中所有像素点与相应右邻点的差值以及与相应下邻点的差值的和;GAN判别式损失L6:将输出图像Pout的Mask区缩放到与GAN网络结构适配的尺寸,并将缩放后的Mask区与组合图像Pc输入GAN中,训练GAN网络,GAN的损失即为判别式损失。进一步的,所述可感知偏差L3和风格偏差L4的计算具体为:可感知偏差L3:计算Pc(_3、_4、_5)和Pt(_3、_4、_5)对应下角标的差值,具体为Pc_3与Pt_3、Pc_4与Pt_4和Pc_5与Pt_5的差值,共三组;计算Pout(_3、_4、_5)和Pt(_3、_4、_5)对应下角标的差值,具体为Pout_3与Pt_3、Pout_4与Pt_4和Pout_5与Pt_5的差值,共三组,将上述六组差值相加便得到可感知偏差L3;风格偏差L4:计算Pout(_3、_4、_5)和Pt(_3、_4、_5)的自协方差矩阵,并计算Pout(_3、_4、_5)和Pt(_3、_4、_5)对应下角标的自协方差矩阵差值,共三组;计算Pc(_3、_4、_5)和Pt(_3、_4、_5)的自协方差矩阵,并计算Pc(_3、_4、_5)和Pt(_3、_4、_5)对应下角标的自协方差矩阵差值,共三组,并将上述六组自协方差矩阵差值相加得到风格偏差L4。进一步的,所述S5具体包括如下步骤:S5.1、视频预处理:若需要去除台标和字幕的是视频,则解码视频内容,得到按帧分隔的视频图像;S5.2、指定修补区域:人工或自动指定待处理图像或视频图像中的待修补区域,裁剪出待处理图像或视频图像中包含待修补区域的切片,裁剪出的切片大小与S2中的训练图像大小一致,并将待修补区域的像素点亮度值置为0,得到待修补切片;S5.3、输入图像修复模型:将待修补切片输入训练好的图像修复模型中,得到修复分片;S5.4、输出修复结果:将修复分片与S5.2中待处理图像或视频图像中切片外的图像结合,得到最终图像输出。本专利技术的有益效果如下:1、本专利技术基于深度学习思想,结合CNN中的类“U-net”网络和GAN等神经网络结构实现自动、快速去除图像中的台标和字幕,处理过程清晰明确,特征图经过激活层后,会变的更加稀疏,本专利技术计算可感知偏差L本文档来自技高网...

【技术保护点】
1.一种基于深度神经网络的移除图像内台标和字幕的方法,其特征在于,包括如下步骤:S1、建立图像修复模型:由类“U‑net”网络和GAN组成图像修复模型,类“U‑net”网络作为GAN的Generator;S2、训练集图像预处理:将训练集中的图像裁剪或缩放至限定大小,得到训练图像,根据通常情况下台标和字幕所在区域,将训练图像划分为区域1、区域2和区域3,其中区域1为台标所在区域,区域2为字幕所在区域,并在区域1和区域2中分别对应生成Mask1和Mask2;S3、处理训练数据:将未经处理的训练图像作为真实图像Pt;将训练图像中Mask1区域内的像素点RGB值置为0,作为训练图像P1;将训练图像中Mask2区域内的像素点RGB值置为0,作为训练图像P2;S4、训练图像修复模型:分别将训练图像P1和训练图像P2输入类“U‑net”网络中进行计算,得到各自的输出图像Pout,分别将输出图像Pout和真实图像Pt划分为Mask区和不变区两部分,然后将输出图像Pout的Mask区与真实图像Pt的不变区组合为组合图像Pc;将组合图像Pc和输出图像Pout的Mask区拼接起来作为GAN中的判别器的输入,基于真实图像Pt、输出图像Pout和组合图像Pc计算总偏差L,利用随机梯度下降法对图像修复模型的网络参数进行训练更新,直至判别器无法迭代;再从训练集中另外选取图像,重复执行S2至S4,得到训练好的图像修复模型;S5、图像修复:将需要去除台标和字幕的图像或视频预处理后,输入训练好的图像修复模型中,将图像修复模型输出的图像与原图像结合,得到最终图像输出。...

【技术特征摘要】
1.一种基于深度神经网络的移除图像内台标和字幕的方法,其特征在于,包括如下步骤:S1、建立图像修复模型:由类“U-net”网络和GAN组成图像修复模型,类“U-net”网络作为GAN的Generator;S2、训练集图像预处理:将训练集中的图像裁剪或缩放至限定大小,得到训练图像,根据通常情况下台标和字幕所在区域,将训练图像划分为区域1、区域2和区域3,其中区域1为台标所在区域,区域2为字幕所在区域,并在区域1和区域2中分别对应生成Mask1和Mask2;S3、处理训练数据:将未经处理的训练图像作为真实图像Pt;将训练图像中Mask1区域内的像素点RGB值置为0,作为训练图像P1;将训练图像中Mask2区域内的像素点RGB值置为0,作为训练图像P2;S4、训练图像修复模型:分别将训练图像P1和训练图像P2输入类“U-net”网络中进行计算,得到各自的输出图像Pout,分别将输出图像Pout和真实图像Pt划分为Mask区和不变区两部分,然后将输出图像Pout的Mask区与真实图像Pt的不变区组合为组合图像Pc;将组合图像Pc和输出图像Pout的Mask区拼接起来作为GAN中的判别器的输入,基于真实图像Pt、输出图像Pout和组合图像Pc计算总偏差L,利用随机梯度下降法对图像修复模型的网络参数进行训练更新,直至判别器无法迭代;再从训练集中另外选取图像,重复执行S2至S4,得到训练好的图像修复模型;S5、图像修复:将需要去除台标和字幕的图像或视频预处理后,输入训练好的图像修复模型中,将图像修复模型输出的图像与原图像结合,得到最终图像输出。2.根据权利要求1所述的一种基于深度神经网络的移除图像内台标和字幕的方法,其特征在于,所述S4中类“U-net”网络由卷积层和反卷积层构成,类“U-net”网络对训练图像P1和训练图像P2的处理流程包括下采样过程和上采样过程,所述下采样过程由步长为2的卷积核进行特征尺寸缩小,上采样过程由步长为1/2的卷积核进行特征尺寸放大。3.根据权利要求2所述的一种基于深度神经网络的移除图像内台标和字幕的方法,其特征在于,所述类“U-net”网络对训练图像P1和训练图像P2进行计算时,每一卷积和反卷积操作后都有一个ReLU激活函数。4.根据权利要求1所述的一种基于深度神经网络的移除图像内台标和字幕的方法,其特征在于,所述S4中的总偏差L由外部偏差L1、内部偏差L2、可感知偏差L3、风格偏差L4、内部间隔偏差L5和GAN判别式损失L6加权求和得到,外部偏差L1为真实图像Pt的不变区像素点与输出图像P...

【专利技术属性】
技术研发人员:王炜李杰温序铭谢超平
申请(专利权)人:成都索贝数码科技股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1