当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于神经网络及运动信息的黑白视频着色方法技术

技术编号:34256206 阅读:20 留言:0更新日期:2022-07-24 12:44
本发明专利技术涉及一种基于神经网络及运动信息的黑白视频着色方法,包括:将待着色黑白视频帧即目标黑白视频帧和参考视频帧输入至训练好的视频着色模型,从参考视频帧的亮度分量与目标黑白视频帧的亮度分量之间提取两者之间的运动信息,运动信息与所得到的参考帧之间亮度和色度的转换关系结合后,得到目标黑白视频帧之间的亮度和色度的转换关系,得到转换关系后作用于目标黑白视频帧上,就得到目标黑白视频帧的色度分量。本发明专利技术在输入的多帧黑白视频以及参考视频的亮度分量中提取其中的运动信息,指导后续着色过程,提高视频中运动物体的着色质量,同时,使用自注意力机制和源与参考注意力模块提高网络提取有效信息的能力,更容易训练出最佳的着色效果。易训练出最佳的着色效果。易训练出最佳的着色效果。

A black and white video coloring method based on neural network and motion information

【技术实现步骤摘要】
一种基于神经网络及运动信息的黑白视频着色方法


[0001]本专利技术涉及一种基于神经网络及运动信息的黑白视频着色方法,属于图像处理


技术介绍

[0002]“着色”一词早在1970年就被提出,在电影、胶片相机刚开始出现的时候,由于当时技术条件的限制,电影、照片都是黑白的,随着市场需求的不断发展,黑白电影、照片渐渐满足不了人们的需求,而具有丰富色彩的彩色电影、照片却大受欢迎,如何将这些黑白视频和照片重新着色是一个值得研究的问题。着色不仅仅在电影艺术领域有所应用,在很多领域,比如:医学领域,对X光透视成像的黑白影像着色,能够帮助医生诊断病情;在军事航空领域,将卫星遥感图像进行着色处理之后,能够将目标与背景形成区分,增加卫星图像的可读性等等。在着色技术发展的初期,主要是通过聘请专业人员手动为视频着色或者是用媒体制作工具逐帧地为视频着色,这样做不仅耗费人力而且成本昂贵。随着深度学习的发展,卷积神经网络与图像领域的结合拓宽了解决问题的思路,出现了一系列基于卷积网络的图像着色方法,这些方法取得了不错的着色效果,并且大大节省了人力和时间。
[0003]视频着色是一个具有挑战性的问题,相比较于图像着色,由于视频是由多个视频帧组合而成的,在为视频着色的时候不仅需要保证着色的合理性,还需要保持帧与帧之间的空间一致性和时间连续性。在视频着色中,视频中的运动往往会影响视频着色的结果,一个视频中运动的物体越多,运动的速度越快,着色就越困难。如果使用图像着色的方法为视频着色,将黑白视频中的每一帧视为一个图像,针对黑白视频中的每一帧选择对应的彩色参考图像进行匹配,生成彩色视频帧,最终将着色完成的每一帧视频帧进行连接,完成整个着色过程。然而,对每一帧图像单独着色没有考虑到视频帧之间的联系,最终往往会由于帧与帧之间的着色差异而导致视频播放时有视觉上的闪烁。

技术实现思路

[0004]现有技术视频着色中,对于视频中的运动物体着色困难、着色结果不准确,甚至导致着色结果出现伪影的缺点,本专利技术提出了基于自注意力机制及运动信息的视频着色方法。
[0005]术语解释:
[0006]源与参考注意力模块,本质上与自注意力机制相同,不同点在于自注意力机制只有源特征一个输入,自注意力机制只关注自身内部的联系。而源与参考注意力模块以两个不同特征作为输入,一个对应于源特征,另一个对应于参考特征,源与参考注意力模块能够挖掘源特征与参考特征之间的非局部相似性,让网络能够找到参考特征中与源特征相似的区域并作用于源特征。
[0007]自注意力机制,最早在2017年由谷歌团队提出,一开始用于Transformer语言模型中,相比较于注意力机制,自注意力机制关注的是内部的联系。将输入的原始数据看作<
Key,Value>键值对的形式,根据给定的任务目标中的查询值Query,计算Key与Query之间的相似系数,可以得到Value值对应的权重系数,之后再用权重系数对Value值进行加权求和,即可得到输出。使用Q、K、V分别表示Query、Key和Value。自注意力机制的Q、K、V都来自同一个数据源,如式()所示,其中是缩放因子,用于防止内积数值过大而影响网络学习。
[0008][0009]本专利技术的技术方案为:
[0010]一种基于神经网络及运动信息的黑白视频着色方法,包括:将待着色黑白视频帧即目标黑白视频帧和参考视频帧输入至训练好的视频着色模型,从参考视频帧的亮度分量与目标黑白视频帧的亮度分量之间提取两者之间的运动信息,运动信息与所得到的参考帧之间亮度和色度的转换关系结合后,得到目标黑白视频帧之间的亮度和色度的转换关系,得到转换关系后作用于目标黑白视频帧上,就得到目标黑白视频帧的色度分量,即完成了黑白视频着色。
[0011]根据本专利技术优选的,训练好的视频着色模型的训练过程如下:
[0012]获取数据集,对数据集进行预处理,分割为训练集和测试集;
[0013]构建视频着色模型,并将得到的训练集输入至视频着色模型进行训练,将测试集输入至训练好的黑白视频上色模型进行测试,得到训练好的视频着色模型。
[0014]根据本专利技术优选的,视频着色模型包括运动信息提取网络、参考特征提取网络、着色网络;运动信息提取网络分别对黑白视频帧以及参考帧的亮度分量提取特征,将黑白视频帧的特征与参考帧的亮度分量的特征进行结合,获得参考帧与黑白视频帧之间的运动信息;
[0015]参考特征提取网络提取参考帧中亮度分量与色度分量的特征,将提取到的特征和运动信息融合在一起,送入着色网络中;
[0016]着色网络将提取到的特征和运动信息进行融合并将特征恢复到原尺寸,预测出待着色黑白视频帧的色度分量,即实现了对黑白视频帧的着色。
[0017]根据本专利技术优选的,运动信息提取网络包括输入端特征提取模块、参考端亮度分量特征提取模块、源与参考注意力模块;通过输入端特征提取模块提取输入的待着色黑白视频帧的特征,通过参考端亮度分量特征提取模块提取参考帧亮度分量的特征,并通过源与参考注意力机制模块将待着色黑白视频帧的特征与参考帧亮度分量的特征进行融合,获取参考帧与黑白视频帧之间的运动信息。
[0018]进一步优选的,输入端特征提取模块、参考端亮度分量特征提取模块均包括输入层、卷积层、BN层、激活函数层;
[0019]卷积层用于对输入视频帧进行特征提取,得到视频帧的特征,并减小视频帧的特征的尺寸大小;BN层用于归一化;激活层用于实现视频帧的特征的非线性映射。
[0020]进一步优选的,卷积层使用3D卷积,卷积核大小为1
×3×
3。
[0021]进一步优选的,输入端特征提取模块如式(I)所示:
[0022]y
in
=σ1(w1×
y
input
)(I)
[0023]式(I)中,w1表示权重,y
in
表示提取到的待上色黑白视频帧的特征,σ1表示激活函
数,w1通过反向传播更新,通过反向传播更新,表示输入的第i帧黑白视频帧,i表示输入黑白视频帧的帧数。
[0024]进一步优选的,参考端亮度分量特征提取模块如式(II)所示:
[0025]y
ref
=σ1(w2×
y
reference
)(II)
[0026]式(II)中,w2表示权重,y
ref
表示提取到的参考帧的特征,σ1表示激活函数,w2通过反向传播更新,反向传播更新,表示输入的第x帧参考帧,x表示参考帧的帧数。
[0027]根据本专利技术优选的,运动信息提取网络的最终输出如式(III)所示:
[0028]M=A1(y
in
,y
ref
)(III)
[0029]式(III)中,M表示提取到的运动信息,A1(
·
,
·
)表示源与参考注意力模块。
[0030]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络及运动信息的黑白视频着色方法,其特征在于,包括:将待着色黑白视频帧即目标黑白视频帧和参考视频帧输入至训练好的视频着色模型,从参考视频帧的亮度分量与目标黑白视频帧的亮度分量之间提取两者之间的运动信息,运动信息与所得到的参考帧之间亮度和色度的转换关系结合后,得到目标黑白视频帧之间的亮度和色度的转换关系,得到转换关系后作用于目标黑白视频帧上,就得到目标黑白视频帧的色度分量,即完成了黑白视频着色。2.根据权利要求1所述的一种基于神经网络及运动信息的黑白视频着色方法,其特征在于,训练好的视频着色模型的训练过程如下:获取数据集,对数据集进行预处理,分割为训练集和测试集;构建视频着色模型,并将得到的训练集输入至视频着色模型进行训练,将测试集输入至训练好的黑白视频上色模型进行测试,得到训练好的视频着色模型。3.根据权利要求1所述的一种基于神经网络及运动信息的黑白视频着色方法,其特征在于,视频着色模型包括运动信息提取网络、参考特征提取网络、着色网络;运动信息提取网络分别对黑白视频帧以及参考帧的亮度分量提取特征,将黑白视频帧的特征与参考帧的亮度分量的特征进行结合,获得参考帧与黑白视频帧之间的运动信息;参考特征提取网络提取参考帧中亮度分量与色度分量的特征,将提取到的特征和运动信息融合在一起,送入着色网络中;着色网络将提取到的特征和运动信息进行融合并将特征恢复到原尺寸,预测出待着色黑白视频帧的色度分量,即实现了对黑白视频帧的着色。4.根据权利要求3所述的一种基于神经网络及运动信息的黑白视频着色方法,其特征在于,运动信息提取网络包括输入端特征提取模块、参考端亮度分量特征提取模块、源与参考注意力模块;通过输入端特征提取模块提取输入的待着色黑白视频帧的特征,通过参考端亮度分量特征提取模块提取参考帧亮度分量的特征,并通过源与参考注意力机制模块将待着色黑白视频帧的特征与参考帧亮度分量的特征进行融合,获取参考帧与黑白视频帧之间的运动信息;进一步优选的,输入端特征提取模块、参考端亮度分量特征提取模块均包括输入层、卷积层、BN层、激活函数层;卷积层用于对输入视频帧进行特征提取,得到视频帧的特征,并减小视频帧的特征的尺寸大小;BN层用于归一化;激活层用于实现视频帧的特征的非线性映射;进一步优选的,卷积层使用3D卷积,卷积核大小为1
×3×
3;进一步优选的,输入端特征提取模块如式(I)所示:y
in
=σ1(w1×
y
input
) (I)式(I)中,w1表示权重,y
in
表示提取到的待上色黑白视频帧的特征,σ1表示激活函数,w1通过反向传播更新,通过反向传播更新,表示输入的第i帧黑白视频帧,i表示输入黑白视频帧的帧数;进一步优选的,参考端亮度分量特征提取模块如式(II)所示:y
ref
=σ1(w2×
y
reference
) (II)式(II)中,w2表示权重,y
ref
表示提取到的参考帧的特征,σ1表示激活函数,w2通过反向传播更新,传播更新,表示输入的第
x帧参考帧,x表示参考帧的帧数。5.根据权利要求4所述的一种基于神经网络及运动信息的黑白视频着色方法,其特征在于,运动信息提取网络的最终输出如式(III)所示:M=A1(y
in
,y
ref
) (III)式(III)中,M表示提取到的运动信息,A1(
·

·
)表示源与参考注意力模块。6.根据权利要求1所述的一种基于神经网络及运动信息的黑白视频着色方法,其特征在于,参考特征提取网络包括输入层、卷积层、BN层、激活函数层;包括两条特征提取支路,第一条支路提取的是参考帧1/8原尺寸大小的特征,之后与运动信息通过源与参考注意力模...

【专利技术属性】
技术研发人员:元辉杨烨姜世奇初彦翰
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1