一种基于深度学习的虚拟视点绘制空洞填充方法及装置制造方法及图纸

技术编号:39397801 阅读:14 留言:0更新日期:2023-11-19 15:51
本发明专利技术公开了一种基于深度学习的虚拟视点绘制空洞填充方法及装置,基于原图及其掩膜图,得到待修复图,将待修复图和掩膜图输入渐进式迭代网络,渐进式迭代网络通过部分卷积对待修复图进行局部空洞识别,并基于知识一致注意力机制进行空洞填充,构建损失函数以提升背景空洞区域和已知区域的语义一致性;构建上下文特征传播损失,融入步骤S1中构建的损失函数,将渐进式迭代网络的输出,进行相似性编码,得到图像块和非空洞区域图像块的相似度,基于相似度,使得背景空洞生成具有语义一致性的填充块;将渐进式迭代网络的输出,进行加权合并,得到最终的修复图。得到最终的修复图。得到最终的修复图。

【技术实现步骤摘要】
一种基于深度学习的虚拟视点绘制空洞填充方法及装置


[0001]本专利技术属于深度学习、虚拟视点绘制
,具体涉及一种基于深度学习的虚拟视点绘制空洞填充方法及装置。

技术介绍

[0002]自由视点视频、立体电视和虚拟现实等新兴的三维(three

dimension,3D)多媒体视觉服务能给用户带来沉浸式和交互式的视觉体验,越来越受到人们的关注和喜爱。但是表征交互式3D视频需要大量的视点信息,由于采集成本和带宽的限制,在实际应用中只能采集和传输有限个视点的场景。目前,多视点加深度(multi

view plus depth,MVD)编码格式是压缩3D视频和自由视点视频的主流格式,它在解码端通过基于深度图像的绘制(depth image based rendering,DIBR)技术从MVD视频中绘制出需要的虚拟视点来弥补视点数目的不足。然而在绘制虚拟视点时,不同视点间由于存在前后景遮挡等问题会导致绘制图像中存在空洞、裂纹等缺失区域,因此需要对绘制图像的缺失区域进行修补。
[0003]传统的虚拟视点绘制空洞填充技术,主要基于空域一致性和基于时域一致性两类。基于空域一致性的技术主要包括使用滤波器和基于补丁的方法;基于时域一致性的技术提出利用背景模块来构建背景的空洞区域。例如专利号CN201310017391.3的专利文献中提出一种新的基于深度图渲染技术的虚拟视点合成的方法。通过3D图像变换获得虚拟视点深度图像,对该深度图像进行优化处理;然后根据优化处理得到的深度图进行逆向3D图像变换,获得虚拟视点彩色图像;最后通过基于深度信息的图像修复算法进行空洞填充。通过逆向3D图像变换,可以避免虚拟视点彩色图像上出现裂纹,提高虚拟视点图像的质量;另外,针对虚拟视点图像中的非遮挡空洞区域,采用图像修复的方法进行填充,可以保证渲染出的图像产生最佳的显示效果。上述专利仍然是基于空域一致性的搜索单视图的补丁方法进行填充,容易赋予前背景相同权重,伪影现象严重。
[0004]现有技术中,基于空域一致性技术中的滤波器,只能对绘制过程中出现的裂缝和小基线空洞进行修复,基于补丁的方法会对相似补丁块进行搜索和匹配,由于搜索算法的精确度不高,容易赋予前背景相同的权重;而基于时域一致性的方法中,利用重建的背景图来填补虚拟视图,且步骤繁多,而且场景包含运动物体,易造成前景被建模为背景,导致前背景像素混叠以及伪影现象。

技术实现思路

[0005]为解决现有技术的不足,本专利技术采用端到端的深度学习技术,实现虚拟视点绘制空洞填充的目的,本专利技术采用如下的技术方案:
[0006]一种基于深度学习的虚拟视点绘制空洞填充方法,包括如下步骤:
[0007]步骤S1:基于原图及其掩膜图,得到待修复图,将待修复图和掩模图输入渐进式迭代网络,渐进式迭代网络通过部分卷积对待修复图进行局部空洞识别,并基于知识一致注意力机制进行空洞填充,构建损失函数以提升背景空洞区域和已知区域的语义一致性;
[0008]步骤S2:构建上下文特征传播损失,融入步骤S1中构建的损失函数,以提高特征匹配的鲁棒性,将渐进式迭代网络的输出,进行相似性编码,得到图像块和非空洞区域图像块的相似度,基于相似度,使得背景空洞生成具有语义一致性的填充块;
[0009]步骤S3:将渐进式迭代网络的输出,进行加权合并,得到最终的修复图。当渐进式迭代次数达到设定的阈值时,空洞区域填充完成,但如果直接使用此时输出的特征图,则会存在梯度消失和中间生成特征丢失问题,如果采用平均合并和自适应合并,则早期输出的重建图像中的缺失区域会影响最终输出图像的质量,为了解决上述问题,通过加权合并融合每次渐进式迭代生成的特征图。
[0010]进一步地,所述步骤S1中,部分卷积只使用空洞区域中的有效像素进行运算,更新后的掩模在整个迭代过程中被保留,直到下一次迭代时被缩小更新,有利于浅层有效特征的提取。
[0011]进一步地,所述步骤S1中的知识一致注意力机制,首先,通过归一化已知特征补丁向量和生成特征补丁向量间的内积来获得每个补丁的注意力分数;然后,根据上一次迭代生成的掩膜像素值是否有效,对最终注意力分数加权;最后,利用注意力分数更新缺失补丁的特征,并通过卷积层来提高输入特征和重建特征的结构一致性。注意力机制可以提取语义合理且像素信息更准确的特征图,而知识一致注意力模块的优势在于注意力分数是通过当前注意力分数和上一次迭代的分数的加权和来衡量,使前后帧补丁间具有相关性,从而解决传统方法中基于补丁块填充的前背景权重相同的问题。
[0012]进一步地,所述步骤S1中,损失函数融合了L1损失、感知损失、风格损失与平滑损失;所述L1损失包括空洞区域的损失L
valid
和空洞区域的损失L
hole

[0013]L1=λ1L
valid
+λ2L
hole
[0014][0015][0016]其中,λ1和λ2分别表示L
valid
和L
hole
的权重,M是二值化图,分为0表示空洞区域、1表示有效区域,

表示点乘,I
gt
表示原图,表示第t次渐进式迭代网络输出的预测图,C、H、W分别是通道数、特征补丁的高度和宽度;
[0017]所述感知损失用于增强填充图像和真实图像间高级特征结构的相似性,定义为:
[0018][0019]其中,I
o
是输出结果图,由中的空洞生成像素和I
gt
中的非空洞像素组成;ψ
m
(I
gt
)和ψ
m
(I
o
)分别表示I
gt
和I
o
经过预训练特征提取网络VGG

16的第m个池化层后输出的特征;H
m
、W
m
和C
m
表示提取到的第m特征图的高度、宽度和通道数;N2是池化层的数目;
[0020]所述风格损失用于补偿感知损失不能有效保持填充区域与周边区域的风格一致性问题,定义为:
[0021][0022]其中,是通过计算特征图的格拉姆矩阵Gram来获得网络中每层特征的相似性,即
[0023]所述平滑损失用于保持填充后图像的光滑性,定义为:
[0024][0025]其中,P
i,j
表示I
o
中的一个像素点,P
i,j+1
和P
i+1,j
分别表示P
i,j
垂直方向和水平方向的相邻像素点,R是空洞区域中像素为1的膨胀区域,N
c
是I
o
的图像块总数量。
[0026]进一步地,所述步骤S2中,通过相似性编码卷积计算生成图像块和非空洞区域图像块的相似度,其中卷积核获取操作是通过提取自身的补丁来处理背景特征图,大小设置为步长为2的4本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的虚拟视点绘制空洞填充方法,其特征在于包括如下步骤:步骤S1:基于原图及其掩膜图,得到待修复图,将待修复图和掩膜图输入渐进式迭代网络,渐进式迭代网络通过部分卷积对待修复图进行局部空洞识别,并基于知识一致注意力机制进行空洞填充,构建损失函数以提升背景空洞区域和已知区域的语义一致性;步骤S2:构建上下文特征传播损失,融入步骤S1中构建的损失函数,将渐进式迭代网络的输出,进行相似性编码,得到图像块和非空洞区域图像块的相似度,基于相似度,使得背景空洞生成具有语义一致性的填充块;步骤S3:将渐进式迭代网络的输出,进行加权合并,得到最终的修复图。2.根据权利要求1所述的一种基于深度学习的虚拟视点绘制空洞填充方法,其特征在于:所述步骤S1中,部分卷积只使用空洞区域中的有效像素进行运算,更新后的掩膜在整个迭代过程中被保留,直到下一次迭代时被缩小更新。3.根据权利要求1所述的一种基于深度学习的虚拟视点绘制空洞填充方法,其特征在于:所述步骤S1中的知识一致注意力机制,首先,通过归一化已知特征补丁向量和生成特征补丁向量间的内积来获得每个补丁的注意力分数;然后,根据上一次迭代生成的掩膜像素值是否有效,对最终注意力分数加权;最后,利用注意力分数更新缺失补丁的特征,并通过卷积层来提高输入特征和重建特征的结构一致性。4.根据权利要求1所述的一种基于深度学习的虚拟视点绘制空洞填充方法,其特征在于:所述步骤S1中,损失函数融合了L1损失、感知损失、风格损失与平滑损失;所述L1损失包括空洞区域的损失L
valid
和空洞区域的损失L
hole
:L1=λ1L
valid
+λ2L
holehole
其中,λ1和λ2分别表示L
valid
和L
hole
的权重,M是二值化图,分为空洞区域、有效区域,

表示点乘,I
gt
表示原图,表示第t次渐进式迭代网络输出的预测图,C、H、W分别是通道数、特征补丁的高度和宽度;所述感知损失定义为:其中,Io是输出结果图,由中的空洞生成像素和I
gt
中的非空洞像素组成;ψ
m
(I
gt
)和ψ
m
(I
o
)分别表示I
gt
和I
o
经过预训练特征提取网络的第m个池化层后输出的特征;H
m
、W
m
和C
m
表示提取到的第m特征图的高度、宽度和通道数;N2是池化层的数目;所述风格损失定义为:其中,是通过计算特征图的格拉姆矩阵Gram来获得网络中每层特征的相似性,即
所述平滑损失定义为:其中,P
i,j
表示I
o
中的一个像素点,P
i,j+1
和P
i+1,j
...

【专利技术属性】
技术研发人员:刘家希周洋谭子丰殷海兵唐向宏黄晓峰
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1