【技术实现步骤摘要】
一种基于深度学习的虚拟视点绘制空洞填充方法及装置
[0001]本专利技术属于深度学习、虚拟视点绘制
,具体涉及一种基于深度学习的虚拟视点绘制空洞填充方法及装置。
技术介绍
[0002]自由视点视频、立体电视和虚拟现实等新兴的三维(three
‑
dimension,3D)多媒体视觉服务能给用户带来沉浸式和交互式的视觉体验,越来越受到人们的关注和喜爱。但是表征交互式3D视频需要大量的视点信息,由于采集成本和带宽的限制,在实际应用中只能采集和传输有限个视点的场景。目前,多视点加深度(multi
‑
view plus depth,MVD)编码格式是压缩3D视频和自由视点视频的主流格式,它在解码端通过基于深度图像的绘制(depth image based rendering,DIBR)技术从MVD视频中绘制出需要的虚拟视点来弥补视点数目的不足。然而在绘制虚拟视点时,不同视点间由于存在前后景遮挡等问题会导致绘制图像中存在空洞、裂纹等缺失区域,因此需要对绘制图像的缺失区域进行修补。
[0003]传统的虚拟视点绘制空洞填充技术,主要基于空域一致性和基于时域一致性两类。基于空域一致性的技术主要包括使用滤波器和基于补丁的方法;基于时域一致性的技术提出利用背景模块来构建背景的空洞区域。例如专利号CN201310017391.3的专利文献中提出一种新的基于深度图渲染技术的虚拟视点合成的方法。通过3D图像变换获得虚拟视点深度图像,对该深度图像进行优化处理;然后根据优化处理得到的深度图进行逆向3 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的虚拟视点绘制空洞填充方法,其特征在于包括如下步骤:步骤S1:基于原图及其掩膜图,得到待修复图,将待修复图和掩膜图输入渐进式迭代网络,渐进式迭代网络通过部分卷积对待修复图进行局部空洞识别,并基于知识一致注意力机制进行空洞填充,构建损失函数以提升背景空洞区域和已知区域的语义一致性;步骤S2:构建上下文特征传播损失,融入步骤S1中构建的损失函数,将渐进式迭代网络的输出,进行相似性编码,得到图像块和非空洞区域图像块的相似度,基于相似度,使得背景空洞生成具有语义一致性的填充块;步骤S3:将渐进式迭代网络的输出,进行加权合并,得到最终的修复图。2.根据权利要求1所述的一种基于深度学习的虚拟视点绘制空洞填充方法,其特征在于:所述步骤S1中,部分卷积只使用空洞区域中的有效像素进行运算,更新后的掩膜在整个迭代过程中被保留,直到下一次迭代时被缩小更新。3.根据权利要求1所述的一种基于深度学习的虚拟视点绘制空洞填充方法,其特征在于:所述步骤S1中的知识一致注意力机制,首先,通过归一化已知特征补丁向量和生成特征补丁向量间的内积来获得每个补丁的注意力分数;然后,根据上一次迭代生成的掩膜像素值是否有效,对最终注意力分数加权;最后,利用注意力分数更新缺失补丁的特征,并通过卷积层来提高输入特征和重建特征的结构一致性。4.根据权利要求1所述的一种基于深度学习的虚拟视点绘制空洞填充方法,其特征在于:所述步骤S1中,损失函数融合了L1损失、感知损失、风格损失与平滑损失;所述L1损失包括空洞区域的损失L
valid
和空洞区域的损失L
hole
:L1=λ1L
valid
+λ2L
holehole
其中,λ1和λ2分别表示L
valid
和L
hole
的权重,M是二值化图,分为空洞区域、有效区域,
⊙
表示点乘,I
gt
表示原图,表示第t次渐进式迭代网络输出的预测图,C、H、W分别是通道数、特征补丁的高度和宽度;所述感知损失定义为:其中,Io是输出结果图,由中的空洞生成像素和I
gt
中的非空洞像素组成;ψ
m
(I
gt
)和ψ
m
(I
o
)分别表示I
gt
和I
o
经过预训练特征提取网络的第m个池化层后输出的特征;H
m
、W
m
和C
m
表示提取到的第m特征图的高度、宽度和通道数;N2是池化层的数目;所述风格损失定义为:其中,是通过计算特征图的格拉姆矩阵Gram来获得网络中每层特征的相似性,即
所述平滑损失定义为:其中,P
i,j
表示I
o
中的一个像素点,P
i,j+1
和P
i+1,j
...
【专利技术属性】
技术研发人员:刘家希,周洋,谭子丰,殷海兵,唐向宏,黄晓峰,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。