基于背景分离的RGB-D视频合成视点空洞掩盖方法技术

技术编号:35826541 阅读:18 留言:0更新日期:2022-12-03 13:53
本发明专利技术方法公开了基于背景分离的RGB

【技术实现步骤摘要】
基于背景分离的RGB

D视频合成视点空洞掩盖方法


[0001]本专利技术属于图像处理
,具体是虚拟视点合成
,涉及一种基于背景分离的RGB

D视频合成视点空洞掩盖方法。

技术介绍

[0002]3D视频、自由视点视频和虚拟现实等沉浸式多媒体服务能给人们带来身临其镜的逼真感,越来越受到人们的喜爱和关注。虚拟视点绘制技术能合成特定角度的视点信息,是沉浸式多媒体服务中的关键技术。其中,基于深度图像的绘制技术(Depth Image Based Rendering,DIBR)是基于参考视点纹理图和相应深度图来绘制虚拟视图,计算复杂度低,被广泛用于沉浸式多媒体服务的视图合成中。目前,使用DIBR进行视图合成,一个主要的问题是,参考视图中前景对象覆盖的部分可能在虚拟视图中显示出来,但是没有相应的像素变换到该位置,导致出现大范围的空洞。目前空洞填充算法,修复后空洞区域仍然会产生前景渗透和不满足空洞区域的时间一致性。
[0003]近些年来,深度学习的研究发展在许多领域都表现出优异的结果。其中图像分割的方法能为构建背景信息提供一种新的方法。这些方法的一个显着优点是可以通过从大量数据中学习图像特征来分割相应的对象。另外,针对虚拟视点绘制的图像,还应该考虑到空洞区域的时间一致性,即不同帧相同位置的空洞区域是有时间相关性的。

技术实现思路

[0004]本专利技术的目的是针对虚拟视点合成技术研究尚不成熟的问题,提供一种基于背景分离的RGB

D视频合成视点空洞掩盖方法。本专利技术方法提出的虚拟视点合成方法,不仅减少了空洞区域修复后的前景渗透,而且还考虑了不同帧之间空洞区域的时间相关性。
[0005]本专利技术方法以参考彩色图、参考深度图和相机信息为单位,利用加入并行注意力的P

UNet(Unet for Parallel Attent ion)网络分离彩色图前景、根据参考深度图前景与背景之间的像素突变分离前景,将两种方法的背景结合并使用高斯混合模型(Gaussian MixedModel,GMM)构建更干净的背景;使用基于深度和时间一致性的修复方法(Depth andTemporal Consi stency based inpaint ing method,BDC

Inpainting)修复背景;然后根据3D变换公式和相机信息绘制出虚拟视点和虚拟背景,并再次修复虚拟背景。最后使用虚拟背景填充虚拟视点空洞中的缺失像素。
[0006]本专利技术方法具体步骤如下:
[0007]步骤(1)通过P

UNet网络、参考深度图边缘特征,分别获取参考彩色背景和参考深度背景
[0008](1

1)使用VOCdevkit2007数据集作为训练集和测试集,对P

UNet网络进行训练,得到网络模型,用于参考视点图像的前景分割;P

UNet网络结构为编码器

解码器结构,在编码器阶段,通过多次卷积、下采样学习图像的有效特征;在解码器阶段,对有效特征进行上采样,并与相应的编码器特征相拼接,采用拼接后的特征对参考彩色图进行分割。
[0009]P

UNet网络使用并行注意力,包括:通道注意力,通过在特征图中分配通道权重,增加与前景物体相关的通道权重;反向注意力,通过对前景物体的修正,使边界的细节信息逐渐准确;将通道注意力和反向注意力产生的特征进行融合,得到更有效的特征;
[0010]输入并行注意力的两个特征来自编码器提供的特征F
e
和解码器提供的特征F
d

[0011]经过反向注意力后获得的特征图R
k
=Conv(F
e
·
M
k
),Conv表示卷积操作,反向注意力权重M
k


(σ(F
d
)),σ为激活函数sigmoid,

为取反操作;
[0012]经过通道注意力后获得的特征图C
k
=ReLu(Conv(MaxPool(F))
·
F),ReLu为激活函数,MaxPool表示对输入数据进行最大池化,F
e
和F
d
拼接后的特征F=Concat(F
e
,F
d
),Concat表示输入数据的拼接;
[0013]将两特征融合,得到并行注意力输出特征O
k
=ReLu(Concat(R
k
,C
k
));
[0014]对并行注意力输出特征O
k
进行一次卷积操作,获得P

UNet网络分割参考彩色图的二值图通过二值图获得P

UNet网络分割参考彩色图的背景B
C

[0015](1

2)首先对参考深度图D进行双边滤波,然后通过Canny边缘检测,提取参考深度图D的前景对象边缘图E,以前景对象边缘图E的前景边缘为边界,获取整个参考深度图前景对象;通过迭代法获取整个前景区域;每次迭代时,通过当前像素D(x,y)与相邻前景像素差值,以及当前像素D(x,y)是否大于设定阈值Ostu(FE
i
)判断当前像素D(x,y)是否属于前景;
[0016]迭代后的前景像素1表示属于前景,0表示不属于前景;FE
i
表示能包含第i个连续边缘的最小矩形区域,F8(D(x,y))表示当前像素D(x,y)的八邻域的前景像素,当前像素D(x,y)与八邻域的前景像素F8(D(x,y))的相似程度Diff(D(x,y),F8(D(x,y)))=|F8(D(x,y))

D(x,y)|,c2为判断相邻像素是否为前景的阈值。
[0017](1

3)网络模型对参考彩色图进行前景提取,得到参考彩色图的前景二值图对参考深度图进行前景提取,得到参考深度图的前景二值图
[0018]将两个前景二值图和取并集,得到准确前景二值图,由此获得一个更干净的参考彩色背景和参考深度背景
[0019]步骤(2)通过视频序列中每一帧的参考彩色背景和参考深度背景,利用高斯混合模型GMM对参考彩色背景和参考深度背景进行背景建模。
[0020](2

1)采用高斯混合模型GMM重建稳定的背景,GMM执行像素级操作,其中每个像素由K个高斯分布混合独立建模,前景像素不用于背景建模。
[0021]高斯混合模型通常用于划分运动对象和稳定背景,因此可以用于重建稳定的背景。具有K个分量修改的高斯混合分布表示为:其中,s
t
表示时间为t时的像素s,p(s
t
)表示时间为t时像素s的概率密度,w...

【技术保护点】

【技术特征摘要】
1.基于背景分离的RGB

D视频合成视点空洞掩盖方法,其特征在于:步骤(1)通过P

UNet网络、参考深度图边缘特征,分别获取参考彩色背景和参考深度背景步骤(2)通过视频序列中每一帧的参考彩色背景和参考深度背景,利用高斯混合模型GMM对参考彩色背景和参考深度背景进行背景建模;步骤(3)对构建的参考深度背景序列中的每一帧空洞区域进行深度预测;对参考深度背景中的空洞区域通过线性插值进行预测,如果空洞两边仍存在背景像素,通过线性插值方法进行预测;如果空洞两边只有一侧存在像素,则直接采用存在一侧的深度用于预测缺失的深度值;由此获得每一帧深度预测后的参考深度背景图;步骤(4)使用BDC

Inpainting算法对高斯混合模型GMM构建的参考彩色背景图进行修复,其中BDC

Inpainting算法结合深度信息和前一帧修复后的参考彩色背景用于引导当前帧的参考背景的修复;步骤(5)通过3D

Warping公式将参考彩色图、参考深度图,参考彩色背景图和参考深度背景图变换为虚拟视点图像;步骤(6)通过步骤(3)对合成的虚拟深度背景图进行深度预测并通过(4)对合成的虚拟彩色背景进行修复;由此获得修复后的虚拟参考彩色背景图B
cv
;步骤(7)使用步骤(6)获得修复后的虚拟参考彩色背景图B
cv
对步骤(5)中获得的合成虚拟彩色图C
v
中的空洞区域进行填充。2.如权利要求1所述的基于背景分离的RGB

D视频合成视点空洞掩盖方法,其特征在于,步骤(1)具体是:(1

1)使用VOCdevkit2007数据集作为训练集和测试集,对P

UNet网络进行训练,得到网络模型,用于参考视点图像的前景分割;P

UNet网络结构为编码器

解码器结构,在编码器阶段,通过多次卷积、下采样学习图像的有效特征;在解码器阶段,对有效特征进行上采样,并与相应的编码器特征相拼接,采用拼接后的特征对参考彩色图进行分割;P

UNet网络使用并行注意力,包括:通道注意力,通过在特征图中分配通道权重,增加与前景物体相关的通道权重;反向注意力,通过对前景物体的修正,使边界的细节信息逐渐准确;将通道注意力和反向注意力产生的特征进行融合,得到更有效的特征;输入并行注意力的两个特征来自编码器提供的特征F
e
和解码器提供的特征F
d
;经过反向注意力后获得的特征图R
k
=Conv(F
e
·
M
k
),Conv表示卷积操作,反向注意力权重M
k


(σ(F
d
)),σ为激活函数sigmoid,

为取反操作;经过通道注意力后获得的特征图C
k
=ReLu(Conv(MaxPool(F))
·
F),ReLu为激活函数,MaxPool表示对输入数据进行最大池化,F
e
和F
d
拼接后的特征F=Concat(F
e
,F
d
),Concat表示输入数据的拼接;将两特征融合,得到并行注意力输出特征O
k
=ReLu(Concat(R
k
,C
k
));对并行注意力输出特征O
k
进行一次卷积操作,获得P

UNet网络分割参考彩色图的二值图通过二值图获得P

UNet网络分割参考彩色图的背景B
C
;(1

2)首先对参考深度图D进行双边滤波,然后通过Canny边缘检测,提取参考深度图D的前景对象边缘图E,以前景对象边缘图E的前景边缘为边界,获取整个参考深度图前景对
象;通过迭代法获取整个前景区域;每次迭代时,通过当前像素D(x,y)与相邻前景像素差值,以及当前像素D(x,y)是否大于设定阈值Ostu(FE
i
)判断当前像素D(x,y)是否属于前景;迭代后的前景像素1表示属于前景,0表示不属于前景;FE
i
表示能包含第i个连续边缘的最小矩形区域,F8(D(x,y))表示当前像素D(x,y)的八邻域的前景像素,当前像素D(x,y)与八邻域的前景像素F8(D(x,y))的相似程度Diff(D(x,y),F8(D(x,y)))=|F8(D(x,y))

D(x,y)|,c2为判断相邻像素是否为前景的阈值;(1

3)网络模型对参考彩色图进行前景提取,得到参考彩色图的前景二值图对参考深度图进行前景提取,得到参考深度图的前景二值图将两个前景二值图和取并集,得到准确前景二值图,由此获得一个更干净的参考彩色背景和参考深度背景3.如权利要求2所述的基于背景分离的RGB

D视频合成视点空洞掩盖方法,其特征在于,步骤(2)具体是:(2

1)采用高斯混合模型GMM重建稳定的背景,GMM执行像素级操作,其中每个像素由K个高斯分布混合独立建模,前景像素不用于背景建模;(2

2)在时间t为第一帧时初始化GMM的参数,对第一帧每个像素对应的第一个高斯分布初始化,均值为当前像素值,权重为1,方差为设定值σ
20
;每个像素除第一个高斯分布以外的高斯分布函数的均值、权重都初始化为0;(2

3)从第二帧开始,若原先为空洞的区域出现像素值,则将像素值直接赋给空洞像素的第一个高斯分布的均值;从第二帧开始对每个像素进行匹配,且该像素要为背景像素,查看是否匹配某个高斯模型,匹配条件为|s
t

u
k,t
‑1|<2.5σ
k,t
‑1,M(s
t
)=1;如果K个模型中至少有一个匹配,则将匹配的模型进行参数更新,如果K个模型均不匹配,则新建高斯分布,对权重...

【专利技术属性】
技术研发人员:林坤周洋蔡毛毛殷海兵陈平安黄晓峰俞定国杨阳
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1