一种视频人像的分割、装置、计算机和存储介质制造方法及图纸

技术编号:37227203 阅读:12 留言:0更新日期:2023-04-20 23:10
本发明专利技术公开一种视频人像的分割方法,包括:对视频进行解析得到视频图像,并提取视频图像的浅层特征和深层特征;对深层特征进行信息融合得到第一多维深层特征,对深层特征依次进行池化、卷积、sigmoid和双线性插值计算后放大处理得到第二多维深层特征,将第一多维深层特征和第二多维深层特征进行融合得到深层输出特征;将浅层特征与深层输出特征相加得到输出特征,通过DC

【技术实现步骤摘要】
一种视频人像的分割、装置、计算机和存储介质


[0001]本专利技术属于图像分割
,尤其是一种视频人像的分割方法、装置、计算机和存储介质。

技术介绍

[0002]语义分割是计算机视觉中很重要的一个方向。不同于目标检测和识别,语义分割实现的是图像像素级的分类。即给每一个像素赋予一个类别,因此它能够将一张图片或者视频(视频以帧来提取的话其实就是图片),按照类别的异同,将图像分为多个不同的区块,从而达到图像语义分割的目的。人像分割属于语义分割的一种,在图像或者视频帧中,将人体视作前景类别,将其他视作背景类别,对于整幅画面区分为两类。该技术目前有着广泛的应用,在诸如人像特效等娱乐化场景、视频会议或者直播的背景替换等等场景中都有着深度而广泛的应用。
[0003]先前的传统方案主要是灰度分割,条件随机场等一些较为传统的算法。其中,灰度分割中最简单的语义分割涉及的分配区域,必须满足一些硬编码规则或属性,以便为其分配特定标签。规则可以根据像素的属性(例如像素灰度级强度)来构建。使用此技术的一种方法是拆分(Split)和合并(Merge)算法。该算法递归地将图像分割成子区域,直到可以分配标签,然后通过合并它们将相邻的子区域与相同的标签组合,但是这种方法的问题是必须采用硬编码的方式。此外,仅用灰色级别的信息来表示复杂的类(如人像)是极其困难的。因此,需要特征提取和优化技术来正确地学习这些复杂类所需的表征方式。
[0004]条件随机场是通过训练模型为每个像素分配类别标签的方式来分割图像。如果我们的模型不完美,我们可能会得到自然界不可能得到的噪声分割结果。因此可以通过考虑像素之间的先验关系来避免这些问题,例如,对象是连续的,因此附近的像素往往具有相同的标签。为了模拟这些关系,我们使用条件随机场(CRF)。CRF是一种用于结构化预测的统计建模方法。与离散分类器不同,CRF可以在进行预测之前考虑“相邻上下文”,比如像素之间的关系。这使得它成为语义分割的理想候选。图像中的每个像素都与一组有限的可能状态相关联。在我们的示例中,目标标签是可能的状态集。将一个状态(或标签)分配给单个像素(x)的成本称为它的一元成本(unary cost)。为了对像素之间的关系建模,我们还考虑了将一对标签(u,v)分配给一对像素(x,y)的成本,即成对成本(pairwise cost)。我们可以考虑它的近邻像素对(Grid CRF)或者图像中的所有像素对(Dense CRF)。
[0005]然而,现有技术的特征提取方面主要是使用深度学习神经网络来进行。经过人工假设的卷积神经网络,把人脸图片映射到一个高维的向量。通常在提取特征的神经网络模型训练中,会驱使这些经过映射后的人脸特征,在其特征空间中不同人的特征间距尽可能大,同一人的特征尽可能的小。在所有的待聚类图像特征集合中,运用传统的聚类算法(如k

means,threshold clustering,mean shift,DBSCAN,rank

order等)进行无监督的自动聚类。目前运用最广泛的就是手机相册的人物归类整理。
[0006]现有的主流技术方案主要是深度卷积网络方法为主。
[0007]FCN:Fully Convolutional Networks。全部网络仅包含卷积模块,首次实现在可变大小的图像上以端到端的方式训练深层网络,输出相同分辨率的分割图像。然而,传统的FCN模型虽然具有普遍性和有效性,但也存在一定的局限性,它不能快速地进行实时推理,不能有效地考虑全局上下文信息,同时也不易于适用于3D图像。
[0008]Encoder

Decoder Based Models:基于卷积编码器

解码器体系结构的模式。在该种模式下最流行的即是基于self

attention形式的注意力机制神经网络结构。可以灵活替换多种主干网络,结合自注意力机制实现目标语义的分割。
[0009]Generative Models:GANs自提出以来,已被广泛应用于计算机视觉领域,并被用于图像分割。Luc等人提出了一种对抗性的语义分割训练方法。他们训练了一个卷积式语义分割网络,以及一个对抗性网络,该网络将地面真值分割图与分割网络生成的真值分割图区分开来。
[0010]Multi

Scale and Pyramid Network Based Models:Lin等人提出的特征金字塔网络(FPN)。虽然主要用于目标检测,但也应用于分割,利用深度网络的内在多尺度金字塔层次结构构造具有边际额外成本的特征金字塔。为了融合低分辨率和高分辨率特征,FPN由自下而上的路径、自上而下的路径和横向连接组成。然后,通过3
×
3卷积处理连接的特征映射,以产生每个阶段的输出。最后,自上而下路径的每个阶段都生成一个预测来检测对象。对于图像分割,作者使用两个多层感知器(MLPs)来生成掩模。
[0011]Dilated Convolutional Models and DeepLab Family:空洞卷积由普通卷积引申而来,加入了一个参数
‑‑
扩展率。一个3X3的卷积在扩展率为2的情况下,可以达到5X5卷积的感受野,而参数量并未增加。空洞卷积在当下的实时深度学习分割网络中非常常见,在经典的谷歌DeepLab系列、DenseASPP分割架构中都得到了应用。

技术实现思路

[0012]为解决上述技术问题,本专利技术创造的实施例提供一种视频人像的分割方法,包括:
[0013]对视频进行解析得到视频图像,并对所述视频图像进行特征提取得到所述视频图像的浅层特征和深层特征;
[0014]对所述深层特征进行信息融合得到第一多维深层特征,对所述深层特征依次进行池化、卷积、sigmoid和双线性插值计算后放大处理得到第二多维深层特征,并将所述第一多维深层特征和所述第二多维深层特征进行融合得到包含人像特征和背景特征的深层输出特征;
[0015]将所述浅层特征与所述深层输出特征相加得到所述视频图像的输出特征,通过DC

CE

loss损失函数对所述输出特征的人像特征和背景特征进行标注,并利用标注后的数据进行模型训练得到人像分割模型;
[0016]获取待分割视频图像,将所述待分割视频图像输入至所述人像分割模型中得到所述待分割视频图像的输出特征,对所述输出特征进行滤波,二值化处理以及对所述待分割图像的边缘进行平均值滤波得到所述待分割视频图像中的人像。
[0017]进一步地,所述对所述视频图像进行特征提取得到所述视频图像的浅层特征和深层特征,包括:
[0018]通过mobilenetV3网络对所述视频图像依次按照1/4、1/8、1/16倍下采样;
[0019]将1/8倍下采样的特征作为所述浅层特征,将1/16倍下采样的特征作为所述深层特征。
[0020]进一步地,对所述深层特征进行信息融合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频人像的分割方法,其特征在于,包括:对视频进行解析得到视频图像,并对所述视频图像进行特征提取得到所述视频图像的浅层特征和深层特征;对所述深层特征进行信息融合得到第一多维深层特征,对所述深层特征依次进行池化、卷积、sigmoid和双线性插值计算后放大处理得到第二多维深层特征,并将所述第一多维深层特征和所述第二多维深层特征进行融合得到包含人像特征和背景特征的深层输出特征;将所述浅层特征与所述深层输出特征相加得到所述视频图像的输出特征,通过DC

CE

loss损失函数对所述输出特征的人像特征和背景特征进行标注,并利用标注后的数据进行模型训练得到人像分割模型;获取待分割视频图像,将所述待分割视频图像输入至所述人像分割模型中得到所述待分割视频图像的输出特征,对所述输出特征进行滤波,二值化处理以及对所述待分割图像的边缘进行平均值滤波得到所述待分割视频图像中的人像。2.根据权利要求1所述的分割方法,其特征在于,所述对所述视频图像进行特征提取得到所述视频图像的浅层特征和深层特征,包括:通过mobilenetV3网络对所述视频图像依次按照1/4、1/8、1/16倍下采样;将1/8倍下采样的特征作为所述浅层特征,将1/16倍下采样的特征作为所述深层特征。3.根据权利要求1所述的分割方法,其特征在于,对所述深层特征进行信息融合得到第一多维深层特征,具体为:利用1X1的ConvBNReLU模型对所述深层特征进行特征通道信息融合,得到128维的第一多维深层特征。4.根据权利要求1所述的分割方法,其特征在于,所述对所述深层特征依次进行池化、卷积、sigmoid和双线性插值计算后放大处理得到第二多维深层特征,包括:利用大小为49X49,滑动步长为stride=[16,20]对所述深层特征进行平均池化;利用1X1的卷积层对平均池化后的特征进行卷积得到128维的特征,并采用sigmoid计算和双线性插值放大得到128维的第二多维特征。5.根据权利要求1所述的分割方法,其特征在于,所述将所述第一多维深层特征和所述第二多维深层特征进行融合得到包含人像特征和背景特征的深层输出特征,包括:将所述第一多维深层特征与所述第二多维深层特征进行矩阵相乘得到输出特征;对所述输出特征进行双线性插值和1X1卷积得到包含人像特征和背景特征的深层输出特征。6.根据权利要求1所述的分割方法,其...

【专利技术属性】
技术研发人员:王博
申请(专利权)人:万兴科技湖南有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1