当前位置: 首页 > 专利查询>集美大学专利>正文

一种人体实例分割方法、终端设备及存储介质技术

技术编号:30311601 阅读:21 留言:0更新日期:2021-10-09 22:53
本发明专利技术涉及一种人体实例分割方法、终端设备及存储介质,该方法中包括:S1:基于彩色图片的颜色信息,通过不同的距离计算算法进行像素间距离的计算,并将所有距离计算结果串联后,通过卷积层转换为图片特征;S2:将图片划分为多个块后,根据每个块的块特征和像素位置,得到图片的特征表示向量E;S3:构建Transformer编码器解码器网络,通过Transformer编码器解码器网络将特征表示向量E转换为优化特征F

【技术实现步骤摘要】
一种人体实例分割方法、终端设备及存储介质


[0001]本专利技术涉及计算机视觉领域,尤其涉及一种人体实例分割方法、终端设备及存储介质。

技术介绍

[0002]目前实例分割技术主要分为两类:1)无候选目标框的算法(Proposal

free methods),这类算法的核心思想是为每个点学习一个可区分的特征,然后再通过诸如mean

shift等聚类方法来将同一个实例的点聚集到一起。这类方法的问题在于最终聚类到一起的实例目标性比较差。此外,此类方法后处理步骤的时间成本通常较高;2)基于候选目标框的算法(Proposal

based methods),这类算法通常先生成大量的候选框,然后再进行第二阶段的优化。但是如果候选框的偏差比较大,此类方法就很难奏效。同时还需要类似于非极大值抑制等操作来对密集的候选框进行选择,缺点是运算量特别大,另外当有高度重叠的物体时,非极大值抑制会将其中一个的候选框认为成重复的候选区域然后删掉。这就意味着基于候选框的实例分割框架很难处理物体高度重叠的情况。

技术实现思路

[0003]为了解决上述问题,本专利技术提出了一种人体实例分割方法、终端设备及存储介质,克服了传统实例分割算法中针对无候选框算法和基于候选框算法的缺点,不需要聚类、候选框和非极大值抑制操作。
[0004]具体方案如下:
[0005]一种人体实例分割方法,包括以下步骤:
[0006]S1:当接收到包含人体的彩色图片时,基于图片的颜色信息,通过不同的距离计算算法进行像素间距离的计算,并将所有距离计算结果串联后,通过卷积层转换为图片特征;
[0007]S2:将图片划分为多个块,根据每个块对应的像素位置和图片特征,获取每个块对应的块特征,根据每个块对应的块特征和像素位置,得到图片的特征表示向量E;
[0008]S3:构建Transformer编码器解码器网络,通过Transformer编码器解码器网络将特征表示向量E转换为优化特征F
d

[0009]S4:将优化特征F
d
与特征表示向量E连接后得到F
c

[0010]S5:通过注意力机制对F
c
中的重要特征进行聚合后,将聚合结果输入卷积神经网络中,得到人体实例分割结果。
[0011]进一步的,距离计算算法包括欧式距离、切比雪夫距离和余弦距离。
[0012]进一步的,特征表示向量E=[f1+p1,f2+p2,...,f
N
+p
N
],其中,f
N
表示第N个块的块特征,p
N
表示第N个块的像素位置,N表示块的个数。
[0013]进一步的,步骤S3的实现过程如下:
[0014]S301:将特征表示向量E输入Transformer编码块内,Transformer编码块内的多头自注意力机制输出x1后,通过残差连接将多头自注意力机制的输出与特征表示向量E连接
后输出x2;对x2进行归一化处理后输出x3;将x3输入带有激活函数的全连接网络层后输出x4;将x4输入不带激活函数的全连接网络层后输出x5;设定x5为Transformer编码块的输出;
[0015]S302:堆叠多个Transformer编码块组成Transformer编码器,以使Transformer编码器的输出的编码信息矩阵M与特征表示向量E的维度一致;
[0016]S303:将Transformer编码器输出的编码信息矩阵M作为Transformer解码器的输入;Transformer解码块包含两次多头自注意力机制;
[0017]第一次自注意力机制的输出为y1;通过残差连接将Transformer编码器的输出M和第一次自注意力机制的输出y1连接后输出y2;对y2进行归一化处理后输出y3;
[0018]第二次自注意力机制中的第一层解码层的输入为特征表示向量E,对应的输出为y4;通过残差连接将第一次自注意力机制的输出y1与第二次自注意力机制的输出y4连接后输出y5;对y5进行归一化处理后输出y6;将y6输入带有激活函数的全连接网络层后输出y7;将y7输入不带激活函数的全连接网络层后输出y8;设定y8为Transformer解码块的输出;
[0019]S304:堆叠多个Transformer解码块组成Transformer解码器,Transformer解码器的输出为优化特征F
d

[0020]进一步的,步骤S4中通过Concat操作将优化特征F
d
与特征表示向量E进行连接。
[0021]一种人体实例分割终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本专利技术实施例上述的方法的步骤。
[0022]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术实施例上述的方法的步骤。
[0023]本专利技术采用如上技术方案,充分利用了Transformer的优势来优化人体实例分割结果,通过多头自注意力机制产生更具可解释性的模型,不需要聚类,候选框和非极大值抑制操作等常规操作。
附图说明
[0024]图1所示为本专利技术实施例一的流程图。
具体实施方式
[0025]为进一步说明各实施例,本专利技术提供有附图。这些附图为本专利技术揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。
[0026]现结合附图和具体实施方式对本专利技术进一步说明。
[0027]实施例一:
[0028]本专利技术实施例提供了一种人体实例分割方法,如图1所示,其为本专利技术实施例所述的人体实例分割方法的流程图,所述方法包括以下步骤:
[0029]S1:当接收到包含人体的彩色图片时,基于图片的颜色信息,通过不同的距离计算算法进行像素间距离的计算,并将所有距离计算结果串联后,通过卷积层转换为图片特征。
[0030]该实施例中彩色图片表示为x∈R
3xHxW
,其中,3代表R、G、B三元素,H表示图片的高,W表示图片的宽。
[0031]距离计算算法包括欧式距离、切比雪夫距离和余弦距离,用于计算两个像素之间的距离,计算公式分别为:
[0032]欧氏距离
[0033]切比雪夫距离d2=max(|R1‑
R2|,|G1‑
G2|,|B1‑
B2|);
[0034]余弦距离
[0035]其中,R1、G1、B1分别表示第一个像素点的红、绿、蓝三个通道的色度值,R2、G2、B2分别表示第二个像素点的红、绿、蓝三个通道的色度值。
[0036]在其他实施例中,也可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人体实例分割方法,其特征在于,包括以下步骤:S1:当接收到包含人体的彩色图片时,基于图片的颜色信息,通过不同的距离计算算法进行像素间距离的计算,并将所有距离计算结果串联后,通过卷积层转换为图片特征;S2:将图片划分为多个块,根据每个块对应的像素位置和图片特征,获取每个块对应的块特征,根据每个块对应的块特征和像素位置,得到图片的特征表示向量E;S3:构建Transformer编码器解码器网络,通过Transformer编码器解码器网络将特征表示向量E转换为优化特征F
d
;S4:将优化特征F
d
与特征表示向量E连接后得到F
c
;S5:通过注意力机制对F
c
中的重要特征进行聚合后,将聚合结果输入卷积神经网络中,得到人体实例分割结果。2.根据权利要求1所述的人体实例分割方法,其特征在于:距离计算算法包括欧式距离、切比雪夫距离和余弦距离。3.根据权利要求1所述的人体实例分割方法,其特征在于:特征表示向量E=[f1+p1,f2+p2,...,f
N
+p
N
],其中,f
N
表示第N个块的块特征,p
N
表示第N个块的像素位置,N表示块的个数。4.根据权利要求1所述的人体实例分割方法,其特征在于:步骤S3的实现过程如下:S301:将特征表示向量E输入Transformer编码块内,Transformer编码块内的多头自注意力机制输出x1后,通过残差连接将多头自注意力机制的输出与特征表示向量E连接后输出x2;对x2进行归一化处理后输出x3;将x3输入带有激活函数的全连接网络层后输出x4;将x4输入不带激活函数的全连接网...

【专利技术属性】
技术研发人员:王宗跃陈文平陈智鹏
申请(专利权)人:集美大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1