基于视频流的目标人体分割方法、系统、存储介质及设备技术方案

技术编号：40206508 阅读：7 留言：0更新日期：2024-02-02 22:18

本发明专利技术涉及基于视频流的目标人体分割方法、系统、存储介质及设备，包括以下步骤：获取视频流并预处理，得到含有目标人体的图像；含有目标人体的图像经过至少三个周期的卷积和下采样，得到的特征图经过带有双重注意力机制的卷积块，提取包含建模空间级别的注意力和通道级别的注意力的特征并拼接；得到的特征和维度修改后的特征图，经过对应周期的上采样，将图像恢复到其原始尺寸，得到含有目标人体的二值掩码。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，具体为基于视频流的目标人体分割方法、系统、存储介质及设备。

技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。

2、图像处理技术中的人体分割过程，是将图像或视频中的人体从背景中准确地分离出来，通过识别和提取出图像中的人体区域，通常以像素级别的精度进行分割，从而实现对人体的精确定位和分析。传统的人体分割方法主要依靠基于规则的图像处理技术，例如边缘检测、区域生长等方式，而这些方法通常对于复杂的场景和变化的光照条件效果有限。

3、为了应对上述问题，目前可以利用基于深度卷积神经网络的人体分割方法，这类方法在神经网络模型经过训练后，能够自动学习人体和背景之间的区别，并对图像进行像素级别的分类，从而实现准确的人体分割。例如，全卷积网络(fully convolutionalnetworks，fcn)、语义分割网络(semantic segmentation networks)、实例分割网络(instance segmentati on networks)等。这些网络结构通常由编码器和解码器组成，编码器用于提取图像特征，解码器用于将特征映射恢复到原始图像尺寸，并生成像素级别的分割结果。

4、人体分割任务中，人体的形状和结构可能需要算法跨越较长的距离才能进行准确的分割，目前普通的深度学习卷积神经网络(cnn)往往在处理大范围上下文信息时存在限制，使得这类图像处理算法的人体分割能力存在不足。

技术实现思路

1、为了解决上述
技术介绍
中存在的技术问题，本专利技术提供基于视频流的目标人体分割方法、系统、存储介质及设备，结合双重注意力模块和基于自注意力机制的神经网络模型用于视频流人体分割任务，通过引入双重注意力模块，为u-net类型的深度神经网络的编码层提供了更精确的特征，提高了模型的特征学习能力，提高了模型的人体分割能力。

2、为了实现上述目的，本专利技术采用如下技术实施例：

3、本专利技术的第一个方面提供基于视频流的目标人体分割方法，包括以下步骤：

4、获取视频流并预处理，得到含有目标人体的图像；

5、含有目标人体的图像经过至少三个周期的卷积和下采样，得到的特征图经过带有双重注意力机制的卷积块，提取包含建模空间级别的注意力和通道级别的注意力的特征并拼接；

6、得到的特征和维度修改后的特征图，经过对应周期的上采样，将图像恢复到其原始尺寸，得到含有目标人体的二值掩码。

7、进一步的，输入图像经过至少三个周期的卷积和下采样，产生第一维度大小的特征图，通过带有双重注意力机制的卷积块提取特征；

8、特征图维度减少至第二维度大小，经展平得到第三维度大小的二维矩阵，并根据基于自注意力机制的神经网络模型得到第三维度大小的特征；

9、输出特征维度恢复为第二维度大小，经维度修改后的特征图作为解码器的输入，得到第四维度大小的特征图。

10、进一步的，带有双重注意力机制的卷积块位于编码器和解码器之间的跳跃连接中。

11、进一步的，带有双重注意力机制的卷积块，具体为：输入特征分别经过对应的卷积层得到特征图，得到的特征图分别经过通道注意力层和空间注意力层，得到通道注意力特征和空间注意力特征，经拼接后输出。

12、进一步的，提取的建模空间级别注意力特征，用于捕捉空间上的上下文信息，通过计算每个位置与其他位置之间的相似度，将相似度作为权重应用于特征图上的不同位置。

13、进一步的，提取建模空间级别注意力的特征，具体为：

14、输入的局部特征图为a∈rc×h×w，生成特征图b∈rc×h×w、c∈rc×h×w和d∈rc×h×w，分别经变形得到rc×n，其中n＝h×w是像素的个数，特征图b和特征图c进行矩阵相乘并且经过归一化处理，得到一个空间注意力图f∈rn×n，该空间注意力图中的每个点是原始特征图中两个空间位置点的关系强度；

15、特征图b变形后的rc×n与空间注意力图f进行矩阵相乘，将结果变形为rc×h×w并与尺度参数p相乘，并利用特征图a进行元素级和运算，得到最终输出e∈rc×h×w。

16、进一步的，提取的通道级别注意力特征，具体为：

17、输入的局部特征图a∈rc×h×w并变形为rc×n，与a的转置进行矩阵相乘，经归一化处理得到通道注意力图u∈rc×c；

18、rc×n与u经矩阵相乘并变形后与尺度参数p相乘，再与原始的a进行元素级和运算，得到最终的输出e∈rc×h×w。

19、本专利技术的第二个方面提供实现上述方法所需的系统，包括：

20、图像采集模块，被配置为：获取视频流并预处理，得到含有目标人体的图像；

21、特征提取模块，被配置为：含有目标人体的图像经过至少三个周期的卷积和下采样，得到的特征图经过带有双重注意力机制的卷积块，提取包含建模空间级别的注意力和通道级别的注意力的特征并拼接；

22、目标人体分割模块，被配置为：得到的特征和维度修改后的特征图，经过对应周期的上采样，将图像恢复到其原始尺寸，得到含有目标人体的二值掩码。

23、本专利技术的第三个方面提供一种计算机可读存储介质。

24、一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于视频流的目标人体分割方法中的步骤。

25、本专利技术的第四个方面提供一种计算机设备。

26、一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于视频流的目标人体分割方法中的步骤。

27、与现有技术相比，以上一个或多个技术实施例存在以下有益效果：

28、1、使用包含建模空间级别的注意力和通道级别的注意力的双重注意力机制，提高了对于复杂场景和背景的适应性，能够得到更加精确的目标人体二值分割掩码图，可以在图像分割任务中更好的捕捉图像的局部信息(细节信息)和全局信息(全局上下文信息)，通过结合两种注意力机制可以提高针对图像中目标人体分割的准确性。

29、2、使用双重注意力机制结合基于自注意力机制的神经网络模型，进一步提高了行人目标图像二值分割的效果。基于自注意力机制的神经网络模型能够捕捉输入序列中的全局依赖关系，通过将双重注意力机制与基于自注意力机制的神经网络模型相结合，有效地处理多尺度输入，可以更好地建模物体的全局形状和结构信息，并在分割过程中更准确地划分物体边界，提升人体图像分割的效果。

本文档来自技高网...

【技术保护点】

1.基于视频流的目标人体分割方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于视频流的目标人体分割方法，其特征在于，输入图像经过至少三个周期的卷积和下采样，产生第一维度大小的特征图，通过带有双重注意力机制的卷积块提取特征；

3.如权利要求1所述的基于视频流的目标人体分割方法，其特征在于，带有双重注意力机制的卷积块位于编码器和解码器之间的跳跃连接中。

4.如权利要求3所述的基于视频流的目标人体分割方法，其特征在于，带有双重注意力机制的卷积块，具体为：输入特征分别经过对应的卷积层得到特征图，得到的特征图分别经过通道注意力层和空间注意力层，得到通道注意力特征和空间注意力特征，经拼接后输出。

5.如权利要求1所述的基于视频流的目标人体分割方法，其特征在于，提取的建模空间级别注意力特征，用于捕捉空间上的上下文信息，通过计算每个位置与其他位置之间的相似度，将相似度作为权重应用于特征图上的不同位置。

6.如权利要求1所述的基于视频流的目标人体分割方法，其特征在于，提取建模空间级别注意力的特征，具体为：

7.如权利

8.基于视频流的目标人体分割系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-7任一项所述的基于视频流的目标人体分割方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于视频流的目标人体分割方法中的步骤。

...

【技术特征摘要】

1.基于视频流的目标人体分割方法，其特征在于，包括以下步骤：

3.如权利要求1所述的基于视频流的目标人体分割方法，其特征在于，带有双重注意力机制的卷积块位于编码器和解码器之间的跳跃连接中。

5.如权利要求1所述的基于视频流的目标人体分割方法，其特征在于，提取的建模空间级别注意力特征，用于捕捉空间...

【专利技术属性】
技术研发人员：张高志，李凡平，石柱国，
申请(专利权)人：青岛以萨数据技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人