System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于局部超分辨率融合注意力机制的视线估计方法技术_技高网
当前位置: 首页 > 专利查询>南通大学专利>正文

一种基于局部超分辨率融合注意力机制的视线估计方法技术

技术编号:40963138 阅读:2 留言:0更新日期:2024-04-18 20:42
本发明专利技术属于计算机视觉领域,具体涉及一种基于局部超分辨率融合注意力机制的视线估计方法。包括如下步骤:步骤S1、使用摄像头获取帧图像;步骤S2、采用人脸检测模型对人脸区域和双眼区域进行检测和定位,将人脸图像进行裁剪,并截取眼部图像;步骤S3、将人脸图像通过人脸注意力强化特征提取模块,强化并提取人脸图像特征;步骤S4、将双眼图像通过基于局部超分辨率的眼部特征提取模块,提取双眼图像特征;步骤S5、通过全连接层融合提取的人脸图像和双眼图像特征得到视线估计结果。本发明专利技术提取超分辨率后的眼部特征,进行准确地视线估计,从空间和通道两个方向增强低分辨率全局特征,以增加低分辨率环境下提取人脸特征的能力,提升视线估计的效果。

【技术实现步骤摘要】

本专利技术属于计算机视觉领域,具体涉及一种基于局部超分辨率融合注意力机制的视线估计方法


技术介绍

1、视线估计是计算机视觉领域的一个关键子领域,专注于确定个体眼睛所观察的方向。视线行为是人类社会互动的重要组成部分,通过分析视线的方向,可以获取大量潜在的信息,例如,商场可以根据顾客的视线数据分析哪些商品最受欢迎;监考员可以根据学生的视线方向判断其是否有作弊嫌疑等。此外,视线估计技术已被广泛应用于多个领域,如虚拟现实、驾驶辅助系统、人机交互等,视线估计在这些领域上都有着广泛的应用前景。

2、随着深度学习的发展,基于卷积神经网络的视线估计方法已经被普及。然而,这些方法通常需要大量的数据集,并且主要在理想条件下实验。通常,这些方法训练主要采用高分辨率的面部图像。事实上,相机质量和面部距离等因素往往会导致面部输入不清晰,上述所提及的顾客视线分析以及考场监考等案例都会由于相机支持清晰度以及人的距离等因素影响导致输入图像不清晰。不同分辨率下人脸和双眼图如图1所示,随着输入图像分辨率的下降,信息会逐步丢失,这会让网络提取特征越来越困难,进而导致视线估计精度的降低。

3、在实际场景中,由于输入图像往往受到多种因素的影响,由于摄像头分辨率低、人脸距离远等原因,输入的人脸图像往往存在清晰度低的问题,信息会逐步丢失,这会让网络提取特征越来越困难,进而导致视线估计精度的降低。目前的视线估计技术在低分辨率场景下的视线估计准确率较低,尚未找到有效的解决方案。


技术实现思路

1、本专利技术的目的在于克服现有技术的缺点,提出了一种基于局部超分辨率融合注意力机制的视线估计方法。

2、本专利技术方法采用的技术方案如下:

3、一种基于局部超分辨率融合注意力机制的视线估计方法,包括如下步骤:

4、步骤s1、使用摄像头获取帧图像;

5、步骤s2、采用人脸检测模型对人脸区域和双眼区域进行检测和定位,将人脸图像进行裁剪,并截取眼部图像;

6、步骤s3、将人脸图像通过人脸注意力强化特征提取模块,强化并提取人脸图像特征;

7、步骤s4、将双眼图像通过基于局部超分辨率的眼部特征提取模块,提取双眼图像特征;

8、步骤s5、通过全连接层融合提取的人脸图像和双眼图像特征得到视线估计结果。

9、进一步的作为本专利技术的优选技术方案,步骤s2中,所述人脸检测模型采用基于卷积神经网络的人脸检测模型。和传统的人脸检测模型相比,采用卷积神经网络的人脸检测模型具有更高的准确性,能够处理各种复杂情况,以及具有更强的鲁棒性、实时性能和适应性,具体来说,使用“dlib.cnn_face_detection_model_v1”模型,该模型包含了卷积神经网络的权重和结构,这些是通过在大量图像数据上进行训练得到的,加载此模型后,就可以在图像上检测人脸。

10、进一步的作为本专利技术的优选技术方案,步骤s3中,所述人脸注意力强化特征提取模块,采用resnet18模型作为脸部特征提取模块的基准模型,对于每个标准的残差块,公式如下所示:

11、fout=l(f(fin,wi)+fin)                          (1)

12、其中,l表示relu激活函数,f是残差块中的权重操作,w是该操作的权重,fin是残差块的输入,fout表示残差块的输出。

13、进一步的作为本专利技术的优选技术方案,步骤s3中,所述人脸注意力强化特征提取模块在resnet18基准模型的基础上添加了cbam注意力机制以增加视线估计的准确度;cbam注意力机制在特征映射中加入两种注意力模块:通道注意力模块和空间注意力模块;通道注意力模块旨在为每个通道分配一个权重,一般通过全局平均池化和全局最大池化获得的特征来实现。对于给定的特征图f∈rc×h×w,计算首先计算全局平均池化和全局最大池化,那么通道注意力可以表示为这两个值经过一个共享的多层感知器进行处理,并组合,公式如下所示:

14、

15、其中σ表示sigmoid激活函数,mca表示通道注意力。表示全局平均池化,表示全局最大池化;

16、空间注意力模块旨在为每个空间分配一个权重,首先仍然是计算全局平均池化和全局最大池化,但这次是沿着通道的维度,最后拼接两个特征图,并且通过一个7×7的卷积层,然后通过一个sigmoid激活函数,公式如下:

17、msa(f)=σ(conv7×7([fgap;fgmp]))                 (3)

18、其中conv7×7表示7×7的卷积层处理。

19、人脸注意力强化特征提取模块在每个阶段的最后都添加cbam注意力模块以增强特征,对每个残差阶段,可以表示公式如下:

20、

21、

22、其中↓表示下采样。那么经过cbam注意力机制强化后的特征可表示为:

23、

24、其中表示对应元素相乘,ffa表示经过cbam注意力强化后的脸部特征图。

25、进一步的作为本专利技术的优选技术方案,步骤s4中,所述基于局部超分辨率的眼部特征提取模块,采用fsrcnn作为超分辨率重建的网络,fsrcnn算法是一种为单图像超分辨率设计的一个深度卷积神经网络模型,它是在srcnn的基础上进一步改进而来,目的是为了提高超分辨率重建的速度和效率。

26、fsrcnn算法主要分为特征提取、收缩与扩展、反卷积三部分。第一部分为特征提取,这部分使用较小的卷积核,大小为5×5,从低分辨率的眼部图像中提取特征,目的是从原始低分辨率图像中提取有用的信息,这些信息随后会被用于重建高分辨率图像。特征提取阶段表示的公式如下:

27、

28、其中ilr表示低分辨率眼部图像prelu表示prelu激活函数,d表示特征图的数量。

29、第二部分为收缩与扩展,其中收缩阶段使用1×1的卷积核,以减少特征映射的数量,这一阶段的目的是减少模型的参数数量,从而提高运算速度,映射阶段是在收缩后的特征空间上进行非线性映射,通过多个连续的3×3卷积层实现,其中特征映射阶段可以表示的公式如下:

30、

31、第三部分是反卷积,使用反卷积层来扩大特征映射的空间尺寸,从而得到高分辨率的输出图像,不同于传统的双三次插值方法,这个阶段的反卷积是学习式的,这一阶段可以将低分辨率的特征映射转换为高分辨率图像的特征图,公式如下所示:

32、fsr=deconv9×9(f)        (9)

33、其中deconv表示反卷积操作。

34、进一步的作为本专利技术的优选技术方案,步骤s4中,所述基于局部超分辨率的眼部特征提取模块,采用眼部特征提取deepeyenet进行提取特征;deepeyenet是本专利技术提出的眼部深度特征提取cnn网络,它由十个卷积块组成,这是个相对深的卷积神经网络,特征映射的空间尺寸在网络的本文档来自技高网...

【技术保护点】

1.一种基于局部超分辨率融合注意力机制的视线估计方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于局部超分辨率融合注意力机制的视线估计方法,其特征在于,步骤S2中,所述人脸检测模型采用基于卷积神经网络的人脸检测模型。

3.根据权利要求2所述的基于局部超分辨率融合注意力机制的视线估计方法,其特征在于,步骤S3中,所述人脸注意力强化特征提取模块,采用ResNet18模型作为脸部特征提取模块的基准模型,对于每个标准的残差块,公式如下所示:

4.根据权利要求3所述的基于局部超分辨率融合注意力机制的视线估计方法,其特征在于,步骤S3中,所述人脸注意力强化特征提取模块在ResNet18基准模型的基础上添加CBAM注意力机制;CBAM注意力机制在特征映射中加入两种注意力模块:通道注意力模块和空间注意力模块;

5.根据权利要求4所述的基于局部超分辨率融合注意力机制的视线估计方法,其特征在于,步骤S4中,所述基于局部超分辨率的眼部特征提取模块,采用FSRCNN作为超分辨率重建的网络;

6.根据权利要求5所述的基于局部超分辨率融合注意力机制的视线估计方法,其特征在于,步骤S4中,所述基于局部超分辨率的眼部特征提取模块,采用眼部特征提取DeepEyeNet进行提取特征;DeepEyeNet是眼部深度特征提取CNN网络,它由十个卷积块组成,为相对深度的卷积神经网络,特征映射的空间尺寸在网络的深度中逐渐减小,左右眼均经过类似的结构,公式如下所示:

7.根据权利要求6所述的基于局部超分辨率融合注意力机制的视线估计方法,其特征在于,采用MSELoss作为视线估计的损失函数,该模块视线估计的损失函数是:

...

【技术特征摘要】

1.一种基于局部超分辨率融合注意力机制的视线估计方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于局部超分辨率融合注意力机制的视线估计方法,其特征在于,步骤s2中,所述人脸检测模型采用基于卷积神经网络的人脸检测模型。

3.根据权利要求2所述的基于局部超分辨率融合注意力机制的视线估计方法,其特征在于,步骤s3中,所述人脸注意力强化特征提取模块,采用resnet18模型作为脸部特征提取模块的基准模型,对于每个标准的残差块,公式如下所示:

4.根据权利要求3所述的基于局部超分辨率融合注意力机制的视线估计方法,其特征在于,步骤s3中,所述人脸注意力强化特征提取模块在resnet18基准模型的基础上添加cbam注意力机制;cbam注意力机制在特征映射中加入两种注意力模块:通道注意力模块和空间注...

【专利技术属性】
技术研发人员:王进曹硕裕王可杨杨梁瑞
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1