一种面向多人的眨眼与视线一体化检测模型构建方法技术

技术编号：43333593 阅读：15 留言：0更新日期：2024-11-15 20:30

本发明专利技术属于计算机视觉领域，具体涉及一种面向多人的眨眼与视线一体化检测模型构建方法，眨眼与视线一体化检测网络包括：特征提取网络，用于提取RGB视频片段的高层语义特征F<subgt;v</subgt;；查询器初始化模块，用于初始化N组实例级面部查询器和实例级眼部查询器以及每组对应的面部提议框和眼部提议框；查询器更新模块，用于实现面部与眼部查询器之间的空间交互并更新对应的特征；采用当前的每组面部查询器和眼部查询器，根据对应的面部提议框P<supgt;i</supgt;和眼部提议框p<supgt;i</supgt;，从F<subgt;v</subgt;中提取P<supgt;i</supgt;、p<supgt;i</supgt;对应的局部特征，用以更新对应的查询器；多任务预测头用于实现对各个实例的人脸和人眼的定位与跟踪、眨眼区间检测、视线方向估计多个任务。本发明专利技术能提高多任务检测的精度与速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉领域，更具体地，涉及一种面向多人的眨眼与视线一体化检测模型构建方法。

技术介绍

1、眨眼与视线运动是人体的重要生理行为，能够表现人脸的生理和心理状态。随着科学研究的发展，眨眼检测与视线估计已被广泛应用于医疗、刑侦、辅助驾驶、活体认证、人机交互、虚拟现实等领域，具有巨大应用价值。

2、现有眨眼检测方法普遍遵循多阶段的推理范式，即需要依次进行人脸检测、面部关键点检测、眼部定位、局部眼部区域内特征提取以及眨眼识别。在该范式下，各个子模块之间相对独立，各个阶段特征之间不能进行联合优化，因此容易获得次优解，且眨眼特征仅仅依靠局部眼部特征，缺乏全局感知，且在非受限条件下眼部区域难以定位准确，导致在非受限场景下的眨眼检测性能仍然不能到达满足实际应用的精度。此外，在多人场景下，这种多阶段的范式的推理耗时和人数成正相关，难以在多人场景下满足实时运行的需求。

3、与此同时，现有针对眨眼检测与视线估计的方法是相对独立的，缺少一种能够同时满足多实例场景下实时眨眼检测与视线估计需求的框架。

技术实现思路

1、针对现有技术的缺陷和改进需求，本专利技术提供了一种面向多人的眨眼与视线一体化检测模型构建方法，其目的在于提高在多实例非受限场景下实例定位、眨眼检测以及视线估计的精度与速度。

2、为实现上述目的，按照本专利技术的一个方面，提供了一种面向多人的眨眼与视线一体化检测模型构建方法，包括以下步骤：

3、构建眨眼与视线一体化检测网络，包括：特征

4、采用rgb视频片段样本集迭代训练所述眨眼与视线一体化检测网络，得到眨眼与视线一体化检测模型，完成构建，其中，每次迭代完成后将当前li、li分别作为用于下一轮迭代的新的面部提议框pi、眼部提议框pi。

5、进一步，所述初始化的方式为：

6、设定初始特征向量以及与其对应的初始提议框将以及pi、pi分别沿时间维度复制t次形成qi、qi以及pi、pi，作为初始化的第i个人脸对应的一组实例级面部查询器qi和实例级眼部查询器qi，以及初始化的面部提议框pi和眼部提议框pi；其中，t表示所述rgb视频片段的总帧数；上标4表示提议框顶点数目，上标c表示每帧的通道数，i取自1至n。

7、进一步，所述查询器更新模块在执行局部特征提取之前，还用于执行如下特征交互：

8、将当前的每个面部查询器与其它各面部查询器之间的同一帧图像所对应的特征进行交互，将交互得到的特征作为该面部查询器中该同一帧图像对应的特征更新值；

9、在当前的每个查询器内部不同帧图像所对应的特征之间进行自注意力交互，并将交互得到的特征作为对应特征的更新值。

10、进一步，所述查询器更新模块在提取局部特征时的具体实现方式为：

11、采用当前的每组面部查询器qi和眼部查询器qi，根据对应的面部提议框pi和眼部提议框pi，对fv进行roi align，得到pi、pi对应的局部特征；同时根据每组面部查询器和眼部查询器生成动态滤波器；采用所述动态滤波器对所述局部特征进行滤波，滤波后的特征经过线性投影后分别与qi、qi相加，作为新的面部查询器qi和眼部查询器qi；其中，i取自1至n。

12、进一步，所述多任务预测头包括：

13、人脸预测头，用于基于当前的面部查询器qi预测第i个人脸的存在性以及人脸框边界坐标t表示所述rgb视频片段的总帧数；

14、眼部预测头，用于基于当前的眼部查询器qi预测第i个眼部的存在性以及眼框边界坐标

15、眨眼预测头，用于基于当前的眼部查询器qi预测第i个眼部的各帧眨眼概率bi；

16、视线方向预测头，用于基于当前的眼部查询器qi预测第i个眼部的各帧眼部视线方向gi。

17、进一步，在每次迭代后计算损失函数的方式为：

18、通过最小化代价函数，确定多任务预测头的多人脸预测结果和真实多人脸的标签之间的最佳配对关系

19、基于所述最佳配对关系计算训练损失函数；

20、其中，所述代价函数为：

21、

22、所述训练损失函数表示为：

23、

24、式中，ngt为训练样本中实际的人脸个数；t表示所述rgb视频片段的总帧数；表示模型预测得到的n个实例级预测结果；表示实际标签；为所述最佳配对关系对应的所述n个实例级预测结果中与标签相匹配的实例级预测结果；为用于计算存在性的分类损失；为用于计算定位的回归损失；为人脸定位与跟踪损失；为眼部定位与跟踪损失；为实例级眨眼损失；为实例级视线方向损失；为回归损失函数。

25、本专利技术还提供一种面向多人的眨眼与视线一体化检测方法，包括：

26、将待检测的rgb视频片段输入如上所述的眨眼与视线一体化检测模型构建方法所构建得到的眨眼与视线一体化检测模型，预测得到rgb视频片段中每个人脸的各帧眨眼概率和各帧眼部视线方向。

27、进一步，还包括：

28、根据预设的眨眼阈值，将每个人脸的每帧眨眼概率大于所述眨眼阈值概率置为1，小于所述眨眼阈值的概率置为0，并将1对应的连续帧作为该人脸的一个眨眼区间。

29、本专利技术还提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述的眨眼与视线一体化检测模型构建方法和/或如上所述的眨眼与视线一体化检测方法。

30、本专利技术还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的眨眼与视线一体化检测模型构建方法和/或如上所述的眨眼与视线一体化检测方法。

31、总体而言，通过本专利技术所构思的以上技术方案，能够取得以下有益效果：

32、(1)本专利技术提供一种非受限多实例场景下的眨眼检测与视线估计一体化检测模型的构建方法，眨眼检测与视线估计一体化检测模型包括查询器初始化模块和查询器更新模块，查询器初始化模块用于初始化n组实例级面部查询器和实例级眼部查询器以及每组对应的面部提议框和眼部提议框；查询器更新模块用于在当前的每组查询器内同一帧图像所对应本文档来自技高网...

【技术保护点】

1.一种面向多人的眨眼与视线一体化检测模型构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的眨眼与视线一体化检测模型构建方法，其特征在于，所述初始化的方式为：

3.根据权利要求1所述的眨眼与视线一体化检测模型构建方法，其特征在于，所述查询器更新模块在执行局部特征提取之前，还用于执行如下特征交互：

4.根据权利要求1所述的眨眼与视线一体化检测模型构建方法，其特征在于，所述查询器更新模块在提取局部特征时的具体实现方式为：

5.根据权利要求1所述的眨眼与视线一体化检测模型构建方法，其特征在于，所述多任务预测头包括：

6.根据权利要求5所述的眨眼与视线一体化检测模型构建方法，其特征在于，在每次迭代后计算损失函数的方式为：

7.一种面向多人的眨眼与视线一体化检测方法，其特征在于，包括：

8.根据权利要求7所述的眨眼与视线一体化检测方法，其特征在于，还包括：

9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的眨眼与视线一体化检测模型构建方法和/或如权利要求7或8任一项所述的眨眼与视线一体化检测方法。

...

【技术特征摘要】

1.一种面向多人的眨眼与视线一体化检测模型构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的眨眼与视线一体化检测模型构建方法，其特征在于，所述初始化的方式为：

3.根据权利要求1所述的眨眼与视线一体化检测模型构建方法，其特征在于，所述查询器更新模块在执行局部特征提取之前，还用于执行如下特征交互：

4.根据权利要求1所述的眨眼与视线一体化检测模型构建方法，其特征在于，所述查询器更新模块在提取局部特征时的具体实现方式为：

5.根据权利要求1所述的眨眼与视线一体化检测模型构建方法，其特征在于，所述多任务预测头包括：

6.根据权利要求5所述的眨眼与视线一体化检测模型构建方法，其特征在于，在每次...

【专利技术属性】
技术研发人员：肖阳，曾文正，甘锦芳，张新涛，闫亭冰，曹治国，王阳，练元博，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人