面向资源受限场景的三维视线估计方法及装置制造方法及图纸

技术编号:31499074 阅读:44 留言:0更新日期:2021-12-18 12:46
本发明专利技术公开了一种面向资源受限场景的三维视线估计方法及装置,方法包括:构建端到端的视线估计网络,同时进行人脸检测和视线估计,并且采用多任务学习同时对两种数据集进行采样,不同数据训练不同分支;将收集的人脸检测数据集和视线估计数据集进行融合训练,使端到端的视线估计网络同时适应这两种不同的数据域,并采用多任务学习方式训练该网络,得到训练好的模型;对训练好的模型进行压缩以及量化处理,从而使得训练好的模型能部署在边缘设备上,实现三维实现的实时估计。本发明专利技术使用端到端的方法,避免对图像进行多次特征提取,提高了运行速度并支持实时视线估计;本发明专利技术采用轻量级模型并进行模型压缩,使模型可以在资源受限场景运行。受限场景运行。受限场景运行。

【技术实现步骤摘要】
面向资源受限场景的三维视线估计方法及装置


[0001]本专利技术涉及人工智能
,具体涉及一种面向资源受限场景的三维视线估计方法及装置。

技术介绍

[0002]眼睛是一个人用来表达自己情绪、意图的重要途径。视线作为一种重要的非语言线索,在很多方面都有应用。视线估计是对眼睛视线方向的估计,根据不同的场景和应用,这一领域的研究大致可以分为三类:注视点估计、注视目标估计和三维视线估计。三维视线估计的目标是从眼睛图片或人脸图片中推导出人的视线方向,通常,这个视线方向是由两个角度,pitch(垂直方向)和yaw(水平方向)来表示的,现有三维视线估计算法的输入基本都为人脸或人眼图像,算法并没有检测人脸或人眼的能力,需要以检测算法作为前置获取对应图像之后再进行视线估计,该方法流程过多,速度较慢,不利于实现实时的视线估计。

技术实现思路

[0003]本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种面向资源受限场景的三维视线估计方法及装置,本专利技术使用端到端的方法,避免对图像进行多次特征提取,提高了运行速度并支持实时视线估计;采用多任务学习,同时适应人脸检测数据和视线估计数据两种不同数据域;采用轻量级模型并进行模型压缩,使模型可以在资源受限场景运行。
[0004]为了达到上述目的,本专利技术采用以下技术方案:本专利技术一方面提供了一种面向资源受限场景的三维视线估计方法,包括下述步骤:构建端到端的视线估计网络,所述端到端的视线估计网络同时进行人脸检测和视线估计,并且采用多任务学习同时对两种数据集进行采样,不同数据训练不同分支;所述端到端的视线估计网络包括主干网络、分类子网络、边框回归子网络和视线估计子网络,所述主干网络用于在整个输入图像上卷积计算特征图,所述分类子网络用于对主干网络的输出进行卷积对象分类;所述边框回归子网络用于进行卷积对边框进行回归,所述视线估计子网络用于进行卷积预测边框对应的视线角度;将收集的人脸检测数据集和视线估计数据集进行融合训练,使端到端的视线估计网络同时适应这两种不同的数据域,并采用多任务学习方式训练端到端的视线估计网络,得到训练好的模型;对训练好的模型进行压缩以及量化处理,从而使得训练好的模型能部署在边缘设备上,实现三维实现的实时估计。
[0005]优选的,所述主干网络采用特征金字塔网络,特征金字塔网络通过对高层特征与底层特征相结合,从单一分辨率图像构造多尺度的特征图;分类子网络预测每个空间位置的目标对象出现的概率,所述分类子网络为一个连接在主干网络后的全卷积网络;
所述边框回归子网络的目的是回归锚框到真实目标的偏移量;所述视线估计子网络的目的是回归锚框匹配到的目标的视线角度值。
[0006]优选的,所述将收集的人脸检测数据集和视线估计数据集进行融合训练,使端到端视线估计算法同时适应这两种不同的数据域,并采用多任务学习方式训练端到端的视线估计网络,具体为:将收集的两种数据集送入端到端视线估计模型中进行融合训练;对于人脸检测数据集,只对分类任务、边框回归任务、关键点回归任务进行训练;对于视线估计数据集,只对分类任务、边框回归任务、视线回归任务进行训练;计算目标框与默认锚框之间的交并比 IOU 来分配正负样本,将与每个目标框最大IOU的锚框分配为正样本,将与目标框 IOU 大于阈值 0.5 的锚框也分配为正样本,其余为负样本,使得每个目标框至少被分配给一个锚框;端到端的视线估计网络只对正样本进行关键点回归、边框回归、视线估计任务的训练;总体目标损失函数定义为定位回归、置信度、视线回归、关键点回归损失函数的加权和;通过对图片进行网络推理,对于 主干网络产生的每个特征图,只去解码置信度最高的前 n个目标的边框,之后将多个尺度的目标结合到一起进行极大值抑制过滤掉多余的边框。
[0007]优选的,所述总体目标损失函数公式为:其中,x为样本,c为类别标签,loc为定位回归,为定位回归真实值,为视线回归,为视线回归真实值,landm为关键点回归,landm_t为关键点回归真实值,conf为置信度,N代表被匹配为正样本的锚框数;分别为置信度、视线回归、关键点回归的损失函数;为超参数,决定各损失函数的权重。
[0008]优选的,所述边框回归任务通过回归相对于默认锚框的中心和宽高的偏移量,采用Smooth L1 Loss为损失函数,边框回归任务的公式如下:其中,表示第i个锚框是否与第j个目标p相匹配,表示Smooth L1 Loss损失函数;cx、cy、w、h为锚框的参数,依次为中心点纵坐标、中心点横坐标、宽度、高度;Loc_t为实际目标框, d为预测锚框,pos表示正样本集合,m表示参数(cx,cy,w,h)中的一项,表示第i个锚框的参数m的定位回归,表示预测锚框与第j个实际目标框的
参数m的偏移,表示预测锚框与第j个实际目标框的参数cx的偏移,表示第j个目标的实际目标框的参数cx的定位回归,表示第i个预测锚框的参数cx,表示第i个预测锚框的参数w,表示预测锚框与第j个实际目标框的参数cy的偏移,表示第j个目标的实际目标框的参数cy的定位回归,表示第i个预测锚框的参数cy,表示第i个预测锚框的参数h,表示预测锚框与第j个实际目标框的参数w的偏移,表示第j个目标的实际目标框的参数w的定位回归,表示第i个预测锚框的参数w,表示预测锚框与第j个实际目标框的参数h的偏移,表示第j个目标的实际目标框的参数h的定位回归;关键点回归任务与边框回归任务类似;视线估计任务采用Smooth L1 Loss为损失函数,公式如下:,其中,表示第i个锚框匹配到的第j个目标为视线估计数据目标,表示第i个锚框是否与第j个目标p相匹配,表示Smooth L1 Loss损失函数,gaze为视线回归,gaze_t为视线回归真实值;m表示参数(cx,cy,w,h)中的一项,表示第i个正样本的视线回归的参数m,表示第i个正样本的视线回归真实值的参数m;分类任务的采用交叉熵损失函数,在进行锚框与目标匹配后,大部分锚框为负样本,针对分类问题的正负样本不平衡问题,采用难样本挖掘,通过对负样本的Loss进行排序选取了较大Loss的负样本参与训练,保证了正负样本比例为1:3,这样使得模型训练更为稳定以及收敛更快,公式为:其中,表示第i个锚框是否与第j个目标p相匹配;c为类别标签,为正样本,为负样本;、是对正、负样本进行数值变化的结果,Neg表示负样本集合。
[0009]优选的,对训练好的模型进行压缩处理具体为:采用mobilenet作为基础网络,使用深度卷积,对输入特征图的每一个通道进行单独的特征提取,即对空间特征进行特征提取;
逐点卷积对深度卷积的特征图进行1x1卷积,即对深度特征进行特征提取;添加一层1
×
1卷积,对深度卷积的输入进行线性组合,产生新的特征;将深度卷积和1
×
1的逐点卷积组合为深度可分离卷积,其每一层卷积之后会接上一个BN层和Relu激活层。
[0010]优选的,对训练好的模型进行量化具体为:模型参数量化,通过统计每层卷积的参数分布,根据统计结果计算参数的最大绝对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向资源受限场景的三维视线估计方法,其特征在于,包括下述步骤:构建端到端的视线估计网络,所述端到端的视线估计网络同时进行人脸检测和视线估计,并且采用多任务学习同时对两种数据集进行采样,不同数据训练不同分支;所述端到端的视线估计网络包括主干网络、分类子网络、边框回归子网络和视线估计子网络,所述主干网络用于在整个输入图像上卷积计算特征图,所述分类子网络用于对主干网络的输出进行卷积对象分类;所述边框回归子网络用于进行卷积对边框进行回归,所述视线估计子网络用于进行卷积预测边框对应的视线角度;将收集的人脸检测数据集和视线估计数据集进行融合训练,使端到端的视线估计网络同时适应这两种不同的数据域,并采用多任务学习方式训练端到端的视线估计网络,得到训练好的模型;对训练好的模型进行压缩以及量化处理,从而使得训练好的模型能部署在边缘设备上,实现三维实现的实时估计。2.根据权利要求1所述的面向资源受限场景的三维视线估计方法,其特征在于,所述主干网络采用特征金字塔网络,特征金字塔网络通过对高层特征与底层特征相结合,从单一分辨率图像构造多尺度的特征图;分类子网络预测每个空间位置的目标对象出现的概率,所述分类子网络为一个连接在主干网络后的全卷积网络;所述边框回归子网络的目的是回归锚框到真实目标的偏移量;所述视线估计子网络的目的是回归锚框匹配到的目标的视线角度值。3.根据权利要求1所述的面向资源受限场景的三维视线估计方法,其特征在于,所述将收集的人脸检测数据集和视线估计数据集进行融合训练,使端到端视线估计算法同时适应这两种不同的数据域,并采用多任务学习方式训练端到端的视线估计网络,具体为:将收集的两种数据集送入端到端视线估计模型中进行融合训练;对于人脸检测数据集,只对分类任务、边框回归任务、关键点回归任务进行训练;对于视线估计数据集,只对分类任务、边框回归任务、视线回归任务进行训练;计算目标框与默认锚框之间的交并比 IOU 来分配正负样本,将与每个目标框最大IOU的锚框分配为正样本,将与目标框 IOU 大于阈值 0.5 的锚框也分配为正样本,其余为负样本,使得每个目标框至少被分配给一个锚框;端到端的视线估计网络只对正样本进行关键点回归、边框回归、视线估计任务的训练;总体目标损失函数定义为定位回归、置信度、视线回归、关键点回归损失函数的加权和;通过对图片进行网络推理,对于主干网络产生的每个特征图,只去解码置信度最高的前 n个目标的边框,之后将多个尺度的目标结合到一起进行极大值抑制过滤掉多余的边框。4.根据权利要求3所述的面向资源受限场景的三维视线估计方法,其特征在于,所述总体目标损失函数公式为:
其中,x为样本,c为类别标签,loc为定位回归,为定位回归真实值,为视线回归,为视线回归真实值,landm为关键点回归,landm_t为关键点回归真实值,conf为置信度,N代表被匹配为正样本的锚框数;分别为置信度、视线回归、关键点回归的损失函数;为超参数,决定各损失函数的权重。5.根据权利要求4所述的面向资源受限场景的三维视线估计方法,其特征在于,所述边框回归任务通过回归相对于默认锚框的中心和宽高的偏移量,采用Smooth L1 Loss为损失函数,边框回归任务的公式如下:其中,表示第i个锚框是否与第j个目标p相匹配,表示Smooth L1 Loss损失函数;cx、cy、w、h为锚框的参数,依次为中心点纵坐标、中心点横坐标、宽度、高度;Loc_t为实际目标框,d为预测锚框,pos表示正样本集合,m表示参数(cx,cy,w,h)中的一项,表示第i个锚框的参数m的定位回归,表示预测锚框与第j个实际目标框的参数m的偏移,表示预测锚框与第j个实际目标框的参数cx的偏移,表示第j个目标的实际目标框的参数cx的定位回归,表示第i个预测锚框的参数cx,表示第i个预测锚框的参数w,表示预测锚框与第j个实际目标框的参数cy的偏移,表示第j个目标的实际目标框的参数cy的定位回归,表示第i个预测锚框的参数cy,表示第i个预测锚框的参数h,表示预测锚框与第j个实际目标框的参数w的偏移,表示第j个目标的实际目标框的参数w的定位回归,表示第i个预测锚框的参数w,表示预测锚框与第j个实际目标框的参数h的偏移,表示第j个目标的实际目标框的参数h的定位回归;关键点回归任务与边框回归任务类似;视线估计任务采用Smooth L1 Loss为损失函数,公式如下:,其...

【专利技术属性】
技术研发人员:漆舒汉王轩张加佳蒋遇刘洋罗文坚高翠芸廖清蒋琳吴卓
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1