一种大倍率浅景深状态下人脸区域自动聚焦方法技术

技术编号:24208379 阅读:60 留言:0更新日期:2020-05-20 15:41
本发明专利技术提供一种大倍率浅景深状态下人脸区域自动聚焦方法,在大倍率浅景深场景下,能够在算力不足的摄像机产品中进行人脸检测、区域优选、自动聚焦,以找到发言者区域最清晰Focus电机位置。本发明专利技术包括如下步骤:步骤一、基于YOLO V3神经网络,训练人脸检测器;步骤二、使用人脸检测器计算图像中人脸区域集合:步骤三、人脸区域优选;步骤四、优选人脸区域与芯片划分的区域匹配,锁定感兴趣聚焦区域;步骤五、计算感兴趣区域:步骤六、自动聚焦。

An automatic focusing method of face area in the condition of large magnification and shallow depth of field

【技术实现步骤摘要】
一种大倍率浅景深状态下人脸区域自动聚焦方法
本专利技术涉及大倍率浅景深状态下人脸区域自动聚焦方法,应用在教育录播、视频会议用摄像机领域。
技术介绍
近年,在教育录播、视频会议等应用中,通常会使用10倍、12倍或20倍等变倍摄像机,在一个5-10米的室内场景,实时播放以人物作为主题的视频,其中最关键的点是保证人物的脸部区域要绝对清晰。在此背景下,提出以人脸区域作为自动聚焦的重点区域是一种有效解决此问题的方法。考虑到这样一种使用场景,如图1所示,在这个三维场景内,由远到近依次是背景(黑板、背景墙等)、主题(发言者)、摄像机(10倍、12倍或20倍)。对于摄像机来说,要把它拉动到适当的倍率下,让发言者占图像的三分之一至四分之一大小,同时保证发言者在图像内最清晰。影响发言者区域清晰程度的因素有四个:(1)变倍镜头拉动到大倍率下的景深会变浅,无法同时保证背景与人物都清晰。(2)降低噪点增大光圈的策略导致景深会变浅,无法同时保证背景与人物都清晰。(3)背景细节过于丰富,在自动聚焦算法内被误认为是图像主题计算出了假峰值,导致背景清晰,人物模糊。(4)人物细节过于单一,在自动聚焦算法内权重过小,在计算FV(FocusValue)时被算法忽略,导致其它物距清晰,人物模糊。以上因素组合在一起,便很难通过传统的自动聚焦算法达到人物区域清晰的目的。近年,神经网络技术发展突飞猛进,它们被广泛应用在AI(ArtificialIntelligence)领域,很多人工智能领域的科学家尝试解决各类检测问题,其中包括人脸区域检测算法。它在神经网络中被设计成计算多层不同等级特征的权重达到预测图像中是否存在人脸以及定位人脸区域的算法。往往低等级特征(low-levelfeature)关注图像中一些微小的细节,例如边缘、颜色、转角、梯度、像素等,高等级特征(high-levelfeature)关注图像中目标、形状,同时考虑更加丰富的语义信息,例如五官、痣、脸型等。应用人脸检测算法辅助自动聚焦能够很好的避免上述影响发言者区域图像清晰度问题的产生,达到发言者区域最清晰的效果。另一方面,极致优化的神经网络软件开发框架,例如服务器端:Caffe、TensorFlow、PyTorch,嵌入式端:NCNN(arm核),NNIE(NPU),以及硬件存储和算力的支撑,让这些需要大量计算的复杂算法可以实时运行。然而面对设计精良小巧、成本节约的摄像机产品,往往在成像需求方面就已经消耗部分算力,再把人脸检测、区域指定算法嵌入到系统内必然造成算力吃紧,难以达到实时处理的情况。
技术实现思路
有鉴于此,本专利技术的目的在于克服上述难题,而提供一种大倍率浅景深状态下人脸区域自动聚焦方法,在大倍率浅景深场景下,能够在算力不足的摄像机产品中进行人脸检测、区域优选、自动聚焦,以找到发言者区域最清晰Focus电机位置。本专利技术为解决上述问题所采用的技术方案是:一种大倍率浅景深状态下人脸区域自动聚焦方法,其特征在于:包括如下步骤:步骤一、基于YOLOV3神经网络,训练人脸检测器Dtr,步骤如下:(1)搭建神经网络训练服务器,使用GPU对神经网络训练加速;(2)准备训练数据:D={d1,d2,...,dn},其中D代表人脸数据集,dn代表单个人脸图片样本,n是样本个数;(3)改进YOLOV3神经网络,得到改进版的YOLOV3神经网络M;(4)计算YOLOV3神经网络M的人脸检测器权重W,设置迭代次数i,同时计算损失度l对比阈值大小,当损失度l小于阈值时训练停止,最终得到人脸检测器Dtr,它是由M和W共同组成;(5)在人脸数据集D中选取出一部分数据作为测试数据集Dt,把测试数据集Dt输入到人脸检测器Dtr里,测试人脸检测器Dtr的有效性;步骤二、使用人脸检测器Dtr计算图像中人脸区域集合:R=Dtr(dinput),其中dinput是帧数据,R是检测出的人脸区域集合,通常集合中单个人脸框rn(rn∈R)包含5个参数xmin,xmax,ymin,ymax,score,分别是x轴最小最大坐标、y轴最小最大坐标与人脸框置信度;步骤三、人脸区域优选:将一张图像内较为居中且面积较大的人脸框作为自动聚焦的对象,有:(1)设图像中心点坐标为(centerx,centery),人脸框中心点坐标为(facex,facey),即:facex=(xmax-xmin)/2,facey=(ymax-ymin)/2,(2)利用欧式距离公式,分别计算每个人脸框距离图像中心点的距离Disn:(3)分别计算每个人脸框的面积:Arean=(xmax-xmin)×(ymax-ymin),(4)根据上述Disn,Arean,s和人脸框置信度scoret,以及阈值来锁定一个人脸框,首先过滤小于阈值scorethd的人脸框,其次对Disn进行从小到大排序,Disn越小说明它代表的人脸框距离图像中心点越近,然后计算Disn对应的Arean,如果它小于阈值Areathd,那么抛弃该Disn,重新判断Disn+1对应的Arean+1是否小于阈值Areathd,以此类推,最后锁定一个人脸框作为优选后的人脸区域;步骤四、优选人脸区域与Hisi芯片划分的m*n区域匹配,锁定感兴趣聚焦区域;步骤五、计算感兴趣区域FV:同时考虑两种FV,高频图像清晰度值FVhigh与低频图像清晰度值FVlow,在FVhigh与FVlow的切换通过设置阈值Thdhigh和Thdlow的方式来实现:如果FVhigh大于等于Thdhigh并且FVlow大于等于Thdlow,那么FV=FVhigh,如果FVhigh大于等于Thdhigh并且FVlow小于Thdlow,那么FV=FVhigh,如果FVhigh小于Thdhigh并且FVlow大于等于Thdlow,那么FV=FVlow,如果FVhigh小于Thdhigh并且FVlow小于Thdlow,那么FV=FVlow,加权求和FV计算方法是:其中t∈m*n,Weight是对应区域的权重,FVoutput是加权求和后的值;步骤六、自动聚焦:初始化搜索方向Dinit=Far,设置Focus电机行进速度为低速,采用连续多帧行进Focus电机的方式找到下一阶段行进方向;利用步骤五的FVoutput逐帧改变Focus电机前进速度,多次折返Focus电机运动方向后确定最清晰图像对应的Focus电机位置,既定焦。本专利技术单个人脸图片样本一部分是开源数据,另一部分是自己采集标注的数据。本专利技术改进yolov3神经网络的步骤为适当减少yolov3的卷积层数,并且降低剩余卷积层的核大小,目的是让算法运行的更快,同时考虑MobileNet卷积层的形态,把部分剩余卷积层的标准卷积调整为点卷积,进一步加速神经网络算法的计算速度。本专利技术爬山算法步骤本文档来自技高网
...

【技术保护点】
1.一种大倍率浅景深状态下人脸区域自动聚焦方法,其特征在于:包括如下步骤:/n步骤一、基于YOLO V3神经网络,训练人脸检测器Dtr,步骤如下:/n(1)搭建神经网络训练服务器,使用GPU对神经网络训练加速;/n(2)准备训练数据:D={d

【技术特征摘要】
1.一种大倍率浅景深状态下人脸区域自动聚焦方法,其特征在于:包括如下步骤:
步骤一、基于YOLOV3神经网络,训练人脸检测器Dtr,步骤如下:
(1)搭建神经网络训练服务器,使用GPU对神经网络训练加速;
(2)准备训练数据:D={d1,d2,...,dn},其中D代表人脸数据集,dn代表单个人脸图片样本,n是样本个数;
(3)改进YOLOV3神经网络,得到改进版的YOLOV3神经网络M;
(4)计算YOLOV3神经网络M的人脸检测器权重W,设置迭代次数i,同时计算损失度l对比阈值大小,当损失度l小于阈值时训练停止,最终得到人脸检测器Dtr,它是由M和W共同组成;
(5)在人脸数据集D中选取出一部分数据作为测试数据集Dt,把测试数据集Dt输入到人脸检测器Dtr里,测试人脸检测器Dtr的有效性;
步骤二、使用人脸检测器Dtr计算图像中人脸区域集合:
R=Dtr(dinput),
其中dinput是帧数据,R是检测出的人脸区域集合,通常集合中单个人脸框rn(rn∈R)包含5个参数xmin,xmax,ymin,ymax,score,分别是x轴最小最大坐标、y轴最小最大坐标与人脸框置信度;
步骤三、人脸区域优选:
将一张图像内较为居中且面积较大的人脸框作为自动聚焦的对象,有:
(1)设图像中心点坐标为(centerx,centery),人脸框中心点坐标为(facex,facey),即:
facex=(xmax-xmin)/2,
facey=(ymax-ymin)/2,
(2)利用欧式距离公式,分别计算每个人脸框距离图像中心点的距离Disn:



(3)分别计算每个人脸框的面积:
Arean=(xmax-xmin)×(ymax-ymin),
(4)根据上述Disn,Arean,s和人脸框置信度scoret,以及阈值来锁定一个人脸框,首先过滤小于阈值scorethd的人脸框,其次对Disn进行从小到大排序,Disn越小说明它代表的人脸框距离图像中心点越近,然后计算Disn对应的Arean,如果它小于阈值Areathd,那么抛弃该Disn,重新判断Disn+1对应的Arean+1是否小于阈值Areathd,以此类推,最后锁定一个人脸框作为优选后的人脸区域;
步骤四、优选人脸区域与芯片划分的m*n区域匹配,锁定感兴趣聚焦区域;
步骤五、计算感兴趣区域FV:
同时考虑两种FV,高频图像清晰度值FVhigh与低频图像清晰度值FVlow,在FVhigh与FVlow的切换通过设置阈值Thdhigh和Thdlow的方式来实现:
如果FVhigh大于等于Thdhigh并且FVlow大于等于Thdlow,那么FV=FVhigh,
如果FVhigh大于等于Thdhigh并且FVlow小于Thdlow,那么FV=FVhigh,
如果FVhigh小于Thdhigh并且FVlow大于等于Thdlow,那么FV=FVlow,
如果FVhigh小于Thdhigh并且FVlow小于Thdlow,那么FV=FVlow,
加权求和FV计算方法是:



其中t∈m*n,...

【专利技术属性】
技术研发人员:王全强刘红艳毛海滨
申请(专利权)人:杭州晨安科技股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1