一种基于RGB-D相机和人脸识别的视障人士辅助方法技术

技术编号:15691423 阅读:134 留言:0更新日期:2017-06-24 04:37
本发明专利技术公开了一种基于RGB‑D相机和人脸识别的视障人士辅助方法。该方法包括:利用RGB‑D采集到的彩色图像和深度图像进行人脸的跟踪,并自动为这些人脸赋予标签;所述标签由使用者通过麦克风输入,包括但不限于人脸的姓名、个人信息、电话号码等;人脸图像被正面化矫正,可以适应不同姿态下的识别;所述矫正后的人脸图像被用于在神经网络中训练人脸识别模型;待识别的人脸图像被输入到所述训练好的人脸识别模型,模型输出的识别结果通过3D立体声的方式传递给使用者;所述3D立体声可以提示的信息包括:在深度图像中人脸的方位和人脸距离使用者的远近。

An auxiliary RGB D camera and face recognition method based on the visually impaired

The invention discloses an auxiliary RGB D camera and face recognition method based on the visually impaired. The method includes: using face color image and the depth image acquired by D RGB tracking, and automatically give these face labels; the labels from the user input through a microphone, including but not limited to face the name, phone number and other personal information, people are positive; face image correction, can adapt to the identification different postures; the face image after correction were used for training the neural network model in face recognition; facial image to be identified is input into the trained model of face recognition, recognition of the output of the model through the 3D stereo transferred to the user; the 3D stereo can prompt information includes: the azimuth and distance of face in face users in depth image distance.

【技术实现步骤摘要】
一种基于RGB-D相机和人脸识别的视障人士辅助方法
本专利技术涉及模式分类,机器学习,人脸识别,视觉障碍人群辅助
,尤其涉及一种基于RGB-D相机和人脸识别的视障人士辅助方法。
技术介绍
根据世界卫生组织(WHO)的数据,全球有2.85亿视障人士,其中有3900万是盲人。视障人士的日常生活中,识别周围人的身份是突出的需求。在没有其他设备的辅助下,视障人士只能通过辨别声音来判断,这在很大程度上受限于视障人士与其周围人的熟悉程度,距离,环境嘈杂度等因素。传统的人脸识别方法,一般采用彩色相机拍摄人脸图像,并且需要保证正面的人脸和均匀的光照,这就要求采集人脸样本的过程中,人脸尽量靠近相机并且正面面向相机。因此,设计一种专门面向视障人士的人脸识别系统,并使用简单自然的交互方式,将在很大程度上为视障人士提供方便。
技术实现思路
本专利技术的目的是利用RGB-D相机和人脸识别技术,解决视障人士的认人和识人方面存在的不便利性,旨在为视障人士提供一种简单易用,交互方式人性化的辅助方法。本专利技术通过以下技术方案来实现:一种基于RGB-D相机和人脸识别的视障人士辅助方法,具体步骤如下:(1)人脸的录入和人脸数据库的建立;(2)人脸图像的矫正;(3)神经网络训练;(4)识别人脸;(5)3D立体声用于识别结果的交互。所述步骤(1)具体为:针对每一个识别对象,分别采集多帧连续的彩色图像和深度图像,进一步通过RGB-D中的彩色图像通道检出人脸图像,以第一帧中检出的人脸图像作为人脸跟踪的初始化起点。若在第n帧中出现人脸漏检或检测错误,则可以启动人脸跟踪模式,检出人脸的区域。录入所有识别对象的人脸图像数据和对应的姓名,建立人脸数据库。所述人脸跟踪模式包括以下步骤:第一,在第n-1帧的人脸检出情况下,分别计算彩色图和深度图中的人脸区域的直方图。彩色直方图的横坐标为色度值,纵坐标为每个色度值对应的像素的个数;深度直方图的横坐标为深度值,纵坐标为每个深度值对应的像素的个数。第二,在第n帧中,计算彩色图和深度图的返向投影图。彩色图对应的返向投影图是将彩色图中的每个像素点的色度值替换为彩色直方图中对应的纵坐标而获得;深度图对应的返向投影图是将深度图中的每个像素点的深度值替换为深度直方图中对应的纵坐标而获得。将两个返向投影图融合后,得到更符合实际情况的人脸区域预测。第三,在融合后的返向投影图中,应用均值漂移算法(MeanShift),,计算出第n帧人脸的区域。所述步骤(2)具体为:第一,调整人脸图像的格式为统一大小,即100像素*100像素。第二,检出人脸区域的特征点,所述特征点包括脸颊轮廓、眼睛、眉毛、鼻子、嘴巴。所述特征点的检出是基于彩色图像的。第三,以具有上述特征点的三维人脸模型为基准坐标系,根据彩色图像中的特征点位置,对RGB-D进行坐标标定,得到相机坐标系。第四,三维模型中的所有点被投影到所述相机坐标系中。第五,将彩色图像投影到相机坐标系下的三维模型中,赋予每个点的RGB信息;第六,对赋值后的三维模型进行正面投影,得到矫正后的人脸图像。第七,转彩色人脸图像为灰度图,并做直方图均衡化处理。所述步骤(3)具体为:矫正得到的人脸图像,大小统一为100像素*100像素,可以视作一个10000维的向量。然后通过主成分分析(PCA)进行降维处理。每一个人脸对应一个由0和1组成的数据标签,第m个人脸的数据标签为[a1,a2,…am,…ak],其中,am=1,其余为0,k为人脸总数;以降维后的数据作为输入,数据标签作为输出,用反向传播算法(BP)训练神经网络模型。进一步地,通过以下方法进行识别:采集待识别的人脸图像,经过所述矫正、降维处理,再输入训练好的神经网络,在输出向量的各个元素中,若只有一个是大于所述阈值(0.5)的,则判定输入数据所属的类别为此向量元素对应的类;若有多于一个元素的值大于阈值或所有元素的值都小于阈值,则判定输入数据不属于训练时的数据集,在人脸识别中即为陌生人。进一步地,通过以下方法交互:根据步骤(4)识别的人脸,获得其姓名,进一步根据深度图可以获知其方位和距离;以3D声音播放姓名给使用者,3D声音的角度用于指示人脸的方位,3D声音的大小用于指示人脸的距离。本专利技术的有益效果在于:1.本专利技术为视障人士提供了一种识别其周围人身份信息的方法。2.本专利技术提出的人脸跟踪方法能提高人脸检出率,并且能自动标记图像的标签。3.本专利技术提出的人脸图像矫正方法能去除头部姿态变化和不均匀的光照对人脸识别的影响。4.本专利技术提出的用神经网络训练和人脸识别系统,能达到实时人脸识别的效果。5.本专利技术提出的3D立体声音用于识别结果的交互,有效提高人脸识别系统使用过程的体验度。附图说明图1是系统结构示意图;图2是人脸检出结果图;图3是灰度化处理后的彩色直方图或深度直方图;图4是融合后的反向投影图;图5是矫正前和矫正后人脸图像的对比图。具体实施方式一种基于RGB-D相机和人脸识别的视障人士辅助方法,具体步骤如下:(1)人脸的录入和人脸数据库的建立;针对每一个待识别对象,分别采集多帧连续的彩色图像和深度图像,进一步通过RGB-D相机中的彩色图像通道检出人脸图像,以第一帧中检出的人脸图像作为人脸跟踪的初始化起点。若在第n帧中出现人脸漏检或检测错误,则可以启动人脸跟踪模式,检出人脸的区域。录入所有待识别对象的人脸图像数据和对应的姓名,建立人脸数据库。所述人脸跟踪模式包括以下步骤:第一,在第n-1帧的人脸检出情况下,如图2所示(人脸区域被框出),分别计算彩色图和深度图中的人脸区域的直方图,如图3所示。彩色直方图的横坐标为色度值,纵坐标为每个色度值对应的像素的个数;深度直方图的横坐标为深度值,纵坐标为每个深度值对应的像素的个数。第二,在第n帧中,计算彩色图和深度图的返向投影图,如图4所示。彩色图对应的返向投影图是将彩色图中的每个像素点的色度值替换为彩色直方图中对应的纵坐标而获得;深度图对应的返向投影图是将深度图中的每个像素点的深度值替换为深度直方图中对应的纵坐标而获得。返向投影图为灰度图像,在所述彩色图和深度图分别对应的返向投影图中,灰度值越大的区域有更大的可能性是人脸区域;将两个返向投影图融合后,得到更符合实际情况的人脸区域预测。第三,在融合后的返向投影图中,应用均值漂移算法(MeanShift),计算出第n帧人脸的区域。(2)人脸图像的矫正人脸的矫正是用于去除头部姿态变化和不均匀的光照对人脸识别的影响。人脸识别相当于一个分类问题,在分类器的训练过程中,样本的类间差异应该较大而每一类的类内差异应该较小,所述头部姿态变化和不均匀的光照会增大类内差异,甚至达到和类间差异相当的程度,对于这样的样本,在分类器训练过程中,分类器难以找到不同类之间的差异,结果就是分类器不具备正确分类的能力。同样地,未经矫正的人脸图像在识别过程中更容易出错。人脸图像的矫正分为以下步骤:第一,调整人脸图像的格式为统一大小,即100像素*100像素。第二,检出人脸区域的特征点,所述特征点包括脸颊轮廓、眼睛、眉毛、鼻子、嘴巴。所述特征点的检出是基于彩色图像的。第三,在一个通用的三维人脸模型中找到对应特征点的三维坐标,所述三维坐标在世界坐标系中。根据特征点在彩色图像中的二维坐标和相机参数,以及所述三维模型中的本文档来自技高网...
一种基于RGB-D相机和人脸识别的视障人士辅助方法

【技术保护点】
一种基于RGB‑D相机和人脸识别的视障人士辅助方法,其特征在于,具体步骤如下:(1)人脸的录入和人脸数据库的建立;(2)人脸图像的矫正;(3)神经网络训练;(4)识别人脸;(5)3D立体声用于识别结果的交互。

【技术特征摘要】
1.一种基于RGB-D相机和人脸识别的视障人士辅助方法,其特征在于,具体步骤如下:(1)人脸的录入和人脸数据库的建立;(2)人脸图像的矫正;(3)神经网络训练;(4)识别人脸;(5)3D立体声用于识别结果的交互。2.根据权利要求1所述的方法,其特征在于,所述步骤(1)具体为:针对每一个识别对象,分别采集多帧连续的彩色图像和深度图像,进一步通过RGB-D中的彩色图像通道检出人脸图像,以第一帧中检出的人脸图像作为人脸跟踪的初始化起点。若在第n帧中出现人脸漏检或检测错误,则可以启动人脸跟踪模式,检出人脸的区域。录入所有识别对象的人脸图像数据和对应的姓名,建立人脸数据库。所述人脸跟踪模式包括以下步骤:第一,在第n-1帧的人脸检出情况下,分别计算彩色图和深度图中的人脸区域的直方图。彩色直方图的横坐标为色度值,纵坐标为每个色度值对应的像素的个数;深度直方图的横坐标为深度值,纵坐标为每个深度值对应的像素的个数。第二,在第n帧中,计算彩色图和深度图的返向投影图。彩色图对应的返向投影图是将彩色图中的每个像素点的色度值替换为彩色直方图中对应的纵坐标而获得;深度图对应的返向投影图是将深度图中的每个像素点的深度值替换为深度直方图中对应的纵坐标而获得。将两个返向投影图融合后,得到更符合实际情况的人脸区域预测。第三,在融合后的返向投影图中,应用均值漂移算法(MeanShift),计算出第n帧人脸的区域。3.根据权利要求1所述的方法,其特征在于,所述步骤(2)具体为:第一,调整人脸图像的格式为统一大小,即100像素*100像素。第二,检出人脸区域的特征点,所述特征点包括脸颊轮廓、眼睛、眉毛、鼻子、...

【专利技术属性】
技术研发人员:于红雷赵向东杨恺伦胡伟健汪凯巍
申请(专利权)人:杭州视氪科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1