基于端到端深度神经网络的语音和人脸复合身份认证方法技术

技术编号：18668624 阅读：42 留言：0更新日期：2018-08-14 20:44

本发明专利技术公开了一种基于端到端深度神经网络的语音和人脸复合身份认证方法，其包括采集文本相关语音信号和面部视频信号，提取语音声纹特征，提取多帧人脸特征，将语音声纹特征和多帧人脸特征进行连接得到身份特征向量，将身份特征向量进行降维处理，采用Triplets Loss方法进行身份识别。本发明专利技术通过结合语音和人脸特征进行身份认证，弥补单一特征带来的不足，可应用于门禁考勤和人机交互等场合，有效提高识别准确率。

Speech and face composite identity authentication method based on end to end deep neural network

The invention discloses a voice and face composite identity authentication method based on end-to-end depth neural network, which includes collecting text-related speech signals and face video signals, extracting voiceprint features, extracting multi-frame face features, and connecting voiceprint features with multi-frame face features to obtain identity feature vectors. The dimension of the identity feature vector is processed and the Triplets Loss method is used to identify the identity. By combining voice and face features for identity authentication, the invention can compensate for the deficiency caused by a single feature, and can be applied to entrance guard attendance and human-computer interaction and other occasions, thereby effectively improving the recognition accuracy.

全部详细技术资料下载

【技术实现步骤摘要】
基于端到端深度神经网络的语音和人脸复合身份认证方法
本专利技术属于身份识别
，尤其涉及一种基于端到端深度神经网络的语音和人脸复合身份认证方法。
技术介绍
随着人工智能技术的发展，人脸识别和声纹识别等身份验证手段已广泛用于智能安防领域。其中，Google公司开发的基于卷积神经网络的人脸识别模型FaceNet直接进行端到端学习一个从图像到欧式空间的编码方法，然后基于这个编码进行人脸识别、人脸验证和人脸聚类等。FaceNet在LFW数据集上，准确率为0.9963，在YouTubeFacesDB数据集上，准确率为0.9512。百度公司开发的DeepSpeaker由深度神经网络层组成，它使用MFCC、基于余弦相似性的时间池和三元组损失(tripletloss)代价函数，学习到了与语言无关的声纹特征。当在普通话语境下训练时，DeepSpeaker却能在英文确认和识别的任务上达到5.57％的错误率和88％的正确率。上述两种方法是目前人脸识别和声纹识别领域最优秀的方法之一。但在实际工程运用中，应用环境的光照变化,人脸姿势等因素对人脸识别有较大影响，而说话者声道状态和环境噪声也对声纹识别有较大影响。
技术实现思路
本专利技术的专利技术目的是：为了解决现有技术中存在的以上问题，本专利技术充分考虑工程应用环境的复杂性，提出了一种基于端到端深度神经网络的语音和人脸复合身份认证方法。本专利技术的技术方案是：一种基于端到端深度神经网络的语音和人脸复合身份认证方法，包括以下步骤：A、采集预先设定的文本相关语音信号，并同步采集待识别人的面部视频信号；B、提取步骤A中文本相关语音信号的语...

【技术保护点】
1.一种基于端到端深度神经网络的语音和人脸复合身份认证方法，其特征在于，包括以下步骤：A、采集预先设定的文本相关语音信号，并同步采集待识别人的面部视频信号；B、提取步骤A中文本相关语音信号的语音声纹特征；C、提取步骤A中面部视频信号的多帧人脸特征；D、将步骤B中语音声纹特征和步骤C中多帧人脸特征进行连接，得到身份特征向量；E、将步骤D中身份特征向量进行降维处理；F、根据步骤E中降维处理后的身份特征向量采用Triplets Loss方法进行身份识别。

【技术特征摘要】
1.一种基于端到端深度神经网络的语音和人脸复合身份认证方法，其特征在于，包括以下步骤：A、采集预先设定的文本相关语音信号，并同步采集待识别人的面部视频信号；B、提取步骤A中文本相关语音信号的语音声纹特征；C、提取步骤A中面部视频信号的多帧人脸特征；D、将步骤B中语音声纹特征和步骤C中多帧人脸特征进行连接，得到身份特征向量；E、将步骤D中身份特征向量进行降维处理；F、根据步骤E中降维处理后的身份特征向量采用TripletsLoss方法进行身份识别。2.如权利要求1所述的基于端到端深度神经网络的语音和人脸复合身份认证方法，其特征在于，所述步骤B提取步骤A中文本相关语音信号的语音声纹特征，具体包括以下分步骤：B1、对步骤A中文本相关语音信号进行预处理，得到MFCC特征向量；B2、采用残差卷积深度神经网络ResCNN对步骤B1中MFCC特征向量进行声纹特征的提取。3.如权利要求2所述的基于端到端深度神经网络的语音和人脸复合身份认证方法，其特征在于，所述步骤B1对步骤A中文本相关语音信号进行预处理，得到MFCC特征向量，具体包括以下分步骤：B11、对步骤A中文本相关语音信号进行预加重、分帧、加窗处理；B12、对步骤B11处理后的每一帧文本相关语音信号进行快速傅里叶变换，计算频谱，得到幅度谱；B13、对步骤B12中幅度谱进行Mel滤波处理；B14、对步骤B13处理后的幅度谱作对数运算，再进行离散余弦变换得到MFCC特征向量；B15、对步骤B14中MFCC特征向量进行去均值和方差并归一化处理。4.如权利要求3所述的基于端到端深度神经网络的语音和人脸复合身份认证方法，其特...

【专利技术属性】
技术研发人员：胡德昆，易发胜，崔国栋，
申请(专利权)人：成都数智凌云科技有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人