基于端到端深度神经网络的语音和人脸复合身份认证方法技术

技术编号:18668624 阅读:42 留言:0更新日期:2018-08-14 20:44
本发明专利技术公开了一种基于端到端深度神经网络的语音和人脸复合身份认证方法,其包括采集文本相关语音信号和面部视频信号,提取语音声纹特征,提取多帧人脸特征,将语音声纹特征和多帧人脸特征进行连接得到身份特征向量,将身份特征向量进行降维处理,采用Triplets Loss方法进行身份识别。本发明专利技术通过结合语音和人脸特征进行身份认证,弥补单一特征带来的不足,可应用于门禁考勤和人机交互等场合,有效提高识别准确率。

Speech and face composite identity authentication method based on end to end deep neural network

The invention discloses a voice and face composite identity authentication method based on end-to-end depth neural network, which includes collecting text-related speech signals and face video signals, extracting voiceprint features, extracting multi-frame face features, and connecting voiceprint features with multi-frame face features to obtain identity feature vectors. The dimension of the identity feature vector is processed and the Triplets Loss method is used to identify the identity. By combining voice and face features for identity authentication, the invention can compensate for the deficiency caused by a single feature, and can be applied to entrance guard attendance and human-computer interaction and other occasions, thereby effectively improving the recognition accuracy.

【技术实现步骤摘要】
基于端到端深度神经网络的语音和人脸复合身份认证方法
本专利技术属于身份识别
,尤其涉及一种基于端到端深度神经网络的语音和人脸复合身份认证方法。
技术介绍
随着人工智能技术的发展,人脸识别和声纹识别等身份验证手段已广泛用于智能安防领域。其中,Google公司开发的基于卷积神经网络的人脸识别模型FaceNet直接进行端到端学习一个从图像到欧式空间的编码方法,然后基于这个编码进行人脸识别、人脸验证和人脸聚类等。FaceNet在LFW数据集上,准确率为0.9963,在YouTubeFacesDB数据集上,准确率为0.9512。百度公司开发的DeepSpeaker由深度神经网络层组成,它使用MFCC、基于余弦相似性的时间池和三元组损失(tripletloss)代价函数,学习到了与语言无关的声纹特征。当在普通话语境下训练时,DeepSpeaker却能在英文确认和识别的任务上达到5.57%的错误率和88%的正确率。上述两种方法是目前人脸识别和声纹识别领域最优秀的方法之一。但在实际工程运用中,应用环境的光照变化,人脸姿势等因素对人脸识别有较大影响,而说话者声道状态和环境噪声也对声纹识别有较大影响。
技术实现思路
本专利技术的专利技术目的是:为了解决现有技术中存在的以上问题,本专利技术充分考虑工程应用环境的复杂性,提出了一种基于端到端深度神经网络的语音和人脸复合身份认证方法。本专利技术的技术方案是:一种基于端到端深度神经网络的语音和人脸复合身份认证方法,包括以下步骤:A、采集预先设定的文本相关语音信号,并同步采集待识别人的面部视频信号;B、提取步骤A中文本相关语音信号的语音声纹特征;C、提取步骤A中面部视频信号的多帧人脸特征;D、将步骤B中语音声纹特征和步骤C中多帧人脸特征进行连接,得到身份特征向量;E、将步骤D中身份特征向量进行降维处理;F、根据步骤E中降维处理后的身份特征向量采用TripletsLoss方法进行身份识别。进一步地,所述步骤B提取步骤A中文本相关语音信号的语音声纹特征,具体包括以下分步骤:B1、对步骤A中文本相关语音信号进行预处理,得到MFCC特征向量;B2、采用残差卷积深度神经网络ResCNN对步骤B1中MFCC特征向量进行声纹特征的提取。进一步地,所述步骤B1对步骤A中文本相关语音信号进行预处理,得到MFCC特征向量,具体包括以下分步骤:B11、对步骤A中文本相关语音信号进行预加重、分帧、加窗处理;B12、对步骤B11处理后的每一帧文本相关语音信号进行快速傅里叶变换,计算频谱,得到幅度谱;B13、对步骤B12中幅度谱进行Mel滤波处理;B14、对步骤B13处理后的幅度谱作对数运算,再进行离散余弦变换得到MFCC特征向量;B15、对步骤B14中MFCC特征向量进行去均值和方差并归一化处理。进一步地,所述步骤C提取步骤A中面部视频信号的多帧人脸特征,具体包括以下分步骤:C1、根据预设时间间隔从面部视频信号中采集图像帧,并进行人脸检测,当包含人脸的图像帧达到预设数量时完成采集;C2、将步骤C1中包含人脸的图像帧进行人脸对齐并归一化处理;C3、对步骤C2处理后的图像帧采用深度残差网络ResNet进行特征点检测和特征学习,得到对应的人脸特征;C4、将步骤C3中人脸特征进行融合得到人脸特征向量。进一步地,所述步骤F根据步骤E中降维处理后的身份特征向量采用TripLetsLoss方法进行身份识别,具体包括以下分步骤:F1、采集包含人脸数据集和声纹数据集的训练数据集,并采用所述步骤B至步骤E的方法进行处理得到身份特征向量样本集;F2、根据步骤F1中身份特征向量样本集生成triplet三元组集合;F3、分别将triplet三元组集合中的每个元素训练共享参数网络,得到三个元素的特征表达;F4、根据步骤F3中三个元素的特征表达构造优化Tripletloss目标函数,完成身份识别。进一步地,所述优化Tripletloss目标函数具体为:其中,为三个元素的特征表达,N为样本集中样本的总数量,为第i个三元组中的锚记样本,为此三元组中与属于同类样本的样本,为此三元组中与不属于同类样本的样本,a为锚记样本的标记,p为锚记样本同类样本的标记,n为与锚记样本不同类样本的标记,α为与距离和与距离的最小间隔,为二范数的平方。本专利技术的有益效果是:本专利技术通过结合语音和人脸特征进行身份认证,弥补单一特征带来的不足,可应用于门禁考勤和人机交互等场合,有效提高识别准确率。附图说明图1是本专利技术的基于端到端深度神经网络的语音和人脸复合身份认证方法的流程示意图。图2是本专利技术实施例中提取语音声纹特征流程示意图。图3是本专利技术实施例中提取多帧人脸特征流程示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,为本专利技术的基于端到端深度神经网络的语音和人脸复合身份认证方法的流程示意图。一种基于端到端深度神经网络的语音和人脸复合身份认证方法,包括以下步骤:A、采集预先设定的文本相关语音信号,并同步采集待识别人的面部视频信号;B、提取步骤A中文本相关语音信号的语音声纹特征;C、提取步骤A中面部视频信号的多帧人脸特征;D、将步骤B中语音声纹特征和步骤C中多帧人脸特征进行连接,得到身份特征向量;E、将步骤D中身份特征向量进行降维处理;F、根据步骤E中降维处理后的身份特征向量采用TripletsLoss方法进行身份识别。在本专利技术的一个可选实施例中,上述步骤A在开始身份认证时,采集系统预先设定的文本相关语音信号,并在检测到语音信号后同步采集待识别人的面部视频信号。在本专利技术的一个可选实施例中,如图2所示,上述步骤B提取步骤A中文本相关语音信号的语音声纹特征,语音声纹特征的长度为m维,记为V=(v1,v2...vm);优选地,本专利技术在具体实验中设定m=256。本专利技术提取步骤A中文本相关语音信号的语音声纹特征,具体包括以下分步骤:B1、对步骤A中文本相关语音信号进行预处理,得到MFCC特征向量;在本专利技术的一个可选实施例中,上述步骤B1对步骤A中文本相关语音信号进行预处理,得到MFCC特征向量,具体包括以下分步骤:B11、对步骤A中文本相关语音信号进行预加重、分帧、加窗处理;对步骤A中文本相关语音信号X=(xt1,xt2...xtL)进行预处理,包括预加重(Preemphasis),分帧(FrameBlocking),加窗(Windowing),其中xti为ti时刻语音信号的采样值,tL为语音信号采样结束时间。语音信号的采样频率fs=8KHz,设置帧长为160个点,帧移设置为帧长的1/2。B12、对步骤B11处理后的每一帧文本相关语音信号进行快速傅里叶(FFT)变换,通过取绝对值或平方值计算频谱,进而计算得到幅度谱;B13、对步骤B12中幅度谱添加Mel滤波器组,进行Mel滤波处理;B14、对步骤B13处理后的幅度谱作对数运算(Logarlithm),再进行离散余弦变换(DCT)得到MFCC特征向量,记为M=(s1,s2...s26),其中si为第i维特征向量。B15、对步骤B14中MFCC特征向量进行去均值和方差并归一化处理。B2、采用残差卷本文档来自技高网...

【技术保护点】
1.一种基于端到端深度神经网络的语音和人脸复合身份认证方法,其特征在于,包括以下步骤:A、采集预先设定的文本相关语音信号,并同步采集待识别人的面部视频信号;B、提取步骤A中文本相关语音信号的语音声纹特征;C、提取步骤A中面部视频信号的多帧人脸特征;D、将步骤B中语音声纹特征和步骤C中多帧人脸特征进行连接,得到身份特征向量;E、将步骤D中身份特征向量进行降维处理;F、根据步骤E中降维处理后的身份特征向量采用Triplets Loss方法进行身份识别。

【技术特征摘要】
1.一种基于端到端深度神经网络的语音和人脸复合身份认证方法,其特征在于,包括以下步骤:A、采集预先设定的文本相关语音信号,并同步采集待识别人的面部视频信号;B、提取步骤A中文本相关语音信号的语音声纹特征;C、提取步骤A中面部视频信号的多帧人脸特征;D、将步骤B中语音声纹特征和步骤C中多帧人脸特征进行连接,得到身份特征向量;E、将步骤D中身份特征向量进行降维处理;F、根据步骤E中降维处理后的身份特征向量采用TripletsLoss方法进行身份识别。2.如权利要求1所述的基于端到端深度神经网络的语音和人脸复合身份认证方法,其特征在于,所述步骤B提取步骤A中文本相关语音信号的语音声纹特征,具体包括以下分步骤:B1、对步骤A中文本相关语音信号进行预处理,得到MFCC特征向量;B2、采用残差卷积深度神经网络ResCNN对步骤B1中MFCC特征向量进行声纹特征的提取。3.如权利要求2所述的基于端到端深度神经网络的语音和人脸复合身份认证方法,其特征在于,所述步骤B1对步骤A中文本相关语音信号进行预处理,得到MFCC特征向量,具体包括以下分步骤:B11、对步骤A中文本相关语音信号进行预加重、分帧、加窗处理;B12、对步骤B11处理后的每一帧文本相关语音信号进行快速傅里叶变换,计算频谱,得到幅度谱;B13、对步骤B12中幅度谱进行Mel滤波处理;B14、对步骤B13处理后的幅度谱作对数运算,再进行离散余弦变换得到MFCC特征向量;B15、对步骤B14中MFCC特征向量进行去均值和方差并归一化处理。4.如权利要求3所述的基于端到端深度神经网络的语音和人脸复合身份认证方法,其特...

【专利技术属性】
技术研发人员:胡德昆易发胜崔国栋
申请(专利权)人:成都数智凌云科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1