声纹密码认证方法及系统技术方案

技术编号:13863933 阅读:110 留言:0更新日期:2016-10-19 16:13
本发明专利技术公开了一种声纹密码认证方法及系统,该方法包括:接收登录用户的语音数据,并将所述语音数据作为测试语音数据;提取所述测试语音数据的特征,得到测试语音特征;利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差,得到第一特征域偏差;根据所述第一特征域偏差对所述测试语音特征进行修正,得到第一修正测试语音特征;利用所述第一修正测试语音特征进行声纹认证。本发明专利技术可以提升声纹认证的准确度。

【技术实现步骤摘要】

本专利技术涉及声纹认证
,具体涉及一种声纹密码认证方法及系统
技术介绍
声纹密码认证即根据用户输入的语音信号中所反映的说话人生理特征和行为特征的声纹信息自动识别认证说话人身份的技术。相比于其它生物认证,声纹密码认证具有更简便、准确、经济及良好扩展性等优势,已被广泛应用于安全验证控制等领域,如在门禁系统、开机密码、银行支付密码、手机支付等应用场景都发挥着有效作用。然而,认证系统在实际应用中会存在各种跨场景问题,如输入密码设备的更换,注册密码及登录时存在的时间漂移,地点环境的变化(如室内、室外)等,在这些情况下,短短几个字的声纹密码会受到各种信道因素的干扰,导致声纹密码认证效果不理想。因此提高声纹密码系统在不同应用场景下的稳定性对提高声纹密码系统的实用价值有重要意义。为此,现有技术中采用对提取的声纹特征进行特征补偿的方法来减少不同环境因素的影响,并根据补偿后的声纹特征对说话人进行身份认证。现有的声纹密码认证系统在特征补偿上主要使用因子分析的方法,来降低不同信道对认证结果的影响。而所述方法需要利用注册说话人大量跨场景数据训练信道因子载荷矩阵;如果训练数据不足,则会对声纹密码系统的认证性能带来较大的损失,然而大量数据的获取对于声纹密码系统往往比较困难。此外,预训练的信道因子载荷矩阵只能表示训练时的状态,而无法解决用户登录的时间漂移问题。
技术实现思路
本专利技术实施例提供一种声纹密码认证方法及系统,以提升声纹认证的准确度。为此,本专利技术实施例提供如下技术方案:一种声纹密码认证方法,包括:接收登录用户的语音数据,并将所述语音数据作为测试语音数据;提取所述测试语音数据的特征,得到测试语音特征;利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差,得到第一特征域偏差;根据所述第一特征域偏差对所述测试语音特征进行修正,得到第一修正测试语音特征;利用所述第一修正测试语音特征进行声纹认证。优选地,所述利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差包括:针对所述测试语音特征,采用迭代方式计算所述特征的偏差量,并根据所述偏差量对所述测试语音特征进行补偿,计算补偿后的测试语音特征与所述注册说话人模型的似然度;在迭代次数达到设定次数或者所述似然度达到稳定后,获取最大似然度对应的偏差量作为当前测试语音特征的最优偏差量;根据测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。优选地,在每次迭代过程中计算所述特征的偏差量包括:计算所述特征相对于所述注册说话人模型的后验概率;根据所述注册说话人模型参数,计算所述特征的参数距离;根据所述后验概率及所述特征的参数距离计算所述特征的偏差量。优选地,所述根据所述后验概率及所述特征的参数距离计算所述特征的偏差量包括:以帧为单位,根据当前帧数据对应的所述特征的后验概率及所述参数距离,计算所述特征的偏差量;或者根据所有帧数据对应的所述特征的后验概率及所述参数距离,计算所述特征的偏差量。优选地,所述利用所述测试语音特征及注册说话人模型估计测试语音相对
于注册语音的特征域偏差包括:对描述所述注册说话人模型的高斯分量进行聚类,得到每个聚类包含的高斯分量;针对所述测试语音特征,采用迭代方式计算所述特征相对于各聚类的偏差量,并根据所述偏差量对所述测试语音特征进行补偿,计算补偿后的测试语音特征与所述注册说话人模型的似然度;在迭代次数达到设定次数或所述似然度达到稳定后,获取最大似然度对应的偏差量作为所述特征相对于所述聚类的最优偏差量;根据所述特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。优选地,在每次迭代过程中计算所述特征相对于各聚类的偏差量包括:计算所述特征相对于所述注册说话人模型的后验概率;根据所述注册说话人模型参数,计算所述特征的参数距离;根据所述后验概率及所述特征的参数距离计算所述特征相对于各聚类的偏差量。优选地,所述利用第一修正测试语音特征进行声纹认证包括:计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说话人似然度;计算所述第一修正测试语音特征与通用背景模型的似然度,得到第一背景似然度;计算所述说话人似然度与所述第一背景似然度的比值,得到第一判决得分;如果所述第一判决得分大于第一阈值,则确定用户认证通过。优选地,所述方法还包括:利用所述测试语音特征及通用背景模型估计测试语音相对于注册语音的特征域偏差,得到第二特征域偏差;根据所述第二特征域偏差对所述测试语音特征进行修正,得到第二修正测试语音特征;所述利用所述第一修正测试语音特征进行声纹认证包括:计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说
话人似然度;计算所述第二修正测试语音特征与通用背景模型的似然度,得到第二背景似然度;计算所述说话人似然度与所述第二背景似然度的比值,得到第二判决得分;如果所述第二判决得分大于第二阈值,则确定用户认证通过。一种声纹密码认证系统,包括:接收模块,用于接收登录用户的语音数据,并将所述语音数据作为测试语音数据;特征提取模块,用于提取所述测试语音数据的特征,得到测试语音特征;第一估计模块,用于利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差,得到第一特征域偏差;第一修正模块,用于根据所述第一特征域偏差对所述测试语音特征进行修正,得到第一修正测试语音特征;认证模块,用于利用所述第一修正测试语音特征进行声纹认证。优选地,所述第一估计模块包括:迭代处理单元,用于针对所述测试语音特征,采用迭代方式计算所述特征的偏差量,根据所述偏差量对所述测试语音特征进行补偿,并计算补偿后的测试语音特征与所述注册说话人模型的似然度;检测单元,用于检测迭代次数是否达到设定次数或者所述似然度是否达到稳定;特征域偏差输出单元,用于在所述检测单元检测到迭代次数达到设定次数或者所述似然度达到稳定后,获取最大似然度对应的偏差量作为当前测试语音特征的最优偏差量,并根据测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。优选地,所述迭代处理单元在每次迭代过程中根据所述特征相对于所述注册说话人模型的后验概率、以及所述特征与所述注册说话人模型参数的参数距离,计算所述特征的偏差量。优选地,所述迭代处理单元,以帧为单位,根据当前帧数据对应的所述特
征的后验概率及所述参数距离,计算所述特征的偏差量;或者根据所有帧数据对应的所述特征的后验概率及所述参数距离,计算所述特征的偏差量。优选地,所述第一估计模块包括:聚类单元,用于对描述所述注册说话人模型的高斯分量进行聚类,得到每个聚类包含的高斯分量;迭代处理单元,用于针对所述测试语音特征,采用迭代方式计算所述特征相对于各聚类的偏差量,并根据所述偏差量对所述测试语音特征进行补偿,计算补偿后的测试语音特征与所述注册说话人模型的似然度;检测单元,用于检测迭代次数是否达到设定次数或者所述似然度是否达到稳定;特征域偏差输出单元,用于在所述检测单元检测到迭代次数达到设定次数或者所述似然度达到稳定后,获取最大似然度对应的偏差量作为所述特征相对于所述聚类的最优偏差量,并根据所述特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。优选地,所述迭代处理单元在每次迭代过程中根本文档来自技高网
...

【技术保护点】
一种声纹密码认证方法,其特征在于,包括:接收登录用户的语音数据,并将所述语音数据作为测试语音数据;提取所述测试语音数据的特征,得到测试语音特征;利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差,得到第一特征域偏差;根据所述第一特征域偏差对所述测试语音特征进行修正,得到第一修正测试语音特征;利用所述第一修正测试语音特征进行声纹认证。

【技术特征摘要】
1.一种声纹密码认证方法,其特征在于,包括:接收登录用户的语音数据,并将所述语音数据作为测试语音数据;提取所述测试语音数据的特征,得到测试语音特征;利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差,得到第一特征域偏差;根据所述第一特征域偏差对所述测试语音特征进行修正,得到第一修正测试语音特征;利用所述第一修正测试语音特征进行声纹认证。2.根据权利要求1所述的方法,其特征在于,所述利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差包括:针对所述测试语音特征,采用迭代方式计算所述特征的偏差量,并根据所述偏差量对所述测试语音特征进行补偿,计算补偿后的测试语音特征与所述注册说话人模型的似然度;在迭代次数达到设定次数或者所述似然度达到稳定后,获取最大似然度对应的偏差量作为当前测试语音特征的最优偏差量;根据测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。3.根据权利要求2所述的方法,其特征在于,在每次迭代过程中计算所述特征的偏差量包括:计算所述特征相对于所述注册说话人模型的后验概率;根据所述注册说话人模型参数,计算所述特征的参数距离;根据所述后验概率及所述特征的参数距离计算所述特征的偏差量。4.根据权利要求3述的方法,其特征在于,所述根据所述后验概率及所述特征的参数距离计算所述特征的偏差量包括:以帧为单位,根据当前帧数据对应的所述特征的后验概率及所述参数距离,计算所述特征的偏差量;或者根据所有帧数据对应的所述特征的后验概率及所述参数距离,计算所述特征的偏差量。5.根据权利要求1所述的方法,其特征在于,所述利用所述测试语音特
\t征及注册说话人模型估计测试语音相对于注册语音的特征域偏差包括:对描述所述注册说话人模型的高斯分量进行聚类,得到每个聚类包含的高斯分量;针对所述测试语音特征,采用迭代方式计算所述特征相对于各聚类的偏差量,并根据所述偏差量对所述测试语音特征进行补偿,计算补偿后的测试语音特征与所述注册说话人模型的似然度;在迭代次数达到设定次数或所述似然度达到稳定后,获取最大似然度对应的偏差量作为所述特征相对于所述聚类的最优偏差量;根据所述特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。6.根据权利要求5所述的方法,其特征在于,在每次迭代过程中计算所述特征相对于各聚类的偏差量包括:计算所述特征相对于所述注册说话人模型的后验概率;根据所述注册说话人模型参数,计算所述特征的参数距离;根据所述后验概率及所述特征的参数距离计算所述特征相对于各聚类的偏差量。7.根据权利要求1至6任一项所述的方法,其特征在于,所述利用第一修正测试语音特征进行声纹认证包括:计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说话人似然度;计算所述第一修正测试语音特征与通用背景模型的似然度,得到第一背景似然度;计算所述说话人似然度与所述第一背景似然度的比值,得到第一判决得分;如果所述第一判决得分大于第一阈值,则确定用户认证通过。8.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:利用所述测试语音特征及通用背景模型估计测试语音相对于注册语音的特征域偏差,得到第二特征域偏差;根据所述第二特征域偏差对所述测试语音特征进行修正,得到第二修正测
\t试语音特征;所述利用所述第一修正测试语音特征进行声纹认证包括:计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说话人似然度;计算所述第二修正测试语音特征与通用背景模型的似然度,得到第二背景似然度;计算所述说话人似然度与所述第二背景似然度的比值,得到第二判决得分;如果所述第二判决得分大于第二阈值,则确定用户认证通过。9.一种声纹密码认证系统,其特征在于,包括:接收模块,用于接收登录用户的语音数据,并将所述语音数据作为测试语音...

【专利技术属性】
技术研发人员:殷兵方昕魏思胡国平王影胡郁刘庆峰
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1