一种基于联合因子分析模型的移动设备声纹识别方法技术

技术编号：9935989 阅读：179 留言：0更新日期：2014-04-18 14:48

一种基于联合因子分析模型的移动设备声纹识别方法，其特征在于：包括背景模型库训练、用户声纹模型训练和声纹确认三部分，并采用联合因子分析模型构建说话人空间、信道空间和残差空间三个子空间；所述联合因子分析模型的高斯均值向量表征为：Mki＝mk+Ukxi+Vkys(i)+Dkzks(i)其中，k代表第k个高斯模型，i代表某一个语音段，s(i)表示说话人s的某一语音段，mk表示独立于说话人和会话内容的均值向量，Uk特征信道矩阵，Vk表示特征说话人矩阵，Dk表示残差空间矩阵；xi表示信道因子向量，ys(i)表示依赖于说话人的声纹因子向量，zks(i)表示依赖于说话人和单个高斯模型的残差因子向量；所述背景模型库训练、用户声纹模型训练和声纹确认，具体如下：一、背景模型库训练包括以下步骤：（1）采集移动设备端的语料作为训练数据；（2）对采集的语料进行平衡性分析，保持语音的长度相似，保证信道易变性和会话易变性的平衡；（3）对步骤（2）处理后的语料进行前端预处理，包括：（301）将语音信号分段加窗后经过计算得出梅尔幅倒谱系数的特征参数流；（302）以特征参数流数据训练通用背景模型（UBM）；（303）将每一个语料利用最大后验准则将其自适应到说话人模型上，再用构建特征音空间的方法对表征特定说话人模型的参数进行降维处理；（304）通过稀疏数据的EM算法最大化所有训练数据中的整体似然度，针对所有说话人的语音段求统计量，构建特征说话人矩阵Vk；（4）构建特征信道矩阵Uk，针对语料中某个固定说话人的语音段求统计量，特征信道矩阵的维度固定为移动设备端型号类型的数量；（5）构建残差空间矩阵Dk，完善移动设备端的声纹识别背景模型库建；二、用户声纹模型训练包括：用户由移动设备端向服务器端上传一段训练语音，移动设备端对训练语音进行预处理：服务器端对训练语音所对应的声纹模型进行训练和识别，服务器端接收到训练语音后，通过最大似然的办法训练模型，对信道因子向量xi、依赖于说话人的声纹因子向量ys(i)、依赖于说话人和单个高斯模型的残差因子向量zks(i)进行最大后验概率估计，其中，ys(i)用以表征该移动设备端所对应的用户的特征向量，xi和zks(i)用以补偿信道易变性和会话易变性的干扰；服务器端为移动设备端所对应的用户建立用户声纹模型，并将用户声纹模型返回到用户的移动设备端，用户再上传一段测试语音至服务器端作为测试，并在服务器端进行T?Norm和Z?Norm分数规整，用以放大用户和其他人的分数区别，以此来设定门限值；三、声纹确认包括：用户输入自己的一段解锁语音至移动设备，移动设备端进行前端预处理之后将用户解锁语音信息发到服务器端，服务器端采用通用背景模型作为说话人的特征向量，使用用户的解锁语音对残差因子向量zks(i)和信道因子向量xi进行估计，将估计后的参数与该移动设备对应的注册用户的特征向量ys(i)进行结合，计算解锁语音对应的分数；如果分数高于步骤二得到的门限值则确认用身份，解锁移动设备的使用权限，如果分数低于步骤二得到的门限值则拒绝解锁移动设备。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了，包括背景模型库训练、用户声纹模型训练（说话人训练）和声纹确认（说话人确认）三大部分，并采用联合因子分析模型构建说话人空间、信道空间和残差空间三个子空间，利用联合因子分析模型技术，将声纹识别系统移植到移动设备端，使其成为一款可代替密码的身份确认应用产品。本专利技术对声纹识别在移动端应用的短板不足进行补充和改进，对说话人识别中的易变性干扰，包括信道易变性和会话易变性进行估计和补偿，使用户可以通过较短的语音进行训练和识别，并在不同背景环境下也能取得良好的识别效果。【专利说明】
本专利技术公开了，涉及声纹识别
。
技术介绍
随着模式识别技术的发展突破和电子设备运算速度和性能的提高，生物信息识别技术近年来在用户身份确认领域中得到了飞速的发展。相较于传统的密码和PIN码具有容易被窃取和复制的硬伤，生物信息(指纹、声纹等)对于每一个用户来说都具有唯一性，并且极难窃取复制。指纹识别由于其稳定、不易变化、不受外界条件影响等优点，已经被广泛的应用在了打卡器和手持设备等电子产品中。声纹识别技术也被应用在了保险箱解锁、声控门锁和高档轿车发动机启动确认等领域。但在移动设备上，尤其是智能手机端，声纹识别在实用化过程中仍然有许多问题需要解决，主要有以下因素:1.考虑到效率和便捷等因素，用户用作训练模型的语音不能多于30s，识别时的语音不能多于10s，这就带来训练数据不足的问题。2.手机设备的易变性。由于不同型号智能手机的音频处理芯片和算法的差异，读取的音频质量会有差别。3.传输信道的易变性。由于蜂窝通信和VOIP等传输语音的技术对于语音的...

【技术保护点】
一种基于联合因子分析模型的移动设备声纹识别方法，其特征在于：包括背景模型库训练、用户声纹模型训练和声纹确认三部分，并采用联合因子分析模型构建说话人空间、信道空间和残差空间三个子空间；所述联合因子分析模型的高斯均值向量表征为：Mki＝mk+Ukxi+Vkys(i)+Dkzks(i)其中，k代表第k个高斯模型，i代表某一个语音段，s(i)表示说话人s的某一语音段，mk表示独立于说话人和会话内容的均值向量，Uk特征信道矩阵，Vk表示特征说话人矩阵，Dk表示残差空间矩阵；xi表示信道因子向量，ys(i)表示依赖于说话人的声纹因子向量，zks(i)表示依赖于说话人和单个高斯模型的残差因子向量；所述背景模型库训练、用户声纹模型训练和声纹确认，具体如下：一、背景模型库训练包括以下步骤：（1）采集移动设备端的语料作为训练数据；（2）对采集的语料进行平衡性分析，保持语音的长度相似，保证信道易变性和会话易变性的平衡；（3）对步骤（2）处理后的语料进行前端预处理，包括：（301）将语音信号分段加窗后经过计算得出梅尔幅倒谱系数的特征参数流；（302）以特征参数流数据训练通用背景模型（UBM）；（303）将每一...

【技术特征摘要】

【专利技术属性】
技术研发人员：李为，朱杰，姚国勤，钱传根，杭乐，
申请(专利权)人：上海交通大学无锡研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人