声纹模型训练方法、声纹识别方法及装置制造方法及图纸

技术编号：13921763 阅读：181 留言：0更新日期：2016-10-27 22:30

本发明专利技术公开了一种声纹模型训练方法、声纹识别方法及装置，属于语音识别领域。所述方法包括：获取未知用户朗读第二字符串所产生的测试语音信号，第二字符串包括按序排列的若干字符；从测试语音信号中提取出各个字符所对应的声纹特征序列；根据目标用户的与n种基础字符分别对应的n个GMM，构建与第二字符串对应的HMM；计算声纹特征序列与HMM的相似度分数；当相似度分数大于预设阈值时，将未知用户识别目标用户。在本发明专利技术中，目标用户的与各个基础字符分别对应的GMM之间考虑了每种基础字符对应的音频内容在音素层面的差异性，且HMM模型还考虑了各个基础字符对应的音频内容在时域上的相关性，能够极大地提高识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及语音识别领域，特别涉及一种声纹模型训练方法、声纹识别方法及装置。
技术介绍
声纹识别是一种利用声纹特征信息对未知用户进行身份确认的技术。声纹识别可用于门禁系统、支付系统等需要识别用户身份的场景。目前的声纹识别通常采用文本相关识别。声纹识别通常包括两个过程：目标用户的注册过程和未知用户的身份识别过程。在目标用户的注册过程中，系统会提供一个注册字符串供目标用户朗读，该注册字符串通常包括顺序排列的若干个数字和/或字母，系统采集目标用户朗读时产生的注册语音信号，并根据注册语音信号训练得到目标用户的高斯混合模型(Gaussian Mixture Model，GMM)；在未知用户的身份识别过程中，将未知用户朗读一个识别字符串时的测试语音信号与目标用户的GMM进行相似度匹配，当相似度大于预设阈值时，将未知用户识别为目标用户。在实现本专利技术实施例的过程中，专利技术人发现现有技术至少存在以下问题：在上述方法中，注册语音信号中与各个基础字符对应的音频内容存在相关性，该注册语音信号包含了丰富的信息用于表征未知用户的特征，但目标用户的GMM是一种文本无关的模型，无法利用注册语音信号中丰富的信息。
技术实现思路
有鉴于此，本专利技术实施例提供了一种声纹模型训练方法、声纹识别方法及装置。所述技术方案如下：第一方面，提供了一种声纹模型训练方法，所述方法包括：采集目标用户朗读第一字符串所产生的注册语音信号，所述第一字符串包括m个按序排列的字符，所述m个字符包括n种互不相同的基础字符，m和n均为正整数且m≥n；从所述注册语音信号中提取出每个字符所对应的声纹特征；以所述目...

【技术保护点】
一种声纹模型训练方法，其特征在于，所述方法包括：采集目标用户朗读第一字符串所产生的注册语音信号，所述第一字符串包括m个按序排列的字符，所述m个字符包括n种互不相同的基础字符，m和n均为正整数且m≥n；从所述注册语音信号中提取出每个字符所对应的声纹特征；以所述目标用户的各个所述字符所对应的所述声纹特征为第一样本数据，对预设的通用背景模型进行训练，得到所述目标用户的混合高斯模型；以所述目标用户的与第i种基础字符所对应的声纹特征为第二样本数据，对所述目标用户的所述混合高斯模型进行训练，得到所述目标用户的与第i种基础字符所对应的所述混合高斯模型；存储所述目标用户的与n种基础字符分别对应的n个混合高斯模型，所述n个混合高斯模型用于构建与第二字符串对应的隐马尔可夫模型。

【技术特征摘要】
1.一种声纹模型训练方法，其特征在于，所述方法包括：采集目标用户朗读第一字符串所产生的注册语音信号，所述第一字符串包括m个按序排列的字符，所述m个字符包括n种互不相同的基础字符，m和n均为正整数且m≥n；从所述注册语音信号中提取出每个字符所对应的声纹特征；以所述目标用户的各个所述字符所对应的所述声纹特征为第一样本数据，对预设的通用背景模型进行训练，得到所述目标用户的混合高斯模型；以所述目标用户的与第i种基础字符所对应的声纹特征为第二样本数据，对所述目标用户的所述混合高斯模型进行训练，得到所述目标用户的与第i种基础字符所对应的所述混合高斯模型；存储所述目标用户的与n种基础字符分别对应的n个混合高斯模型，所述n个混合高斯模型用于构建与第二字符串对应的隐马尔可夫模型。2.根据权利要求1所述的方法，其特征在于，所述采集目标用户朗读预定字符串所产生的语音信号之前，还包括：随机生成所述第一字符串进行显示。3.根据权利要求1所述的方法，其特征在于，所述从所述注册语音信号中提取出每个字符所对应的声纹特征，包括：识别所述注册语音信号中的有效语音片段和无效语音片段，所述无效语音片段包括静音段和/或噪音段；将所述注册语音信号中的第j个有效语音片段，提取为与所述第一字符串中的第j个字符所对应的语音片段；提取与所述第j个字符所对应的语音片段的声纹特征。4.根据权利要求3所述的方法，其特征在于，所述提取与第j个字符所对应的语音片段的声纹特征，包括：提取与所述第j个字符所对应的语音片段中的梅尔倒谱系数MFCC或感知线性预测系数PLP，作为与所述第j个字符所对应的语音片段的声纹特征。5.根据权利要求1至4任一所述的方法，其特征在于，所述以所述目标用户的各个所述基础字符所对应的所述声纹特征为第一样本数据，对预设的通用背景模型进行训练，得到所述目标用户的混合高斯模型，包括：以所述目标用户的各个所述基础字符所对应的所述声纹特征为第一样本数据，采用最大后验概率算法对预设的通用背景模型中的参数进行调整；将调整参数后的所述通用背景模型确定为所述目标用户的混合高斯模型。6.根据权利要求1至4任一所述的方法，其特征在于，所述以所述目标用户的与第i种基础字符所对应的声纹特征为第二样本数据，对所述目标用户的所述混合高斯模型进行训练，得到所述目标用户的与第i种基础字符所对应的所述混合高斯模型，包括：以所述目标用户的与第i种基础字符所对应的声纹特征为第二样本数据，采用最大后验概率算法对所述目标用户的混合高斯模型中的参数进行调整；将调整参数后的所述目标用户的混合高斯模型，确定为所述目标用户的与第i种基础字符所对应的所述混合高斯模型。7.一种声纹识别方法，其特征在于，所述方法包括：获取未知用户朗读第二字符串所产生的测试语音信号，所述第二字符串包括k个按序排列的字符，所述k个字符包括n种互不相同的基础字符中的全部字符或部分字符，k和n均为正整数；从所述测试语音信号中提取出各个字符所对应的声纹特征序列；根据目标用户的与n种基础字符分别对应的n个混合高斯模型，构建与所述第二字符串对应的隐马尔科夫模型；计算所述声纹特征序列与所述隐马尔科夫模型的相似度分数；当所述相似度分数大于预设阈值时，将所述未知用户识别所述目标用户。8.根据权利要求7所述的方法，其特征在于，所述获取未知用户朗读第二字符串所产生的测试语音信号之前，还包括：基于所述n种基础字符，随机生成所述第二字符串进行显示。9.根据权利要求7所述的方法，其特征在于，所述根据目标用户的与n种基础字符分别对应的n个混合高斯模型，，构建与所述第二字符串对应的隐马尔科夫模型，包括：获取所述第二字符串的第x个字符，x为大于等于1且小于等于k的正整数；从所述目标用户的与n种基础字符分别对应的n个混合高斯模型中，将与所述第x个字符对应的所述混合高斯模型，确定为所述隐马尔科夫模型的第x阶状态模型；将每一阶状态模型的自转概率和跳转概率设置为预设值，构建得到与所述第二字符串对应的所述隐马尔科夫模型。10.根据权利要求7所述的方法，其特征在于，所述计算所述声纹特征序列与所述隐马尔科...

【专利技术属性】
技术研发人员：李为，钱柄桦，金星明，李科，吴富章，吴永坚，黄飞跃，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人