声纹模型训练方法、声纹识别方法及装置制造方法及图纸

技术编号:13921763 阅读:181 留言:0更新日期:2016-10-27 22:30
本发明专利技术公开了一种声纹模型训练方法、声纹识别方法及装置,属于语音识别领域。所述方法包括:获取未知用户朗读第二字符串所产生的测试语音信号,第二字符串包括按序排列的若干字符;从测试语音信号中提取出各个字符所对应的声纹特征序列;根据目标用户的与n种基础字符分别对应的n个GMM,构建与第二字符串对应的HMM;计算声纹特征序列与HMM的相似度分数;当相似度分数大于预设阈值时,将未知用户识别目标用户。在本发明专利技术中,目标用户的与各个基础字符分别对应的GMM之间考虑了每种基础字符对应的音频内容在音素层面的差异性,且HMM模型还考虑了各个基础字符对应的音频内容在时域上的相关性,能够极大地提高识别准确率。

【技术实现步骤摘要】

本专利技术实施例涉及语音识别领域,特别涉及一种声纹模型训练方法、声纹识别方法及装置
技术介绍
声纹识别是一种利用声纹特征信息对未知用户进行身份确认的技术。声纹识别可用于门禁系统、支付系统等需要识别用户身份的场景。目前的声纹识别通常采用文本相关识别。声纹识别通常包括两个过程:目标用户的注册过程和未知用户的身份识别过程。在目标用户的注册过程中,系统会提供一个注册字符串供目标用户朗读,该注册字符串通常包括顺序排列的若干个数字和/或字母,系统采集目标用户朗读时产生的注册语音信号,并根据注册语音信号训练得到目标用户的高斯混合模型(Gaussian Mixture Model,GMM);在未知用户的身份识别过程中,将未知用户朗读一个识别字符串时的测试语音信号与目标用户的GMM进行相似度匹配,当相似度大于预设阈值时,将未知用户识别为目标用户。在实现本专利技术实施例的过程中,专利技术人发现现有技术至少存在以下问题:在上述方法中,注册语音信号中与各个基础字符对应的音频内容存在相关性,该注册语音信号包含了丰富的信息用于表征未知用户的特征,但目标用户的GMM是一种文本无关的模型,无法利用注册语音信号中丰富的信息。
技术实现思路
有鉴于此,本专利技术实施例提供了一种声纹模型训练方法、声纹识别方法及装置。所述技术方案如下:第一方面,提供了一种声纹模型训练方法,所述方法包括:采集目标用户朗读第一字符串所产生的注册语音信号,所述第一字符串包括m个按序排列的字符,所述m个字符包括n种互不相同的基础字符,m和n均为正整数且m≥n;从所述注册语音信号中提取出每个字符所对应的声纹特征;以所述目标用户的各个所述字符所对应的所述声纹特征为第一样本数据,对预设的通用背景模型进行训练,得到所述目标用户的混合高斯模型;以所述目标用户的与第i种基础字符所对应的声纹特征为第二样本数据,对所述目标用户的所述混合高斯模型进行训练,得到所述目标用户的与第i种基础字符所对应的所述混合高斯模型;存储所述目标用户的与n种基础字符分别对应的n个混合高斯模型,所述n个混合高斯模型用于构建与第二字符串对应的隐马尔可夫模型。第二方面,提供了一种声纹识别方法,所述方法包括:获取未知用户朗读第二字符串所产生的测试语音信号,所述第二字符串包括k个按序排列的字符,所述k个字符包括n种互不相同的基础字符中的全部字符或部分字符,k和n均为正整数;从所述测试语音信号中提取出各个字符所对应的声纹特征序列;根据目标用户的与n种基础字符分别对应的n个混合高斯模型,构建与所述第二字符串对应的隐马尔科夫模型;计算所述声纹特征序列与所述隐马尔科夫模型的相似度分数;当所述相似度分数大于预设阈值时,将所述未知用户识别所述目标用户。第三方面,提供了一种声纹模型训练装置,所述装置包括:采集模块,用于采集目标用户朗读第一字符串所产生的注册语音信号,所述第一字符串包括m个按序排列的字符,所述m个字符包括n种互不相同的基础字符,m和n均为正整数且m≥n;提取模块,用于从所述注册语音信号中提取出每个字符所对应的声纹特征;第一训练模块,用于以所述目标用户的各个所述字符所对应的所述声纹特征为第一样本数据,对预设的通用背景模型进行训练,得到所述目标用户的混合高斯模型;第二训练模块,用于以所述目标用户的与第i种基础字符所对应的声纹特征为第二样本数据,对所述目标用户的所述混合高斯模型进行训练,得到所述目标用户的与第i种基础字符所对应的所述混合高斯模型;存储模块,用于存储所述目标用户的与n种基础字符分别对应的n个混合高斯模型,所述n个混合高斯模型用于构建与第二字符串对应的隐马尔可夫模型。第四方面,提供了一种声纹识别装置,所述装置包括:获取模块,用于获取未知用户朗读第二字符串所产生的测试语音信号,所述第二字符串包括k个按序排列的字符,所述k个字符包括n种互不相同的基础字符中的全部字符或部分字符,k和n均为正整数;提取模块,用于从所述测试语音信号中提取出各个字符所对应的声纹特征序列;构建模块,用于根据目标用户的与n种基础字符分别对应的n个混合高斯模型,构建与所述第二字符串对应的隐马尔科夫模型;计算模块,用于计算所述声纹特征序列与所述隐马尔科夫模型的相似度分数;识别模块,用于当所述相似度分数大于预设阈值时,将所述未知用户识别所述目标用户。本专利技术实施例提供的声纹模型训练方法带来的有益效果是:通过根据目标用户的各个字符所对应的声纹特征,将UBM训练得到目标用户的GMM,将目标用户的GMM训练得到目标用户的与n种基础字符分别对应的n个GMM,n个GMM用于构建与第二字符串对应的HMM;解决了目标用户的GMM是一个文本无关的模型,无法利用注册语音信号中丰富的信息的问题;达到了对于每个目标用户,训练得到与若干个基础字符分别对应的GMM,各个GMM之间考虑了每种基础字符对应的音频内容在音素层面的差异性,此外该若干个GMM还能够用于构建与识别字符串所对应的HMM模型,HMM模型还考虑了各个基础字符对应的音频内容在时域上的相关性,从而能够极大地增加目标用户的声纹模型在身份识别阶段的识别准确率;本专利技术实施例提供的声纹识别方法带来的有益效果是:通过将测试语音信号的声纹特征序列,与多个基础字符对应的GMM所构建的HMM计算相似度分数,从而对未知用户进行身份识别;解决了目标用户的GMM是一个文本无关的模型,无法利用注册语音信号中丰富的信息的问题;达到了对于每个目标用户,与各个基础字符分别对应的GMM之间考虑了每种基础字符对应的音频内容在音素层面的差异性,且HMM模型还考虑了各个基础字符对应的音频内容在时域上的相关性,从而能够极大地增加目标用户的声纹模型在身份识别阶段的识别准确率。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例提供的基于随机字符串的声纹识别方法的原理示意图;图2是本专利技术一个实施例提供的声纹模型训练方法的流程图;图3是图2所示声纹模型训练方法的原理示意图;图4是本专利技术另一个实施例提供的声纹模型训练方法的流程图;图5是图4所示声纹模型训练方法所涉及的语音信息标注过程的原理示意图;图6是图4所示声纹模型训练方法所涉及的模型训练过程的原理示意图;图7是本专利技术一个实施例提供的声纹识别方法的流程图;图8是本专利技术另一个实施例提供的声纹识别方法的流程图;图9是图8所示声纹识别方法所构建的HMM的模型示意图;图10是本专利技术一个实施例提供的声纹模型训练装置的方框图;图11是本专利技术另一个实施例提供的声纹识别装置的方框图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。本专利技术实施例提供了一种基于随机字符串的声纹识别方法及装置。该基于随机字符串的声纹识别方法及装置可应用于所有需要识别未知用户身份的场景中。用于生成随机字符串的基础字符可以是阿拉伯数字、英文字母或其他语言字符等,每个基础字符通常是一个数字或一个字符,但不排除若干个数字或若干个字符的整体作为一个基础字符的可能性。为了简化描述,本专利技术实本文档来自技高网...

【技术保护点】
一种声纹模型训练方法,其特征在于,所述方法包括:采集目标用户朗读第一字符串所产生的注册语音信号,所述第一字符串包括m个按序排列的字符,所述m个字符包括n种互不相同的基础字符,m和n均为正整数且m≥n;从所述注册语音信号中提取出每个字符所对应的声纹特征;以所述目标用户的各个所述字符所对应的所述声纹特征为第一样本数据,对预设的通用背景模型进行训练,得到所述目标用户的混合高斯模型;以所述目标用户的与第i种基础字符所对应的声纹特征为第二样本数据,对所述目标用户的所述混合高斯模型进行训练,得到所述目标用户的与第i种基础字符所对应的所述混合高斯模型;存储所述目标用户的与n种基础字符分别对应的n个混合高斯模型,所述n个混合高斯模型用于构建与第二字符串对应的隐马尔可夫模型。

【技术特征摘要】
1.一种声纹模型训练方法,其特征在于,所述方法包括:采集目标用户朗读第一字符串所产生的注册语音信号,所述第一字符串包括m个按序排列的字符,所述m个字符包括n种互不相同的基础字符,m和n均为正整数且m≥n;从所述注册语音信号中提取出每个字符所对应的声纹特征;以所述目标用户的各个所述字符所对应的所述声纹特征为第一样本数据,对预设的通用背景模型进行训练,得到所述目标用户的混合高斯模型;以所述目标用户的与第i种基础字符所对应的声纹特征为第二样本数据,对所述目标用户的所述混合高斯模型进行训练,得到所述目标用户的与第i种基础字符所对应的所述混合高斯模型;存储所述目标用户的与n种基础字符分别对应的n个混合高斯模型,所述n个混合高斯模型用于构建与第二字符串对应的隐马尔可夫模型。2.根据权利要求1所述的方法,其特征在于,所述采集目标用户朗读预定字符串所产生的语音信号之前,还包括:随机生成所述第一字符串进行显示。3.根据权利要求1所述的方法,其特征在于,所述从所述注册语音信号中提取出每个字符所对应的声纹特征,包括:识别所述注册语音信号中的有效语音片段和无效语音片段,所述无效语音片段包括静音段和/或噪音段;将所述注册语音信号中的第j个有效语音片段,提取为与所述第一字符串中的第j个字符所对应的语音片段;提取与所述第j个字符所对应的语音片段的声纹特征。4.根据权利要求3所述的方法,其特征在于,所述提取与第j个字符所对应的语音片段的声纹特征,包括:提取与所述第j个字符所对应的语音片段中的梅尔倒谱系数MFCC或感知线性预测系数PLP,作为与所述第j个字符所对应的语音片段的声纹特征。5.根据权利要求1至4任一所述的方法,其特征在于,所述以所述目标用户的各个所述基础字符所对应的所述声纹特征为第一样本数据,对预设的通用背景模型进行训练,得到所述目标用户的混合高斯模型,包括:以所述目标用户的各个所述基础字符所对应的所述声纹特征为第一样本数据,采用最大后验概率算法对预设的通用背景模型中的参数进行调整;将调整参数后的所述通用背景模型确定为所述目标用户的混合高斯模型。6.根据权利要求1至4任一所述的方法,其特征在于,所述以所述目标用户的与第i种基础字符所对应的声纹特征为第二样本数据,对所述目标用户的所述混合高斯模型进行训练,得到所述目标用户的与第i种基础字符所对应的所述混合高斯模型,包括:以所述目标用户的与第i种基础字符所对应的声纹特征为第二样本数据,采用最大后验概率算法对所述目标用户的混合高斯模型中的参数进行调整;将调整参数后的所述目标用户的混合高斯模型,确定为所述目标用户的与第i种基础字符所对应的所述混合高斯模型。7.一种声纹识别方法,其特征在于,所述方法包括:获取未知用户朗读第二字符串所产生的测试语音信号,所述第二字符串包括k个按序排列的字符,所述k个字符包括n种互不相同的基础字符中的全部字符或部分字符,k和n均为正整数;从所述测试语音信号中提取出各个字符所对应的声纹特征序列;根据目标用户的与n种基础字符分别对应的n个混合高斯模型,构建与所述第二字符串对应的隐马尔科夫模型;计算所述声纹特征序列与所述隐马尔科夫模型的相似度分数;当所述相似度分数大于预设阈值时,将所述未知用户识别所述目标用户。8.根据权利要求7所述的方法,其特征在于,所述获取未知用户朗读第二字符串所产生的测试语音信号之前,还包括:基于所述n种基础字符,随机生成所述第二字符串进行显示。9.根据权利要求7所述的方法,其特征在于,所述根据目标用户的与n种基础字符分别对应的n个混合高斯模型,,构建与所述第二字符串对应的隐马尔科夫模型,包括:获取所述第二字符串的第x个字符,x为大于等于1且小于等于k的正整数;从所述目标用户的与n种基础字符分别对应的n个混合高斯模型中,将与所述第x个字符对应的所述混合高斯模型,确定为所述隐马尔科夫模型的第x阶状态模型;将每一阶状态模型的自转概率和跳转概率设置为预设值,构建得到与所述第二字符串对应的所述隐马尔科夫模型。10.根据权利要求7所述的方法,其特征在于,所述计算所述声纹特征序列与所述隐马尔科...

【专利技术属性】
技术研发人员:李为钱柄桦金星明李科吴富章吴永坚黄飞跃
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1