一种对混合语音中说话人的识别方法及装置制造方法及图纸

技术编号:26036765 阅读:48 留言:0更新日期:2020-10-23 21:15
本申请公开了一种对混合语音中说话人的识别方法及装置,方法包括:获取待测混合语音信号;判断待测混合语音信号中的说话人人数;由说话人人数对待测混合语音信号进行分离,分离后的语音信号与说话人人数相对应;提取分离后的语音信号的声纹特征向量;根据预置第一公式计算声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分,得到识别结果。本申请解决了混杂语音对识别目标说话人的干扰,难以保证辨别准确率的技术问题。

【技术实现步骤摘要】
一种对混合语音中说话人的识别方法及装置
本申请涉及语音识别
,尤其涉及一种对混合语音中说话人的识别方法及装置。
技术介绍
声纹识别技术是信息科学和人工智能的重要组成部分,分为说话人确认技术与说话人辨认技术两个方面,通常理解的都是说话人辨认技术,常常应用于刑侦破案、罪犯跟踪、国防监听、个性化应用等等,说话人确认技术常常应用于证券交易、银行交易、公安取证、个人电脑声控锁、汽车声控锁、身份证、信用卡的识别等。当前主要的识别方法包括矢量量化技术、隐马尔可夫模型、动态时间规整法、人工神经网络和高斯混合模型等。其中高斯混合模型已经在声纹识别领域得到了广泛应用,但在现实应用场景往往比较复杂,难以录取到纯净的语音信息。ICA是基于鸡尾酒会问题模型所提出来的一种解决未知源信号的混合信号分离方法,也可说ICA是解决盲源分离(BlindSourcesSeparation,简称BSS)问题的一种可行方法。ICA在语音信号的接收过程中往往可能不仅仅是指令信号,还包括其他噪声信号,那么声控计算机所接收的信号就是可观测的混合信号,为了获得指令信号,就需要对可观测的混合信号进行分离。快速固定点算法(FastICA)作为ICA算法中最常用的算法,自1997年被提出来后,受到广泛的关注,该算法正是因为有比较快的收敛速度而被命名为FastICA算法。但是由于应用场景的不同,使用通用的声纹识别系统会对对于特定情况下的识别效果不够理想。
技术实现思路
本申请提供了一种对混合语音中说话人的识别方法及装置,解决混杂语音对识别目标说话人的干扰,难以保证辨别准确率的技术问题。有鉴于此,本申请第一方面提供了一种对混合语音中说话人的识别方法,所述方法包括:获取待测混合语音信号;判断所述待测混合语音信号中的说话人人数;由所述说话人人数对所述待测混合语音信号进行分离,分离后的语音信号与所述说话人人数相对应;提取所述分离后的语音信号的声纹特征向量;根据预置第一公式计算所述声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分,得到识别结果。可选的,所述在所述计算所述声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分,得到识别结果,之前还包括:采用多种语音样本训练GMM-UBM声纹模型,并将所述语音样本对应的声纹模型保存至所述声纹模型库。可选的,所述采用多种语音样本训练GMM-UBM声纹模型,并将所述语音样本对应的声纹模型保存至所述声纹模型库,具体包括:提取多种所述语音样本的MFCC特征向量;将所述MFCC特征向量训练所述GMM-UBM声纹模型,并将所述语音样本对应的GMM声纹模型保存至所述声纹模型库。可选的,所述提取多种所述语音样本的MFCC特征向量,将所述MFCC特征向量训练所述GMM-UBM声纹模型,并将所述语音样本对应的GMM声纹模型保存至所述声纹模型库,具体包括:预处理多种所述语音样本;将预处理后的所述语音样本输入至MEL滤波器组,输出的对数能量经过离散余弦变换后得到MFCC特征向量;利用EM算法将所述MFCC特征向量训练全局背景模型UBM;在所述背景模板UBM的基础上,利用MAP算法通过目标说话人的语音样本调整所述背景模板UBM的参数,得到所述目标说话人的所述GMM声纹模型,并将所述GMM声纹模型保存至所述声纹模型库。可选的,所述由所述说话人人数对所述待测混合语音信号进行分离,具体包括:采用FastICA算法对所述待测混合语音信号进行分离。可选的,所述预置第一公式计算具体为:S(Y)=logP(Y|λGMM)-logP(Y|λUBM)式中,λUBM是训练好的UBM的模型参数,P(Y|λUBM)表示UBM模型中测试所述声纹特征向量Y的似然得分;P(Y|λGMM)表示测试所述声纹特征向量Y在所述声纹模型库中的所述声纹模板下的似然得分,得分最大的即为识别结果。本申请第二方面提供一种对混合语音中说话人的识别装置,所述装置包括:待测语音获取单元,用于获取待测混合语音信号;判断单元,用于判断所述待测混合语音信号中的说话人人数;语音分离单元,用于由所述说话人人数对所述待测混合语音信号进行分离,分离后的语音信号与所述说话人人数相对应;第一特征提取单元,用于提取所述分离后的语音信号的声纹特征向量;计算单元,用于根据预置第一公式计算所述声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分,得到识别结果。可选的,还包括:第一模型训练单元,用于采用多种语音样本训练GMM-UBM声纹模型,并将所述语音样本对应的声纹模型保存至所述声纹模型库。可选的,所述第一模型训练单元具体包括:第二特征提取单元,用于提取多种所述语音样本的MFCC特征向量;第二模型训练单元,用于将所述MFCC特征向量训练所述GMM-UBM声纹模型,并将所述语音样本对应的GMM声纹模型保存至所述声纹模型库。可选的,所述第一模型训练单元具体包括:预处理单元,用于预处理多种所述语音样本;第三特征提取单元,用于将预处理后的所述语音样本输入至MEL滤波器组,输出的对数能量经过离散余弦变换后得到MFCC特征向量;第三模型训练单元,用于利用EM算法将所述MFCC特征向量训练全局背景模型UBM;第四模型训练单元,用于在所述背景模板UBM的基础上,利用MAP算法通过目标说话人的语音样本调整所述背景模板UBM的参数,得到所述目标说话人的所述GMM声纹模型,并将所述GMM声纹模型保存至所述声纹模型库。从以上技术方案可以看出,本申请具有以下优点:本申请中,提供了一种对混合语音中说话人的识别方法,包括:获取待测混合语音信号;判断待测混合语音信号中的说话人人数;由说话人人数对待测混合语音信号进行分离,分离后的语音信号与说话人人数相对应;提取分离后的语音信号的声纹特征向量;根据预置第一公式计算声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分,得到识别结果。本申请首先判断采集的语音信号中说话人的人数,然后对采集的音频信号进行分离,从而解决混杂语音对识别目标说话人的干扰,保证有较高的辨别准确率;对分离后的语音信号依次提取声纹特征向量,计算分离后的语音信号的声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分,对得分进行判断,从而得到识别结果,解决了混杂语音对识别目标说话人的干扰,难以保证辨别准确率的技术问题。附图说明图1为本申请一种对混合语音中说话人的识别方法的一个实施例的方法流程图;图2为本申请一种对混合语音中说话人的识别方法的另一个实施例的方法流程图;图3为本申请一种对混合语音中说话人的识别装置的一个实施例的装置结构图;图4为本专利技术实施例中训练GMM-UBM声纹模型的示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实本文档来自技高网
...

【技术保护点】
1.一种对混合语音中说话人的识别方法,其特征在于,包括:/n获取待测混合语音信号;/n判断所述待测混合语音信号中的说话人人数;/n由所述说话人人数对所述待测混合语音信号进行分离,分离后的语音信号与所述说话人人数相对应;/n提取所述分离后的语音信号的声纹特征向量;/n根据预置第一公式计算所述声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分,得到识别结果。/n

【技术特征摘要】
1.一种对混合语音中说话人的识别方法,其特征在于,包括:
获取待测混合语音信号;
判断所述待测混合语音信号中的说话人人数;
由所述说话人人数对所述待测混合语音信号进行分离,分离后的语音信号与所述说话人人数相对应;
提取所述分离后的语音信号的声纹特征向量;
根据预置第一公式计算所述声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分,得到识别结果。


2.根据权利要求1所述的对混合语音中说话人的识别方法,其特征在于,所述在所述计算所述声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分,得到识别结果,之前还包括:
采用多种语音样本训练GMM-UBM声纹模型,并将所述语音样本对应的声纹模型保存至所述声纹模型库。


3.根据权利要求2所述的对混合语音中说话人的识别方法,其特征在于,所述采用多种语音样本训练GMM-UBM声纹模型,并将所述语音样本对应的声纹模型保存至所述声纹模型库,具体包括:
提取多种所述语音样本的MFCC特征向量;
将所述MFCC特征向量训练所述GMM-UBM声纹模型,并将所述语音样本对应的GMM声纹模型保存至所述声纹模型库。


4.根据权利要求3所述的对混合语音中说话人的识别方法,其特征在于,所述提取多种所述语音样本的MFCC特征向量,将所述MFCC特征向量训练所述GMM-UBM声纹模型,并将所述语音样本对应的GMM声纹模型保存至所述声纹模型库,具体包括:
预处理多种所述语音样本;
将预处理后的所述语音样本输入至MEL滤波器组,输出的对数能量经过离散余弦变换后得到MFCC特征向量;
利用EM算法将所述MFCC特征向量训练全局背景模型UBM;
在所述背景模板UBM的基础上,利用MAP算法通过目标说话人的语音样本调整所述背景模板UBM的参数,得到所述目标说话人的所述GMM声纹模型,并将所述GMM声纹模型保存至所述声纹模型库。


5.根据权利要求1所述的对混合语音中说话人的识别方法,其特征在于,所述由所述说话人人数对所述待测混合语音信号进行分离,具体包括:
采用FastICA算法对所述待测混合语音信号进行分离。


6.根据权利要求1所述的对混合语音中说话人的识别方法,其...

【专利技术属性】
技术研发人员:杨祖元叶佳锐袁志勇
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1