【技术实现步骤摘要】
一种对混合语音中说话人的识别方法及装置
本申请涉及语音识别
,尤其涉及一种对混合语音中说话人的识别方法及装置。
技术介绍
声纹识别技术是信息科学和人工智能的重要组成部分,分为说话人确认技术与说话人辨认技术两个方面,通常理解的都是说话人辨认技术,常常应用于刑侦破案、罪犯跟踪、国防监听、个性化应用等等,说话人确认技术常常应用于证券交易、银行交易、公安取证、个人电脑声控锁、汽车声控锁、身份证、信用卡的识别等。当前主要的识别方法包括矢量量化技术、隐马尔可夫模型、动态时间规整法、人工神经网络和高斯混合模型等。其中高斯混合模型已经在声纹识别领域得到了广泛应用,但在现实应用场景往往比较复杂,难以录取到纯净的语音信息。ICA是基于鸡尾酒会问题模型所提出来的一种解决未知源信号的混合信号分离方法,也可说ICA是解决盲源分离(BlindSourcesSeparation,简称BSS)问题的一种可行方法。ICA在语音信号的接收过程中往往可能不仅仅是指令信号,还包括其他噪声信号,那么声控计算机所接收的信号就是可观测的混合信号,为了获得指令信号,就需要对可观测的混合信号进行分离。快速固定点算法(FastICA)作为ICA算法中最常用的算法,自1997年被提出来后,受到广泛的关注,该算法正是因为有比较快的收敛速度而被命名为FastICA算法。但是由于应用场景的不同,使用通用的声纹识别系统会对对于特定情况下的识别效果不够理想。
技术实现思路
本申请提供了一种对混合语音中说话人的识别方法及装置,解决混杂语音对 ...
【技术保护点】
1.一种对混合语音中说话人的识别方法,其特征在于,包括:/n获取待测混合语音信号;/n判断所述待测混合语音信号中的说话人人数;/n由所述说话人人数对所述待测混合语音信号进行分离,分离后的语音信号与所述说话人人数相对应;/n提取所述分离后的语音信号的声纹特征向量;/n根据预置第一公式计算所述声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分,得到识别结果。/n
【技术特征摘要】
1.一种对混合语音中说话人的识别方法,其特征在于,包括:
获取待测混合语音信号;
判断所述待测混合语音信号中的说话人人数;
由所述说话人人数对所述待测混合语音信号进行分离,分离后的语音信号与所述说话人人数相对应;
提取所述分离后的语音信号的声纹特征向量;
根据预置第一公式计算所述声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分,得到识别结果。
2.根据权利要求1所述的对混合语音中说话人的识别方法,其特征在于,所述在所述计算所述声纹特征向量与声纹模型库中的声纹模型的对数似然概率得分,得到识别结果,之前还包括:
采用多种语音样本训练GMM-UBM声纹模型,并将所述语音样本对应的声纹模型保存至所述声纹模型库。
3.根据权利要求2所述的对混合语音中说话人的识别方法,其特征在于,所述采用多种语音样本训练GMM-UBM声纹模型,并将所述语音样本对应的声纹模型保存至所述声纹模型库,具体包括:
提取多种所述语音样本的MFCC特征向量;
将所述MFCC特征向量训练所述GMM-UBM声纹模型,并将所述语音样本对应的GMM声纹模型保存至所述声纹模型库。
4.根据权利要求3所述的对混合语音中说话人的识别方法,其特征在于,所述提取多种所述语音样本的MFCC特征向量,将所述MFCC特征向量训练所述GMM-UBM声纹模型,并将所述语音样本对应的GMM声纹模型保存至所述声纹模型库,具体包括:
预处理多种所述语音样本;
将预处理后的所述语音样本输入至MEL滤波器组,输出的对数能量经过离散余弦变换后得到MFCC特征向量;
利用EM算法将所述MFCC特征向量训练全局背景模型UBM;
在所述背景模板UBM的基础上,利用MAP算法通过目标说话人的语音样本调整所述背景模板UBM的参数,得到所述目标说话人的所述GMM声纹模型,并将所述GMM声纹模型保存至所述声纹模型库。
5.根据权利要求1所述的对混合语音中说话人的识别方法,其特征在于,所述由所述说话人人数对所述待测混合语音信号进行分离,具体包括:
采用FastICA算法对所述待测混合语音信号进行分离。
6.根据权利要求1所述的对混合语音中说话人的识别方法,其...
【专利技术属性】
技术研发人员:杨祖元,叶佳锐,袁志勇,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。