一种多人语音混合中目标说话人估计方法及系统技术方案

技术编号:19347831 阅读:43 留言:0更新日期:2018-11-07 15:59
本发明专利技术提供一种多人语音混合中目标说话人估计方法及系统,其中方法包括使用麦克风阵列采集语音信号得到混合信号x,还包括以下步骤:使用FastICA算法进行多人混合语音分离,得到N个分离语音y;提取多个语音特征;进行语音特征归一化;归一化的语音特征加权融合;使用高斯混合模型进行加权参数优化;使用期望最大化算法EM算法进行高斯混合模型估计;输出目标语音。本发明专利技术提出的一种多人语音混合中目标说话人估计方法及系统,解决了多人场景下语音分离的不确定性问题和语音识别率低的问题,对多人混合语音中目标说话人进行概率估计,以便增强目标说话人语音的可懂度和识别率。

Target speaker estimation method and system in multiplayer speech mixing

The invention provides a target speaker estimation method and system in multi-person speech mixing. The method includes using microphone array to collect speech signals to obtain mixed signal x, and also includes the following steps: using FastICA algorithm to separate multi-person mixed speech, obtaining N separated speech y; extracting multiple speech features; Voice feature normalization; normalized speech feature weighted fusion; weighted parameter optimization using Gaussian mixture model; Gaussian mixture model estimation using expectation maximization algorithm EM algorithm; output target speech. The proposed method and system for target speaker estimation in multi-person speech mixing solves the uncertainty of speech separation and low speech recognition rate in multi-person scene, and estimates the probability of target speaker in multi-person speech mixing in order to enhance the intelligibility and recognition rate of target speaker's speech.

【技术实现步骤摘要】
一种多人语音混合中目标说话人估计方法及系统
本专利技术涉及计算机听觉与人工智能的
,特别是一种多人语音混合中目标说话人估计方法及系统。
技术介绍
随着计算机和人工智能技术的快速发展,智能语音技术在人机交互中被广泛应用。如微信、QQ等移动通讯方式都有很多关于语音的应用。在理想的安静条件下,语音识别转文本、声纹识别解锁等智能语音技术给我们带来很多便利。但是在多人说话场景下,识别效果就大大降低,这就需要对多人混合语音进行目标说话人估计,以提高目标说话人语音的可懂度和识别率。针对背景噪声、其他人干扰语音的影响,最常见的方法就是进行语音分离或语音增强处理。然而语音的混合会导致语音分离得到的分离语音具有不确定性。具体来说,语音混合时我们不知道原始语音信号的状态,也不知道语音混合的方式,所以导致分离语音具有不确定性,也就是说,即使分离完也不知道分离的语音是属于谁的语音,不知道哪个语音是目标说话人的语音。所以,必须进行目标说话人估计,对多人混合语音分离得到的语音进行处理,概率估计出哪个分离语音是属于目标说话人的语音,以此提高语音的分离性能、可懂度、识别率。公开号为CN103811020A的专利本文档来自技高网...

【技术保护点】
1.一种多人语音混合中目标说话人估计方法,包括使用麦克风阵列采集语音信号得到混合信号x,其特征在于,还包括以下步骤:步骤1:使用FastICA算法进行多人混合语音分离,得到N个分离语音y;步骤2:提取多个语音特征;步骤3:进行语音特征归一化;步骤4:归一化的语音特征加权融合;步骤5:使用高斯混合模型进行加权参数优化;步骤6:使用期望最大化算法EM算法进行高斯混合模型估计;步骤7:输出目标语音。

【技术特征摘要】
1.一种多人语音混合中目标说话人估计方法,包括使用麦克风阵列采集语音信号得到混合信号x,其特征在于,还包括以下步骤:步骤1:使用FastICA算法进行多人混合语音分离,得到N个分离语音y;步骤2:提取多个语音特征;步骤3:进行语音特征归一化;步骤4:归一化的语音特征加权融合;步骤5:使用高斯混合模型进行加权参数优化;步骤6:使用期望最大化算法EM算法进行高斯混合模型估计;步骤7:输出目标语音。2.如权利要求1所述的多人语音混合中目标说话人估计方法,其特征在于:所述步骤1包括以下子步骤:步骤11:对混合观测信号x中心化去均值,其中,i=1…..n,n为实系数;步骤12:白化处理去混合语音之间的相关性,z=Vx=ED-1/2ETx其中,V为白化矩阵,E为中心化数据的特征向量构成的正交矩阵,D为特征向量对应的特征值构成的对角矩阵,ET为E转置矩阵;步骤13;随机生成初始解混矩阵w0,‖w0‖2=1;步骤14:更新解混矩阵w,其中,g(y)=y×exp(-y2/2),g′为g的导数;步骤15:如果所述解混矩阵w收敛,则wn+1解混矩阵,停止迭代,反之重新执行步骤14继续迭代;步骤16:得到N个分离语音信号y=[y1,y2,……yn],3.如权利要求2所述的多人语音混合中目标说话人估计方法,其特征在于:判断所述解混矩阵w收敛的公式为|wn+1-wn|<ε,其中,ε为收敛门限。4.如权利要求1所述的多人语音混合中目标说...

【专利技术属性】
技术研发人员:刘宏哲张启坤
申请(专利权)人:北京联合大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1