一种基于NMF算法的单传声器语音分离方法技术

技术编号:19024901 阅读:33 留言:0更新日期:2018-09-26 19:27
本发明专利技术提供了一种基于NMF算法的单传声器语音分离方法,该方法针对每个说话人的训练数据得到很多较小的字典矩阵和一个状态序列,以此来同时描述语音信号的谱结构信息和时间连续性;针对不同帧混合语音,相比于传统的算法采用了较大的字典矩阵而言,由于本发明专利技术的算法采用了不同的较小的字典矩阵来描述各帧语音幅度谱,避免了一个说话人的字典描述出另一个说话人的语音信息的现象发生,提高了算法的鲁棒性和语音分离效果。

【技术实现步骤摘要】
一种基于NMF算法的单传声器语音分离方法
本专利技术涉及语音分离
,具体涉及一种基于NMF算法的单传声器语音分离方法。
技术介绍
在很多应用场景中(如自动语音识别,语音通信),语音信号不可避免地受到周围干扰的影响,而在各类干扰中,非目标说话人产生的干扰由于其和目标语音有相似的频谱结构,使其更加难以去除,因此需要对这类干扰噪声专门设计算法进行处理。而且很多听力设备(或仪器)通常只有一个传声器来拾取语音信号,算法需要从一个混合语音中分离出两个说话人语音信号,这是一个欠定问题,进一步增加了问题的解决难度。近年来,多种算法已经被提出来解决单传声器语音分离问题,如基于因子隐Markov模型(factorialhiddenMarkovmodel,FHMM)的分离算法,基于非负矩阵分解(non-negativematrixfactorization,NMF)的语音分离算法以及基于计算听觉场景分析(computationalauditorysceneanalysis,CASA)的分离算法。在这些算法中,基于NMF算法由于分离效果显著,而且运算简单而得到了广泛关注。具体而言,首先针对两个说话人训练数据通过非负矩阵分解得到对应的字典,然后再将这两个说话人混合测试语音分解为字典矩阵和权重矩阵的乘积,最后将每个说话人字典和其对应的权重矩阵相乘重构出分离后的语音信号。然而,这种方法也存在一些问题,如该算法假设语音信号的相邻帧之间是相互独立的,不能对语音信号的时间连续性建模,而且该算法对每个说话人都采用一个较大字典建模,导致一个说话人的字典可能描述出另一个说话人的语音信号,从而难以进行语音分离。
技术实现思路
本专利技术的目的在于,为了克服传统的基于NMF分离算法无法对语音信号时间连续性建模的限制,提出了一种新的基于NMF算法和因子条件随机场(factorialconditionalrandomfield,FCRF)的单传声器语音分离方法,该方法能够同时对语音信号的谱结构信息和时间连续性信息建模,提高了语音分离效果。为实现上述目的,本专利技术提供的一种基于NMF算法的单传声器语音分离方法,该方法具体包括:步骤1)针对两个说话人单独采集各自对应的语音信号;步骤2)对步骤1)中采集到的语音信号进行预处理,然后提取语音信号的幅度谱;步骤3)对每个说话人对应的语音信号幅度谱进行k均值聚类和非负矩阵分解,得到两个说话人对应的字典矩阵和状态序列;;步骤4)通过步骤3)中得到的两个说话人对应的字典矩阵和状态序列训练FCRF模型;步骤5)对两个说话人的混合语音信号进行特征提取,然后将提取的特征送入经过训练的FCRF模型中进行解码,得到两个说话人状态的后验概率;步骤6)利用步骤5)中得到的后验概率和步骤3)中得到的字典矩阵重构两个说话人的语音信号。作为上述技术方案的进一步改进,所述步骤2)具体包括:步骤201)对每一帧语音信号补零到N点,M=2i,i为整数,且i≥8;步骤202)对每一帧的语音信号进行加窗或预加重处理;步骤203)将步骤202)处理后的语音信号通过快速傅里叶变换算法提取语音信号的幅度谱。作为上述技术方案的进一步改进,所述步骤3)具体包括:步骤301)对每个说话人对应的语音信号幅度谱进行k均值聚类,将谱结构相似的语音帧聚成一类,然后对聚类后每一类的幅度谱进行非负矩阵分解,获得各类对应的字典矩阵,非负矩阵分解公式表示为:其中,为属于第g类的语音幅度谱,为分解得到的第g类对应的字典矩阵,表示字典矩阵对应的权重矩阵,g表示类的标记,G为聚类总数;步骤302)将所有不同类别的字典矩阵组合成一个完备的语音字典集,所述的语音字典集表示为:其中,训练语音幅度谱每一帧对应的类的标记组成状态序列。作为上述技术方案的进一步改进,所述步骤4)具体包括:步骤401)对两个说话人的混合语音信号进行两种特征提取,第一种特征为两个说话人混合语音信号的幅度谱,第二种特征为将混合语音信号的幅度谱进行非负矩阵分解之后的权重矩阵;步骤402)将步骤401)中提取得到的两种特征输入到FCRF模型中,令FCRF模型的输出为步骤3)中得到的两个说话人对应的状态序列,在确定FCRF模型输入和输出之后,采用L-BFGS算法估计得到FCRF模型参数。作为上述技术方案的进一步改进,所述步骤5)具体包括:步骤501)对两个说话人的混合语音信号进行两种特征提取,第一种特征为两个说话人混合语音信号的幅度谱,第二种特征为混合语音信号的幅度谱经过非负矩阵分解之后的权重矩阵;步骤502)将步骤501)中提取的两种特征送入经过步骤4)训练后的FCRF模型中,通过LBP算法进行解码,得到每一帧混合语音信号对应的两个说话人状态的联合后验概率p(y1,t,y2,t|x)。作为上述技术方案的进一步改进,所述步骤6)具体包括:步骤601)利用步骤5)中得到的后验概率和步骤3)中得到的两个说话人对应的字典矩阵,重构两个说话人的语音信号:其中,和表示重构得到两个说话人第t帧的语音幅度谱,W1,m表示第一个说话人第m个状态对应的字典矩阵,W2,n表示第二个说话人第n个状态对应的字典矩阵,h1mn,t和h2mn,t表示将第t帧混合语音信号经过非负矩阵分解后得到的两个字典矩阵W1,m和W2,n对应的权重向量,p(y1,t=m,y2,t=n|x)表示当前帧第一个说话人对应状态是m和第二个说话人对应状态是n的联合后验概率;步骤602)通过维纳滤波的形式获得最终分离后的两个说话人的语音幅度谱:其中,表示逐点相乘;步骤603)利用步骤602)中分离得到的两个说话人的语音幅度谱和分别结合混合语音信号相位,通过逆短时傅里叶变换恢复出两个说话人的时域信号。本专利技术的一种基于NMF算法的单传声器语音分离方法优点在于:本专利技术的方法能够同时对语音信号的谱结构信息和时间连续性信息建模,提高了分离效果;通过采用因子条件随机场对时间连续性建模,能够利用更多的观测信息,使语音分离效果更好;针对不同帧混合语音,相比于传统的算法采用了较大的字典矩阵而言,由于本专利技术的算法采用了不同的较小的字典矩阵来描述各帧语音幅度谱,使得一个说话人的字典不太可能描述出另一个说话人的语音信息,提高了算法的鲁棒性。附图说明图1为本专利技术提出的一种基于NMF算法的单传声器语音分离方法流程图。图2a是本专利技术实施例中的单传声器语音分离方法的模型训练操作流程图。图2b是本专利技术实施例中的单传声器语音分离方法的语音信号分离操作流程图。具体实施方式下面结合附图和实施例对本专利技术所述的一种基于NMF算法的单传声器语音分离方法进行详细说明。如图1所示,本专利技术提供的一种基于NMF算法的单传声器语音分离方法,该方法包括:步骤1)针对两个说话人单独采集各自对应的语音信号;步骤2)对步骤1)中采集到的语音信号进行预处理,然后提取语音信号的幅度谱;步骤3)对每个说话人对应的语音信号幅度谱进行k均值聚类和非负矩阵分解,得到两个说话人对应的字典矩阵和状态序列,用来描述对应说话人的频谱结构和时间连续性;步骤4)通过步骤3)中得到的两个说话人对应的字典矩阵和状态序列训练FCRF模型,用来对两个说话人混合语音信号的时间卷积特性建模;步骤5)对两个说话人的混合语音信号进行特征提取,然后将提取的特征送入经过训练的本文档来自技高网
...

【技术保护点】
1.一种基于NMF算法的单传声器语音分离方法,其特征在于,包括:步骤1)针对两个说话人单独采集各自对应的语音信号;步骤2)对步骤1)中采集到的语音信号进行预处理,然后提取语音信号的幅度谱;步骤3)对每个说话人对应的语音信号幅度谱进行k均值聚类和非负矩阵分解,得到两个说话人对应的字典矩阵和状态序列;步骤4)通过步骤3)中得到的两个说话人对应的字典矩阵和状态序列训练FCRF模型;步骤5)对两个说话人的混合语音信号进行特征提取,然后将提取的特征送入经过训练的FCRF模型中进行解码,得到两个说话人状态的后验概率;步骤6)利用步骤5)中得到的后验概率和步骤3)中得到的字典矩阵重构两个说话人的语音信号。

【技术特征摘要】
1.一种基于NMF算法的单传声器语音分离方法,其特征在于,包括:步骤1)针对两个说话人单独采集各自对应的语音信号;步骤2)对步骤1)中采集到的语音信号进行预处理,然后提取语音信号的幅度谱;步骤3)对每个说话人对应的语音信号幅度谱进行k均值聚类和非负矩阵分解,得到两个说话人对应的字典矩阵和状态序列;步骤4)通过步骤3)中得到的两个说话人对应的字典矩阵和状态序列训练FCRF模型;步骤5)对两个说话人的混合语音信号进行特征提取,然后将提取的特征送入经过训练的FCRF模型中进行解码,得到两个说话人状态的后验概率;步骤6)利用步骤5)中得到的后验概率和步骤3)中得到的字典矩阵重构两个说话人的语音信号。2.根据权利要求1所述的基于NMF算法的单传声器语音分离方法,其特征在于,所述的步骤2)具体包括:步骤201)对每一帧语音信号补零到N点,N=2i,i为整数,且i≥8;步骤202)对每一帧的语音信号进行加窗或预加重处理;步骤203)将步骤202)处理后的语音信号通过快速傅里叶变换算法提取语音信号的幅度谱。3.根据权利要求1所述的基于NMF算法的单传声器语音分离方法,其特征在于,所述的步骤3)具体包括:步骤301)对每个说话人对应的语音信号幅度谱进行k均值聚类,将谱结构相似的语音帧聚成一类,然后对聚类后每一类的幅度谱进行非负矩阵分解,获得各类对应的字典矩阵,非负矩阵分解公式表示为:其中,为属于第g类的语音幅度谱,为分解得到的第g类对应的字典矩阵,表示字典矩阵对应的权重矩阵,g表示类的标记,G为聚类总数;步骤302)将所有不同类别的字典矩阵组合成一个语音字典集,所述的语音字典集表示为:其中,训练语音幅度谱每一帧对应的类的标记组成状态序列。4.根据权利要求1所述的基于NMF算法的单传声器语音分离方法,其特征在于,所述的步骤4)具体包括:步骤401)对两个说话人的混合语音信号进行两种特征提取...

【专利技术属性】
技术研发人员:李军锋李煦颜永红
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1