一种基于NMF算法的单传声器语音分离方法技术

技术编号：19024901 阅读：33 留言：0更新日期：2018-09-26 19:27

本发明专利技术提供了一种基于NMF算法的单传声器语音分离方法，该方法针对每个说话人的训练数据得到很多较小的字典矩阵和一个状态序列，以此来同时描述语音信号的谱结构信息和时间连续性；针对不同帧混合语音，相比于传统的算法采用了较大的字典矩阵而言，由于本发明专利技术的算法采用了不同的较小的字典矩阵来描述各帧语音幅度谱，避免了一个说话人的字典描述出另一个说话人的语音信息的现象发生，提高了算法的鲁棒性和语音分离效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于NMF算法的单传声器语音分离方法
本专利技术涉及语音分离
，具体涉及一种基于NMF算法的单传声器语音分离方法。
技术介绍
在很多应用场景中(如自动语音识别，语音通信)，语音信号不可避免地受到周围干扰的影响，而在各类干扰中，非目标说话人产生的干扰由于其和目标语音有相似的频谱结构，使其更加难以去除，因此需要对这类干扰噪声专门设计算法进行处理。而且很多听力设备(或仪器)通常只有一个传声器来拾取语音信号，算法需要从一个混合语音中分离出两个说话人语音信号，这是一个欠定问题，进一步增加了问题的解决难度。近年来，多种算法已经被提出来解决单传声器语音分离问题，如基于因子隐Markov模型(factorialhiddenMarkovmodel,FHMM)的分离算法，基于非负矩阵分解(non-negativematrixfactorization,NMF)的语音分离算法以及基于计算听觉场景分析(computationalauditorysceneanalysis,CASA)的分离算法。在这些算法中，基于NMF算法由于分离效果显著，而且运算简单而得到了广泛关注。具体而言，首先针对两个说话人训练数据通过非负矩阵分解得到对应的字典，然后再将这两个说话人混合测试语音分解为字典矩阵和权重矩阵的乘积，最后将每个说话人字典和其对应的权重矩阵相乘重构出分离后的语音信号。然而，这种方法也存在一些问题，如该算法假设语音信号的相邻帧之间是相互独立的，不能对语音信号的时间连续性建模，而且该算法对每个说话人都采用一个较大字典建模，导致一个说话人的字典可能描述出另一个说话人的语音信号，从而...

【技术保护点】
1.一种基于NMF算法的单传声器语音分离方法，其特征在于，包括：步骤1)针对两个说话人单独采集各自对应的语音信号；步骤2)对步骤1)中采集到的语音信号进行预处理，然后提取语音信号的幅度谱；步骤3)对每个说话人对应的语音信号幅度谱进行k均值聚类和非负矩阵分解，得到两个说话人对应的字典矩阵和状态序列；步骤4)通过步骤3)中得到的两个说话人对应的字典矩阵和状态序列训练FCRF模型；步骤5)对两个说话人的混合语音信号进行特征提取，然后将提取的特征送入经过训练的FCRF模型中进行解码，得到两个说话人状态的后验概率；步骤6)利用步骤5)中得到的后验概率和步骤3)中得到的字典矩阵重构两个说话人的语音信号。

【技术特征摘要】
1.一种基于NMF算法的单传声器语音分离方法，其特征在于，包括：步骤1)针对两个说话人单独采集各自对应的语音信号；步骤2)对步骤1)中采集到的语音信号进行预处理，然后提取语音信号的幅度谱；步骤3)对每个说话人对应的语音信号幅度谱进行k均值聚类和非负矩阵分解，得到两个说话人对应的字典矩阵和状态序列；步骤4)通过步骤3)中得到的两个说话人对应的字典矩阵和状态序列训练FCRF模型；步骤5)对两个说话人的混合语音信号进行特征提取，然后将提取的特征送入经过训练的FCRF模型中进行解码，得到两个说话人状态的后验概率；步骤6)利用步骤5)中得到的后验概率和步骤3)中得到的字典矩阵重构两个说话人的语音信号。2.根据权利要求1所述的基于NMF算法的单传声器语音分离方法，其特征在于，所述的步骤2)具体包括：步骤201)对每一帧语音信号补零到N点，N＝2i,i为整数，且i≥8；步骤202)对每一帧的语音信号进行加窗或预加重处理；步骤203)将步骤202)处理后的语音信号通过快速傅里叶变换算法提取语音信号的幅度谱。3.根据权利要求1所述的基于NMF算法的单传声器语音分离方法，其特征在于，所述的步骤3)具体包括：步骤301)对每个说话人对应的语音信号幅度谱进行k均值聚类，将谱结构相似的语音帧聚成一类，然后对聚类后每一类的幅度谱进行非负矩阵分解，获得各类对应的字典矩阵，非负矩阵分解公式表示为：其中，为属于第g类的语音幅度谱，为分解得到的第g类对应的字典矩阵，表示字典矩阵对应的权重矩阵，g表示类的标记，G为聚类总数；步骤302)将所有不同类别的字典矩阵组合成一个语音字典集，所述的语音字典集表示为：其中，训练语音幅度谱每一帧对应的类的标记组成状态序列。4.根据权利要求1所述的基于NMF算法的单传声器语音分离方法，其特征在于，所述的步骤4)具体包括：步骤401)对两个说话人的混合语音信号进行两种特征提取...

【专利技术属性】
技术研发人员：李军锋，李煦，颜永红，
申请(专利权)人：中国科学院声学研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人