一种欠定语音盲源分离方法及装置制造方法及图纸

技术编号:22724270 阅读:22 留言:0更新日期:2019-12-04 06:20
本发明专利技术公开了一种欠定语音盲源分离方法包括以下步骤:获取观测信号,对获取的观测信号进行处理,并获取语音源信号稀疏特征;根据获取的语音源信号稀疏特征(由散点图表示出),利用蚁群K均值聚类算法,获得混叠矩阵估计;根据估计的混叠矩阵与处理后的观测信号,使用贪婪稀疏化方法恢复语音源信号。本发明专利技术的一种欠定语音盲源分离方法,使用这种改进两步法可以解决两种不同类型语音信号稀疏表示下的欠定盲源分离问题,并且适用于两个以上观测信号数量的源信号恢复。

A method and device for blind source separation of underdetermined speech

The invention discloses a method of underdetermined speech blind source separation, which comprises the following steps: acquiring observation signal, processing the acquired observation signal, and acquiring the sparse feature of speech source signal; according to the sparse feature of acquired speech source signal (represented by scatter diagram), using ant colony K-means clustering algorithm to obtain the estimation of aliasing matrix; according to the estimated aliasing matrix and the processed viewpoint The greedy sparse method is used to recover the speech source signal. An underdetermined speech blind source separation method of the invention can solve the problem of underdetermined blind source separation under sparse representation of two different types of speech signals by using the improved two-step method, and is suitable for source signal recovery with more than two observation signals.

【技术实现步骤摘要】
一种欠定语音盲源分离方法及装置
本专利技术涉及语音信号处理领域,尤其涉及一种欠定语音盲源分离方法及装置。
技术介绍
在实际生活中,个人常常处于同时包含多个声源如交谈声、音乐声、以及其他背景噪声的环境中,人脑可以在这种复杂混合语音环境中辨别出来自不同声源的语音。随着人工智能语音技术的发展,如何使用计算机代替人脑实现混合语音信号的智能盲源分离已成为近年来广大学者的研究热点。值得注意的是,在语音信号处理应用中,某一空间中通常存在的声源种类以及未知噪声种类繁多,而负责接收语音信号的传感器数量通常是有限的,导致接收到的语音信号数量少于声源信号数量。此时语音盲源分离中存在欠定问题,普通的盲源分离方法不再适用。因此,需要设计一种解决欠定模型下的语音盲源分离问题的方法。对于欠定盲源分离问题,混叠矩阵是不可逆的,因此无法简单地对混叠矩阵求逆来求解源信号。为了解决欠定盲源分离问题,其源信号应该是稀疏的,所以首先需要保证源信号的稀疏性,采用稀疏分量分析(SparseComponentAnalysis,SCA)的方法来求解稀疏解。现有解决欠定盲源分离问题的主要研究方法是利用稀疏分量分析的两步法,主要分为估计混叠矩阵阶段和重构源信号阶段。在绝大多数情况下,语音信号在时域中无法满足稀疏要求,所以在估计混叠矩阵之前,需要将源信号转化为变换域中的稀疏信号。考虑到语音信号在频域中具有稀疏特性,通常采用时频变化法获得语音信号的稀疏特征。在实际情况下,部分语音信号在长时间内保持了在一个较窄的频域内,会在整个较长的观测时间段内具有稀疏特点,此时可以利用FFT使语音信号在频域中满足稀疏条件,从而获取其稀疏特征。而大部分语音信号由于其时变特性只是在短时间内具有频域的稀疏性,如果对此信号仅使用FFT,依然无法使语音信号在频域中满足稀疏条件,因此本文提出使用短时傅里叶变换法稀疏特征获取方法对观测信号进行处理,使语音信号满足稀疏条件。对于一般的稀疏分量分析两步法,在第一步中通常采用势函数法、K均值法(K-means)、模糊K均值法、霍夫变换法等聚类方法。本文为了增强聚类性能,提高恢复精度,设计一种改进蚁群算法的K均值聚类算法。在第二步中,目前的常用方法为最短路径法,平滑L0范数(SL0)法等。然而,最短路径法需要讨论混叠矩阵中各列之间的角度关系,由于处理两维以上向量角度复杂的原因,存在该方法仅适用于只有两路观测信号的问题,并且该方法对源信号稀疏性要求比较高。平滑L0范数方法在混叠矩阵列向量处于特定分布范围的情况下恢复效果较差。并且这两种方法复杂度高,无法保证得到的信号是对源信号的最佳逼近。
技术实现思路
有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是针对无法保证得到的信号是对源信号的最佳逼近,现有技术的方法复杂程度高,考虑到语音信号在频域内具有稀疏特性,使用一种贪婪最优化思想逼近稀疏最优解,实现了对语音源信号的恢复重构。使用这种改进两步法可以解决两种不同类型语音信号稀疏表示下的欠定盲源分离问题,并且适用于两个以上观测信号数量的源信号恢复。为实现上述目的,本专利技术提供了一种欠定语音盲源分离方法包括以下步骤:获取观测信号,对获取的观测信号进行处理,并获取语音源信号稀疏特征;根据获取的语音源信号稀疏特征(由散点图表示出),利用蚁群K均值聚类算法,获得混叠矩阵估计;根据估计的混叠矩阵与处理后的观测信号,使用贪婪稀疏化方法恢复语音源信号。进一步地,获取观测信号,对获取的观测信号进行处理,并获取语音源信号稀疏特征,具体包括:使用不同的稀疏特征获取方法对所述观测信号进行处理,获取语音源信号的稀疏特征。进一步地,根据获取的语音源信号稀疏特征(由散点图表示出),利用蚁群K均值聚类算法,获得混叠矩阵估计,具体包括:输入获取稀疏特征后的观测信号X;清除X在原点附近重叠的数据点和噪声点得到剩余数据X',降低计算复杂度;剩余数据点进行尺度归一化处理将位于三、四象限的数据点中心对称至一、二象限,得到预处理数据Y;求出每个观测数据点到其他数据点的欧式距离;计算初始信息素矩阵,求出初始聚类中心C0;计算各个数据点到初始聚类中心C0的欧式距离;聚类过程中,蚂蚁(数据点)根据转移概率合并至一个初始聚类中心,形成数据集合Cg;合并数据集合,求出聚类中心形成混叠矩阵A。进一步地,根据估计的混叠矩阵与处理后的观测信号,使用贪婪稀疏化方法恢复语音源信号,具体包括:输入:获取稀疏特征后的观测信号X,迭代次数t;输出:源信号S的稀疏逼近第1步:将残差初始化为观测信号res=X,增量矩阵A_new初始化为第2步:计算残差res和混叠矩阵的列向量Aj的投影(内积值),选择混叠矩阵中对应于投影最大值位置的列向量max(AT*res);第3步:将所选列向量添加到增量矩阵A_new=A_new∪Aj;第4步:使用最小二乘法计算源信号的近似值第5步:更新残差,重复迭代过程直到结束。本专利技术公开了一种欠定语音盲源分离装置,包括获取模块,用于获取观测信号,对获取的观测信号进行处理,并获取语音源信号稀疏特征;混叠矩阵估计模块,用于根据获取的语音源信号稀疏特征(由散点图表示出),利用蚁群K均值聚类算法,获得混叠矩阵估计;恢复模块,用于根据估计的混叠矩阵与处理后的观测信号,使用贪婪稀疏化方法恢复语音源信号。进一步地,获取模块具体包括:获取单元,使用不同的稀疏特征获取方法对所述观测信号进行处理,获取语音源信号的稀疏特征。进一步地,混叠矩阵估计模块具体包括:输入单元,用于输入获取稀疏特征后的观测信号X;清除单元,用于清除X在原点附近重叠的数据点和噪声点得到剩余数据X',降低计算复杂度;归一化处理单元,用于剩余数据点进行尺度归一化处理预处理单元,用于将位于三、四象限的数据点中心对称至一、二象限,得到预处理数据Y;第一计算单元,用于求出每个观测数据点到其他数据点的欧式距离;第二计算单元,用于计算初始信息素矩阵,求出初始聚类中心C0;第三计算单元,用于计算各个数据点到初始聚类中心C0的欧式距离;聚类单元,用于聚类过程中,蚂蚁(数据点)根据转移概率合并至一个初始聚类中心,形成数据集合Cg;合并单元,用于合并数据集合,求出聚类中心形成混叠矩阵A。进一步地,恢复模块具体包括:输入单元用于,获取稀疏特征后的观测信号X,迭代次数t;输出单元,用于源信号S的稀疏逼近初始化单元,用于将残差初始化为观测信号res=X,增量矩阵A_new初始化为投影单元,用于计算残差res和混叠矩阵的列向量Aj的投影(内积值),选择混叠矩阵中对应于投影最大值位置的列向量max(AT*res);添加单元,用于将所选列向量添加到增量矩阵A_new=A_new∪Aj;计算源信号单元,用于使用最小二乘法计算本文档来自技高网
...

【技术保护点】
1.一种欠定语音盲源分离方法,其特征在于,包括以下步骤:/n获取观测信号,对获取的观测信号进行处理,并获取语音源信号稀疏特征;/n根据获取的语音源信号稀疏特征(由散点图表示出),利用蚁群K均值聚类算法,获得混叠矩阵估计;/n根据估计的混叠矩阵与处理后的观测信号,使用贪婪稀疏化方法恢复语音源信号。/n

【技术特征摘要】
1.一种欠定语音盲源分离方法,其特征在于,包括以下步骤:
获取观测信号,对获取的观测信号进行处理,并获取语音源信号稀疏特征;
根据获取的语音源信号稀疏特征(由散点图表示出),利用蚁群K均值聚类算法,获得混叠矩阵估计;
根据估计的混叠矩阵与处理后的观测信号,使用贪婪稀疏化方法恢复语音源信号。


2.如权利要求1所述的一种欠定语音盲源分离方法,其特征在于,获取观测信号,对获取的观测信号进行处理,并获取语音源信号稀疏特征,具体包括:
使用不同的稀疏特征获取方法对所述观测信号进行处理,获取语音源信号的稀疏特征。


3.如权利要求1所述的一种欠定语音盲源分离方法,其特征在于,根据获取的语音源信号稀疏特征(由散点图表示出),利用蚁群K均值聚类算法,获得混叠矩阵估计,具体包括:
输入获取稀疏特征后的观测信号X;
清除X在原点附近重叠的数据点和噪声点得到剩余数据X',降低计算复杂度;
剩余数据点进行尺度归一化处理
将位于三、四象限的数据点中心对称至一、二象限,得到预处理数据Y;
求出每个观测数据点到其他数据点的欧式距离;
计算初始信息素矩阵,求出初始聚类中心C0;
计算各个数据点到初始聚类中心C0的欧式距离;
聚类过程中,蚂蚁(数据点)根据转移概率合并至一个初始聚类中心,形成数据集合Cg;
合并数据集合,求出聚类中心形成混叠矩阵A。


4.如权利要求1所述的一种欠定语音盲源分离方法,其特征在于,根据估计的混叠矩阵与处理后的观测信号,使用贪婪稀疏化方法恢复语音源信号,具体包括:
输入:获取稀疏特征后的观测信号X,估计的混叠矩阵A,迭代次数t;
输出:源信号S的稀疏逼近
第1步:将残差初始化为观测信号res=X,增量矩阵A_new初始化为
第2步:计算残差res和混叠矩阵的列向量Aj的投影(内积值),选择混叠矩阵中对应于投影最大值位置的列向量max(AT*res);
第3步:将所选列向量添加到增量矩阵A_new=A_new∪Aj;
第4步:使用最小二乘法计算源信号的近似值
第5步:更新残差,重复迭代过程直到结束。


5.一种欠定语音盲源分离装置,其特征在于,包括
获取模块,用于获取观测信号,对获取的观测信号进行处理,并获取语音源信号稀疏特征;
混叠矩阵估计模块,用于根据获取的语音源信号稀疏特征...

【专利技术属性】
技术研发人员:魏爽杨璟安徐朋龙艳花杨春夏张巧珍
申请(专利权)人:上海师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1