The invention discloses a method of underdetermined speech blind source separation, which comprises the following steps: acquiring observation signal, processing the acquired observation signal, and acquiring the sparse feature of speech source signal; according to the sparse feature of acquired speech source signal (represented by scatter diagram), using ant colony K-means clustering algorithm to obtain the estimation of aliasing matrix; according to the estimated aliasing matrix and the processed viewpoint The greedy sparse method is used to recover the speech source signal. An underdetermined speech blind source separation method of the invention can solve the problem of underdetermined blind source separation under sparse representation of two different types of speech signals by using the improved two-step method, and is suitable for source signal recovery with more than two observation signals.
【技术实现步骤摘要】
一种欠定语音盲源分离方法及装置
本专利技术涉及语音信号处理领域,尤其涉及一种欠定语音盲源分离方法及装置。
技术介绍
在实际生活中,个人常常处于同时包含多个声源如交谈声、音乐声、以及其他背景噪声的环境中,人脑可以在这种复杂混合语音环境中辨别出来自不同声源的语音。随着人工智能语音技术的发展,如何使用计算机代替人脑实现混合语音信号的智能盲源分离已成为近年来广大学者的研究热点。值得注意的是,在语音信号处理应用中,某一空间中通常存在的声源种类以及未知噪声种类繁多,而负责接收语音信号的传感器数量通常是有限的,导致接收到的语音信号数量少于声源信号数量。此时语音盲源分离中存在欠定问题,普通的盲源分离方法不再适用。因此,需要设计一种解决欠定模型下的语音盲源分离问题的方法。对于欠定盲源分离问题,混叠矩阵是不可逆的,因此无法简单地对混叠矩阵求逆来求解源信号。为了解决欠定盲源分离问题,其源信号应该是稀疏的,所以首先需要保证源信号的稀疏性,采用稀疏分量分析(SparseComponentAnalysis,SCA)的方法来求解稀疏解。现有解决欠定盲源分离问题的主要研究方法是利用稀疏分量分析的两步法,主要分为估计混叠矩阵阶段和重构源信号阶段。在绝大多数情况下,语音信号在时域中无法满足稀疏要求,所以在估计混叠矩阵之前,需要将源信号转化为变换域中的稀疏信号。考虑到语音信号在频域中具有稀疏特性,通常采用时频变化法获得语音信号的稀疏特征。在实际情况下,部分语音信号在长时间内保持了在一个较窄的频域内,会在整个较长的观测时间段内具有稀疏特点, ...
【技术保护点】
1.一种欠定语音盲源分离方法,其特征在于,包括以下步骤:/n获取观测信号,对获取的观测信号进行处理,并获取语音源信号稀疏特征;/n根据获取的语音源信号稀疏特征(由散点图表示出),利用蚁群K均值聚类算法,获得混叠矩阵估计;/n根据估计的混叠矩阵与处理后的观测信号,使用贪婪稀疏化方法恢复语音源信号。/n
【技术特征摘要】
1.一种欠定语音盲源分离方法,其特征在于,包括以下步骤:
获取观测信号,对获取的观测信号进行处理,并获取语音源信号稀疏特征;
根据获取的语音源信号稀疏特征(由散点图表示出),利用蚁群K均值聚类算法,获得混叠矩阵估计;
根据估计的混叠矩阵与处理后的观测信号,使用贪婪稀疏化方法恢复语音源信号。
2.如权利要求1所述的一种欠定语音盲源分离方法,其特征在于,获取观测信号,对获取的观测信号进行处理,并获取语音源信号稀疏特征,具体包括:
使用不同的稀疏特征获取方法对所述观测信号进行处理,获取语音源信号的稀疏特征。
3.如权利要求1所述的一种欠定语音盲源分离方法,其特征在于,根据获取的语音源信号稀疏特征(由散点图表示出),利用蚁群K均值聚类算法,获得混叠矩阵估计,具体包括:
输入获取稀疏特征后的观测信号X;
清除X在原点附近重叠的数据点和噪声点得到剩余数据X',降低计算复杂度;
剩余数据点进行尺度归一化处理
将位于三、四象限的数据点中心对称至一、二象限,得到预处理数据Y;
求出每个观测数据点到其他数据点的欧式距离;
计算初始信息素矩阵,求出初始聚类中心C0;
计算各个数据点到初始聚类中心C0的欧式距离;
聚类过程中,蚂蚁(数据点)根据转移概率合并至一个初始聚类中心,形成数据集合Cg;
合并数据集合,求出聚类中心形成混叠矩阵A。
4.如权利要求1所述的一种欠定语音盲源分离方法,其特征在于,根据估计的混叠矩阵与处理后的观测信号,使用贪婪稀疏化方法恢复语音源信号,具体包括:
输入:获取稀疏特征后的观测信号X,估计的混叠矩阵A,迭代次数t;
输出:源信号S的稀疏逼近
第1步:将残差初始化为观测信号res=X,增量矩阵A_new初始化为
第2步:计算残差res和混叠矩阵的列向量Aj的投影(内积值),选择混叠矩阵中对应于投影最大值位置的列向量max(AT*res);
第3步:将所选列向量添加到增量矩阵A_new=A_new∪Aj;
第4步:使用最小二乘法计算源信号的近似值
第5步:更新残差,重复迭代过程直到结束。
5.一种欠定语音盲源分离装置,其特征在于,包括
获取模块,用于获取观测信号,对获取的观测信号进行处理,并获取语音源信号稀疏特征;
混叠矩阵估计模块,用于根据获取的语音源信号稀疏特征...
【专利技术属性】
技术研发人员:魏爽,杨璟安,徐朋,龙艳花,杨春夏,张巧珍,
申请(专利权)人:上海师范大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。