当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于谐波提取的欠定语音盲分离方法及装置制造方法及图纸

技术编号:14880878 阅读:188 留言:0更新日期:2017-03-24 03:33
本发明专利技术公开了一种基于谐波提取的欠定语音盲分离方法及装置,在盲识别阶段,对语音信号进行短时傅立叶变换,利用基于比值法频谱校正的谐波提取技术提取语音信号中的谐波成分,通过相位一致性准则对所述谐波成分做筛选;引入可估计源数的自适应K‑均值聚类法对筛选出的单源成分向量进行聚类,得到混合矩阵的估计;在盲恢复阶段,针对各路源语音信号在时频域中存在重叠的情况,采用子空间投影法对混合矩阵的估计做逆推,实现了高质量的语音信号源恢复。本发明专利技术提高了算法精度;可有效地识别出强单源成分,增强了对噪声的鲁棒性;可在源数目未知的情形下获得混合矩阵及源数目估计;并且本发明专利技术提高了适用范围,同时也可提高语音信号的恢复精度。

【技术实现步骤摘要】

本专利技术涉及数字信号处理
,具体涉及对于语音信号在观测数目小于源数的欠定情形下的盲分离问题。
技术介绍
盲分离是指在混合系统参数和源数目未知的情形下,仅从混合后的信号中恢复源信号的问题。盲分离方法广泛应用于语音信号处理[1]、数字通信[2]、机械故障诊断[3]等领域。根据源信号数目N及混合信号数目M的相对关系,盲分离问题可分为三种情形:超定(M>N)、正定(M=N)、欠定(M<N)。早期盲分离的典型代表是独立分量分析[4](IndependentComponentAnalysis,ICA),然而经典ICA方法仅适用于超定情形。求解欠定盲分离问题多分成两个阶段:盲识别(估计混合矩阵)及盲恢复(恢复源信号)[5]。后者依赖于前者的结果,故盲识别估计性能对整个盲分离性能的影响较大。盲识别方法主要有两类:基于统计量的和基于稀疏表示的。基于统计量的方法借助概率统计方法来估计混合矩阵。如文献[6]将四阶累积协方差扩展到张量域利用分层交替最小二乘算法对其进行非负库克分解以估计混合矩阵。基于稀疏表示的盲识别算法强调源信号在某个变换域内(如短时傅立叶变换ShorttimeFouriertransformation(STFT)[7],魏格纳分布(WVD)[8]等)呈现稀疏分布。由于语音信号在时频域往往呈现稀疏特性,故相比基于统计量的盲识别方法,该类方法更适用于语音信号盲分离。稀疏表示盲识别方法又可进一步细分为两种:基于目标函数最大化的方法及基于单源域识别的方法。基于目标函数最大化的方法(如势函数法[9],EM法[10],非线性投影列屏蔽(NPCM)[11]法)具有较高估计精度,该类方法通过搜索整个时频平面所有输入向量的目标函数的极大值来估计混合向量的方向。基于单源域识别的方法(如WVD能量阈值法[12],TIFROM[13])需筛选出单源域,依据单源域时频区域的混合向量的统计平均值来估计混合矩阵。以上两类基于稀疏表示的方法有如下几方面的缺点:1、基于目标函数最大化的方法为找到全局最优的目标函数值,需考虑覆盖整个时频平面的所有输入向量,且此类方法还涉及多变量(与混合信号数目相等)的优化问题,故此类方法计算复杂度甚高;2、基于单源域识别的方法由于仅仅利用部分时频向量作为输入,计算复杂度大为降低,然而其性能依赖于单源域寻找的准确性,因此其性能大大依赖于单源域判别准则的精确度,这难以实现高精度盲识别。故这两种方法都无法兼顾高估计精度和低计算复杂度。
技术实现思路
本专利技术提供了一种基于谐波提取的欠定语音盲分离方法及装置,本专利技术兼顾了精度和计算复杂度,详见下文描述:一种基于谐波提取的欠定语音盲分离方法,所述欠定语音盲分离方法包括以下步骤:在盲识别阶段,对语音信号进行短时傅立叶变换,利用基于比值法频谱校正的谐波提取技术提取语音信号中的谐波成分,通过相位一致性准则对所述谐波成分做筛选;引入可估计源数的自适应K-均值聚类法对筛选出的单源成分向量进行聚类,得到混合矩阵的估计;在盲恢复阶段,针对各路源语音信号在时频域中存在重叠的情况,采用子空间投影法对混合矩阵的估计做逆推,实现了高质量的语音信号源恢复。其中,所述利用基于比值法频谱校正的谐波提取技术提取语音信号中的谐波成分,通过相位一致性准则对所述谐波成分做筛选的步骤具体为:1)将频率集合进行混合,按照升序排列,得到Q个簇,对簇内频率进行合并,可得到合并后的频率序列;2)找出频率序列中的有效模式;3)将有效模式作为输入,识别有效模式中的单源模式;收集所有时间帧得到的单源模式组成单源域。其中,所述有效模式具体为:满足给定一个小阈值ε>0,对于每个m都存在且仅存在一个下标满足。其中,所述引入可估计源数的自适应K-均值聚类法对筛选出的单源成分向量进行聚类,得到混合矩阵的估计的步骤具体为:根据欠定情形,若K+1次的分类性能指数大于K次的分类性能指数,则源数目即等于观测数目,对应的K-均值聚类中心则为混合矩阵的估计。其中,所述采用子空间投影法对混合矩阵的估计做逆推,实现了高质量的语音信号源恢复的步骤具体为:令最大的重叠源信号数目为ρ=M-1,对于子矩阵求出其对应的正交投影矩阵;获取重叠信号的下标,并求出当前时频点的短时傅立叶谱;求出所有时频点的短时傅立叶谱值后可得N个源信号的STFT谱估计,再对其进行逆短时傅立叶变换,可得到恢复信号。一种基于谐波提取的欠定语音盲分离方法的分离装置,所述分离装置包括:A/D转换器,用于对采集到的多路观测信号x(t)进行采样,获取样本序列,并以并行数字输入的形式进行数据传输;DSP,获取输入的数据,将数据用于内部算法的处理,获取合矩阵的估计,以此实现高质量的语音信号源恢复;输出驱动及其显示模块,用于显示输出结果。本专利技术提出的基于谐波提取的欠定语音盲分离方法及装置,在实际应用中可以产生如下有益效果:1、本专利技术针对语音信号的欠定盲分离系统,可高精度地恢复源信号,其信号恢复质量高于经典的子空间投影法;2、本专利技术的混合矩阵估计的性能对比于经典子空间投影算法有了很大的提升;不需提前知道源信号的数目,适用范围大于经典子空间投影算法;3、本专利技术利用频谱校正法处理观测信号,大大减少了计算复杂度,使得算法核心得以快速实现,大大降低了后续步骤的计算量,提高了时效性;4、本专利技术提出了单源模式的识别方法,进一步降低了计算复杂度,使的识别结果更加稳健,应用范围更广。附图说明图1为两个语音信号的STFT时频谱:图(a)为女声信号的STFT时频谱;图(b)为男声信号的STFT时频谱。图2为本专利技术提供的欠定语音信号盲分离流程图;图3为源信号波形的示意图;图4为混合信号波形的示意图;图5为单源成分筛选散点的示意图:图(a)为所有时频向量的示意图;图(b)为有效模式的示意图;图(c)为单源模式的示意图。图6为本专利技术获取到的恢复信号波形的示意图;图7为本专利技术的硬件实施图;图8为DSP内部程序流图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面对本专利技术实施方式作进一步地详细描述。为了兼顾精度和计算复杂度,本专利技术实施例提出了基于谐波提取的语音信号盲识别方法。该方法在盲识别阶段,对语音信号进行短时傅立叶变换,利用基于比值法频谱校正[14]的谐波提取技术提取语音信号中的谐波成分,通过相位一致性准则对其做筛选,并引入可估计源数的自适应K-均值聚类法对筛选出的单源成分向量进行聚类,即可得到混合矩阵的估计。在盲恢复阶段,针对各路源语音信号在时频面中存在重叠(即不符合W-DO条件[15])的情况,利用高精度的混合矩阵估计结果,采用子空间投影法对混合信号做逆推,实现了高质量的语音信号源恢复。一、盲源分离模型按照混合系统的不同模型,盲分离可分为线性瞬时混合、线性卷积混合、非线性混合。线性瞬时混合是盲信号分离中结构形式最简单,也是最经典的混合模型形式,因此本专利技术实施例采用线性瞬时混合系统模型,其模型为x(t)=As(t)+n(t)(1)其中,s(t)=[s1(t)s2(t)…sN(t)]T为源信号矢量,N为源信号数目;x(t)=[x1(t)x2(t)…xM(t)]T为混合信号矢量,M为混合信号数目;n(t)=[n1(t)n2(t)…nN(t)]T为噪声矢量,A为M×N维混合矩阵。本专利技术实施例本文档来自技高网
...
一种基于谐波提取的欠定语音盲分离方法及装置

【技术保护点】
一种基于谐波提取的欠定语音盲分离方法,其特征在于,所述欠定语音盲分离方法包括以下步骤:在盲识别阶段,对语音信号进行短时傅立叶变换,利用基于比值法频谱校正的谐波提取技术提取语音信号中的谐波成分,通过相位一致性准则对所述谐波成分做筛选;引入可估计源数的自适应K‑均值聚类法对筛选出的单源成分向量进行聚类,得到混合矩阵的估计;在盲恢复阶段,针对各路源语音信号在时频域中存在重叠的情况,采用子空间投影法对混合矩阵的估计做逆推,实现了高质量的语音信号源恢复。

【技术特征摘要】
1.一种基于谐波提取的欠定语音盲分离方法,其特征在于,所述欠定语音盲分离方法包括以下步骤:在盲识别阶段,对语音信号进行短时傅立叶变换,利用基于比值法频谱校正的谐波提取技术提取语音信号中的谐波成分,通过相位一致性准则对所述谐波成分做筛选;引入可估计源数的自适应K-均值聚类法对筛选出的单源成分向量进行聚类,得到混合矩阵的估计;在盲恢复阶段,针对各路源语音信号在时频域中存在重叠的情况,采用子空间投影法对混合矩阵的估计做逆推,实现了高质量的语音信号源恢复。2.根据权利要求1所述的一种基于谐波提取的欠定语音盲分离方法,其特征在于,所述利用基于比值法频谱校正的谐波提取技术提取语音信号中的谐波成分,通过相位一致性准则对所述谐波成分做筛选的步骤具体为:1)将频率集合进行混合,按照升序排列,得到Q个簇,对簇内频率进行合并,可得到合并后的频率序列;2)找出频率序列中的有效模式;3)将有效模式作为输入,识别有效模式中的单源模式;收集所有时间帧得到的单源模式组成单源域。3.根据权利要求1所述的一种基于谐波提取的欠定语音盲分离方法,其特征在于,所述有效模式具体为:满足给定一个小阈值ε>0,对于每个m都存在且仅存在一个下标满足。4.根据权利要求1所述的一种基...

【专利技术属性】
技术研发人员:黄翔东刘明卓徐婧文
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1