利用受限非负矩阵分解对声学信号去噪制造技术

技术编号:3048219 阅读:278 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及利用受限非负矩阵分解对声学信号去噪。一种对混合信号去噪的方法和系统。对所述混合信号应用受限非负矩阵分解(NMF)。NMF受到去噪模型的限制,其中所述去噪模型包括训练声学信号和训练噪声信号二者的训练基矩阵、以及这些训练基矩阵的权重的统计量。所述应用产生了所述混合信号的所述声学信号的基矩阵的权重。求取所述声学信号的所述基矩阵的所述权重与所述训练声学信号和所述训练噪声信号二者的训练基矩阵的乘积以重构所述声学信号。所述混合信号可以是语音和噪声。

【技术实现步骤摘要】

本专利技术总体上涉及声学信号处理,更具体地涉及从诸如语音的声学 信号中去除附加的噪声。
技术介绍
噪声从诸如语音的声学信号中去除附加的噪声在电话、音频话音记录、以及电子话音通信中有多种应用。噪声广泛存在于城市环境、工厂、飞 机、车辆等中。时变噪声尤其难以去除,该时变噪声更准确地反映了环境中的真实 噪声。通常,由使用静态噪声模型的抑制技术不能实现非平稳噪声的消 除。诸如谱减法和维纳滤波的常规方法常规地使用静态的或缓慢变化的 噪声估计,因此受限于平稳的或准平稳的噪声。非负矩阵分解非负矩阵分解(NMF)最优地求解了下式 V。丽。常规的NMF定义如下。从非负的MXAA矩阵V开始,目标是使得 矩阵V近似为两个非负矩阵W和H的乘积。当矩阵V由WH的乘积近 似地重构时,误差被最小化。这提供了一种将信号V分解为非负矩阵的 凸组合的思路。当信号V是声谱图并且该矩阵是一组谱形(spectral shape)时,通 过将矩阵的不同列与不同的声源关联起来,NMF能够将单通道混合的声 音分离,参见Smaragdis等人于2005年10月6日提交的美国专利申请 20050222840, Method and system for separating multiple .sound sources from monophonic input with non-negative matrix factor deconvolution, 通过引用将其合并于此。当不同声学信号的声谱图足以区分开时,NMF对于将声音分离是有 效的。例如,如果诸如笛子的声源仅生成谐音(harmonic sound),并且 诸如小鼓的另一声源仅生成非谐音(non-harmonic sound),则一个声源的 声谱图区别于另一声源的声谱图。语音语音包括谐音和非谐音。谐音在不同时间可具有不同的基频。语音 可在很宽的频率范围上具有能量。非平稳噪声的频谱可能与语音的频谱 类似。因此,在语音去噪应用中,其中一个声源是语音而另一个声 源是附加噪声,语音模型和噪声模型之间的重叠降低了去噪的性能。因此,期望使得非负矩阵分解适于对具有附加非平稳噪声的语音进 行去噪这一问题。
技术实现思路
本专利技术的实施方式提供了一种用于对混合的声学信号进行去噪的方 法和系统。更具体地说,该方法对语音信号进行去噪。去噪结合了统计 语音模型和噪声模型而使用受限非负矩阵分解(NMF)。附图说明图1是根据本专利技术实施方式的对声学信号进行去噪的方法的流程图2是图1的方法的训练阶段的流程图;以及 图3是图1的方法的去噪阶段的流程图。具体实施例方式图1示出了根据本专利技术实施方式的对混合的声学信号和噪声信号进 行去噪的方法100。该方法包括一次训练200和实时去噪300。一次训练200的输入包括训练声学信号(《)101以及训练噪声信号(O 102。这些训练信号表示要进行去噪的信号的类型,例如,具有非平稳噪声的语音。应当理解的是,通过相应地改变训练信号,该 方法适于对例如音乐的其他类型的声学信号进行去噪。训练的输出是去 噪模型103。该模型可以存储在存储器中以供将来使用。实时去噪的输入包括模型103和混合信号(、te) 104,该混合信号例如是语音和非平稳噪声。去噪的输出是对混合信号的声学(语音)部 分105的估计。在一次训练期间,非负矩阵分解(NMF) 210独立地应用于声学信 号101和噪声信号102以产生模型103。针对声学信号和语音信号,NMF 210分别独立地产生训练基矩阵 (『0 211-212和这些训练基矩阵的权重a/7) 213-214。确定权重213-214 的统计量221-222,即均值和方差。训练语音信号和训练噪声信号的训练 基矩阵211-212、均值和方差221-222形成去噪模型103。在实时去噪期间,将根据本专利技术实施方式的受限非负矩阵分解 (CNMF)应用于混合信号(K^) 104。 CNMF受到模型103的限制。 具体地说,CNMF假设在训练期间获得的先验训练矩阵211精确地表示 混合信号104的声学部分的分布。因此,在CNMF期间,基矩阵固定地 是训练基矩阵211,并且在CNMF 310期间根据模型的先验统计量(均值 和方差)221-222而最优地确定固定训练基矩阵211的权重(//。〃) 302。 随后,通过求取最优权重302和先验基矩阵211的乘积可以重构输出语 音信号105。 训练在图2所示的训练200期间,我们得到大小为/K 的语音声谱图 101,以及大小为w/X^的噪声声谱图F 。,,e 102,其中^是频率单 元(frequency bin)的数量, 是语音帧的数量,并且w是噪声帧的数如现有技术中所公知的,此处描述的声谱图形式的所有信号被数字 化并被采样为多个帧。当我们提及声学信号时,具体是指己知的或可识 别的音频信号,例如语音或音乐。对于本专利技术的目的,并不认为随机噪 声是可识别的声学信号。混合信号104将声学信号与噪声合并。本专利技术的目的是去除这些噪声,使得仅保留可识别的声学部分105。不同的目标函数得到不同形式的NMF。例如,矩阵K和坏7/之间Kullback-Leibler (KL)散度(记为D(Mira))对于声源分离很有效,参见Smaragdis等人的文献。因此,在我们的去噪专利技术的实施方式中,我们优先使用KL散度。推广到使用这些技术的其他目标函数是显而易见的,参见以下文献,即A. Cichocki、 R.Zdunek以及S. Amari等人的Newalgorithms for non-negative matrix factorization in applications to blindsource separation, IEEE International Conference on Acoustics, Speech, andSignal Processing, 2006, vol.5, pp. 621-625,通过引用将其合并于此。在训练期间,我们对语音声谱图101和噪声声谱图102分别应用 NMF 210以生成各自的基矩阵f^^211和『 乙212,以及各自的权重//213和《214。我们分别使D(《』《^《匿)和D(C』《L/C、,)最小化。矩阵 『,a和的大小均为/X6,其中^是代表每个源的基函数的数量。 权重矩阵/^^和H 。,.m的大小分别是aX 和^Xw,并代表训练基矩 阵的时变激活(activation)水平。我们根据经验来确定(220)权重矩阵f/i^和i/,乙的对数值的均值和方差统计量。具体地说,我们确定语音权重的均值/^eW和方差A^^221 ,以及噪声权重的均值^。^和方差a 。,,ew 222。每个均值a是长度为 W的向量,并且每个方差八是 X6矩阵。为了计算方便,我们选择隐含高斯表示。对数域比线性域产生更好 的结果。这与线性域中的高斯表达既允许正值又允许负值是一致的,既 允许正值又允许负值与对矩阵//的非负限制不一致。我们将两组基矩阵211和213连接以形成大小为/X2 的矩阵 『。,,215。该组连接的基矩阵用于表示包含混合了语音和独立噪声的信号。我们还将统计量连接为 连接 的基矩阵211和213以及连接的统计量22本文档来自技高网
...

【技术保护点】
一种对混合信号(104,V↓[mix])进行去噪的方法,其中所述混合信号(104,V↓[mix])包括声学信号(101,V↓[speech]↑[T])和噪声信号(102,V↓[noise]↑[T]),该方法包括以下步骤: 对所述混合信 号(104,V↓[mix])应用受限非负矩阵分解(NMF),其中所述NMF受到去噪模型(103)的限制,其中所述去噪模型(103)包括训练声学信号(101,V↓[speech]↑[T])和训练噪声信号(102,V↓[noise]↑[T])二者的训练基矩阵(211-212,W↑[T])、以及这些训练基矩阵(211-212,W↑[T])的权重(213-214,H↑[T];302,H↓[all])的统计量(221-222),并且其中所述应用产生了所述混合信号(104,V↓[mix])的所述声学信号(101,V↓[speech]↑[T])的基矩阵(211)的权重;以及 求取所述声学信号(101,V↓[speech]↑[T])的所述基矩阵(211)的所述权重(213-214,H↑[T];302,H↓[all])与所 述训练声学信号(101,V↓[speech]↑[T])和所述训练噪声信号(102,V↓[noise]↑[T])二者的所述训练基矩阵(211-212,W↑[T])的乘积,以重构所述声学信号(101,V↓[speech]↑[T])。...

【技术特征摘要】
US 2007-11-19 11/942,0151、一种对混合信号(104,Vmix)进行去噪的方法,其中所述混合信号(104,Vmix)包括声学信号(101,)和噪声信号(102,该方法包括以下步骤对所述混合信号(104,Vmix)应用受限非负矩阵分解(NMF),其中所述NMF受到去噪模型(103)的限制,其中所述去噪模型(103)包括训练声学信号(101,)和训练噪声信号(102,)二者的训练基矩阵(211-212,WT)、以及这些训练基矩阵(211-212,WT)的权重(213-214,HT;302,Hall)的统计量(221-222),并且其中所述应用产生了所述混合信号(104,Vmix)的所述声学信号(101,)的基矩阵(211)的权重;以及求取所述声学信号(101,)的所述基矩阵(211)的所述权重(213-214,HT;302,Hall)与所述训练声学信号(101,)和所述训练噪声信号(102,)二者的所述训练基矩阵(211-212,WT)的乘积,以重构所述声学信号(101,)。2、 根据权利要求1所述的方法,其中所述噪声信号(102, 是非平稳的。3、 根据权利要求1所述的方法,其中所述统计量(221-222)包括 所述训练基矩阵(211-212,『r)的所述权重(213-214,302, //。)的均值(AVed)和方差(A^eee/I221)。4、 根据权利要求1所述的方法,其中所述声学信号(101,《^)是语音。5、 根据权利要求1所述的方法,其中所述去噪是实时进行的。6、 根据权利要求1所述的方法,其中所述去噪模型(103)存储在 存储器中。7、 根据权利要求1所述的方法,其中所有信...

【专利技术属性】
技术研发人员:凯文W威尔森阿贾伊迪瓦卡兰比克沙罗摩克里希纳帕里斯斯马拉格迪斯
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1