用于将有噪音频信号转换为增强音频信号的方法技术

技术编号:16049320 阅读:26 留言:0更新日期:2017-08-20 09:08
通过首先从环境获取有噪音频信号,方法将该有噪音频信号转换为增强音频信号。通过具有网络参数的增强网络来处理该有噪音频信号,以共同产生幅度掩蔽和相位估计。然后,使用所述幅度掩蔽和相位估计来获得增强音频信号。

【技术实现步骤摘要】
【国外来华专利技术】用于将有噪音频信号转换为增强音频信号的方法
本专利技术涉及处理音频信号,并且更具体地涉及使用该信号的相位来增强有噪音频语音信号。
技术介绍
在语音增强中,目的是获得“增强语音”,其是对有噪语音处理后的版本,在某种意义上更接近真正的“纯净语音”或“目标语音”。应注意,纯净语音被认为仅能在训练期间获得,而不能在系统的真实使用期间获得。对于训练,可以利用近讲麦克风来获得纯净语音,而可以利用同时录音的远场麦克风来获得有噪语音。或者,给定单独的纯净语音信号和噪声信号,可以将所述信号叠加在一起以获得有噪语音信号,其中可以将纯净语音和有噪语音对一起用于训练。语音增强和语音识别可以被认为是不同却相关的问题。良好的语音增强系统当然可以用作语音识别系统的输入模块。反过来,语音识别可能被用于改善语音增强,因为识别包含附加的信息。然而,并不清楚如何共同构建用于增强任务和识别任务两者的多任务循环(recurrent)神经网络系统。在本文中,我们把语音增强当作从“有噪语音”获得“增强语音”的问题。另一方面,术语语音分离是指将“目标语音”从背景信号分离出来,其中,背景信号可以是任何其它非语音音频信号,或者甚至是不感兴趣的其它非目标语音信号。我们所使用的术语语音增强还包括语音分离,因为我们把所有背景信号的组合都视为噪声。在语音分离和语音增强应用中,通常在短时傅里叶变换(STFT)域中进行处理。STFT获得信号的复域频谱-时间(或时间-频率)表示。观测到的有噪信号的STFT可以被写为目标语音信号的STFT和噪声信号的STFT之和。信号的STFT是复数,并且求和是在复域中进行。然而,在常规方法中,相位被忽略,并且假设观测到的信号的STFT的幅度等于目标音频和噪声信号的STFT的幅度之和,这是粗略的假设。因此,现有技术中的焦点已经在给定有噪语音信号作为输入的情况下对“目标语音”的幅度预测上。在从其STFT重建时域增强信号期间,有噪信号的相位被用作增强语音的STFT的估计相位。这一点通常通过声称增强语音的相位的最小均方误差(MMSE)估计是有噪信号的相位来进行证明。
技术实现思路
本专利技术的实施方式提供了一种将有噪语音信号转换为增强语音信号的方法。通过自动语音识别(ASR)系统来处理有噪语音以产生ASR特征。ASR特征与有噪语音频谱特征组合,并利用在训练过程中学习到的网络参数被传递给深度循环神经网络(DRNN),以产生掩蔽,该掩蔽应用到有噪语音以产生增强语音。语音在短时傅立叶变换(STFT)域中处理。虽然存在多种用于从有噪语音计算增强语音的STFT幅度的方法,但我们专注于基于深度循环神经网络(DRNN)的方案。这些方案使用从有噪语音信号的STFT获得的特征作为输入,以在输出获得增强语音信号的STFT的幅度。这些有噪语音信号特征可以是频谱幅度、频谱功率或它们的对数,可以使用从有噪信号的STFT获得的对数梅尔滤波器组特征,或其它类似的频谱-时间特征。在我们的基于循环神经网络的系统中,循环神经网络预测“掩蔽”或“滤波器”,其直接乘以有噪语音信号的STFT,以获得增强信号的STFT。“掩蔽”对于每个时间频率窗具有0到1之间的值,并且理想地是语音幅度除以语音和噪声分量的幅度之和的比。该“理想掩蔽”被称为理想比掩蔽(idealratiomask),其在系统的真实使用期间是未知的,但可在训练期间获得。由于实值掩蔽与有噪信号的STFT相乘,因此增强语音默认最后使用有噪信号的STFT的相位。当我们将掩蔽应用到有噪信号的STFT的幅度部分时,我们称该掩蔽为“幅度掩蔽”,以表示其仅被应用于有噪输入的幅度部分。通过最小化目标函数来执行神经网络训练,该目标函数量化纯净语音目标与通过网络使用“网络参数”获得的增强语音之间的差异。训练程序旨在确定使神经网络的输出和纯净语音目标最接近的网络参数。网络训练通常使用反向传播通过时间(BPTT)算法完成,其需要在每次迭代时计算目标函数关于网络参数的梯度。我们使用深度循环神经网络(DRNN)来执行语音增强。DRNN可以是用于低延迟(在线)应用的长短时记忆(LSTM)网络,或如果延迟不是问题,则可以是双向长短时记忆网络(BLSTM)DRNN。深度循环神经网络也可以是其它现代RNN类型,诸如门控RNN或时钟驱动RNN。在另一实施方式中,在估计过程中考虑音频信号的幅度和相位。相位感知处理涉及几个不同的方面:在所谓的相位敏感信号近似(PSA)技术中,当仅预测目标幅度时,使用目标函数中的相位信息;使用深度循环神经网络、采用能够更好地预测增强信号的幅度和相位两者的适当的目标函数,来预测幅度和相位两者;使用输入的相位作为预测幅度和相位的系统的附加输入;以及在深度循环神经网络中,使用诸如麦克风阵列的多声道音频信号的所有幅度和相位。应注意,该想法适用于其它类型的音频信号的增强。例如,音频信号可以包括其中识别任务是音乐转录的音乐信号,或者其中识别任务可以是将动物声音分类成各种类别的动物声音,以及其中识别任务可以是检测和区分某些制音事件和/或目标的环境声音。附图说明[图1]图1是使用ASR特征将有噪语音信号转换为增强语音信号的方法的流程图;[图2]图2是图1中的方法的训练过程的流程图;[图3]图3是共同语音识别和增强方法的流程图;[图4]图4是通过预测相位信息并利用幅度掩蔽将有噪音频信号转换为增强音频信号的方法的流程图;以及[图5]图5是图4中的方法的训练过程的流程图。具体实施方式图1示出了将有噪语音信号112转换为增强语音信号190的方法。也就是说,该转换增强了有噪语音。本文所描述的所有语音和音频信号可以是由单个或多个麦克风101从环境102获取的单声道或多声道,例如,环境可以具有来自诸如一个或更多个人、动物、乐器等源的音频输入。对于我们的问题,源中的一个是我们的“目标音频”(主要是“目标语音”),音频中的其它源被视为背景。在音频信号是语音的情况下,通过自动语音识别(ASR)系统170来处理有噪语音,以产生ASR特征180,例如以“对齐信息向量”的形式。ASR可以是常规的。利用网络参数140通过深度循环神经网络(DRNN)150来处理与有噪语音的STFT特征组合的ASR特征。可以使用下面描述的训练过程来学习该参数。DRNN产生掩蔽160。然后,在语音估计165期间,将该掩蔽应用到有噪语音以产生增强语音190。如下所述,可以迭代增强和识别步骤。也就是说,在获得增强语音之后,该增强语音可以被用来获得更好的ASR结果,其可以在随后的迭代期间被用作新的输入。迭代可以持续进行直到达到终止条件,例如,预定的迭代次数,或者直到当前增强语音与来自先前迭代的增强语音之间的差小于预定阈值。如本领域已知的,可以在通过总线连接到存储器和输入/输出接口的处理器100中执行该方法。图2示出了训练过程的要素。这里,有噪语音和对应的纯净语音111被存储在数据库110中。确定目标函数(有时称为“成本函数”或“误差函数”)120。该目标函数量化了增强语音与纯净语音之间的差异。通过最小化训练期间的目标函数,网络学习以产生类似于纯净信号的增强信号。目标函数用于执行DRNN训练130以确定网络参数140。图3示出了执行共同识别和增强的方法的要素。这里,共同目标函数320测量纯净语音信号1本文档来自技高网
...
用于将有噪音频信号转换为增强音频信号的方法

【技术保护点】
一种用于将有噪音频信号转换为增强音频信号的方法,所述方法包括以下步骤:从环境获取所述有噪音频信号;通过具有网络参数的增强网络来处理所述有噪音频信号以共同产生幅度掩蔽和相位估计;利用所述幅度掩蔽和所述相位估计来获得所述增强音频信号,其中,上述步骤在处理器中执行。

【技术特征摘要】
【国外来华专利技术】2014.10.21 US 62/066,451;2015.02.12 US 14/620,5261.一种用于将有噪音频信号转换为增强音频信号的方法,所述方法包括以下步骤:从环境获取所述有噪音频信号;通过具有网络参数的增强网络来处理所述有噪音频信号以共同产生幅度掩蔽和相位估计;利用所述幅度掩蔽和所述相位估计来获得所述增强音频信号,其中...

【专利技术属性】
技术研发人员:H·埃尔多安J·赫尔希渡部晋治J·勒鲁克斯
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1