【技术实现步骤摘要】
语音增强
技术介绍
[0001]在语音录制或语音通信中,语音通常会被环境中的噪声干扰。也即,所录制或传输的音频信号将包括语音和噪声两者。语音增强旨在将受噪声干扰的语音恢复为纯净的语音。诸如视频处理、音频处理、视频会议、基于互联网协议的语音传输(VoIP)、语音识别、助听器的许多领域对语音增强技术具有需求。现有的语音增强方法根据其工作的信号域可以分为时间-频率(T-F)域(以下简称为时频域)方法和时域方法。
技术实现思路
[0002]根据本公开的实现,提出了一种用于语音增强的方案。在该方案中,至少指示输入音频信号在不同频率上随时间变化的强度的目标时频表示被获得。输入音频信号包括语音分量和噪声分量。输入音频信号的频率相关性信息和时间相关性信息基于目标时频表示被确定。目标特征表示基于频率相关性信息、时间相关性信息和目标时频表示被生成。目标特征表示用于区分语音分量和噪声分量。输出音频信号基于目标特征表示和目标时频表示被生成。在输出音频信号中,语音分量相对于噪声分量被增强。该方案可以充分利用音频信号在时域和频域上的相关性信息。以此方式,能够提高语音增强的性能,这有助于获得完全纯净的语音。
[0003]提供
技术实现思路
部分是为了以简化的形式来介绍对概念的选择,其在下文的具体实施方式中将被进一步描述。
技术实现思路
部分无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。
附图说明
[0004]图1示出了能够实施本公开的多个实现的计算设备的框图;
[0005]图2示出了根据本公开的实现的用 ...
【技术保护点】
【技术特征摘要】
1.一种计算机实现的方法,包括:获得至少指示输入音频信号在不同频率上随时间变化的强度的目标时频表示,所述输入音频信号包括语音分量和噪声分量;基于所述目标时频表示,确定所述输入音频信号的频率相关性信息和时间相关性信息;基于所述频率相关性信息、所述时间相关性信息和所述目标时频表示,生成用于区分所述语音分量和所述噪声分量的目标特征表示;以及基于所述目标特征表示和所述目标时频表示,生成输出音频信号,在所述输出音频信号中,所述语音分量相对于所述噪声分量被增强。2.根据权利要求1所述的方法,其中生成所述目标特征表示包括:基于所述频率相关性信息、所述时间相关性信息和经卷积的所述目标时频表示,生成用于区分所述语音分量和所述噪声分量的中间特征表示;基于所述中间特征表示,更新所述频率相关性信息;以及基于所述中间特征表示和经更新的所述频率相关性信息,确定所述目标特征表示。3.根据权利要求1所述的方法,其中生成所述目标特征表示包括:基于所述频率相关性信息、所述时间相关性信息和经卷积的所述目标时频表示,生成用于区分所述语音分量和所述噪声分量的中间特征表示;基于所述中间特征表示,更新所述频率相关性信息和所述时间相关性信息;以及基于所述中间特征表示、经更新的所述频率相关性信息和经更新的所述时间相关性信息,确定所述目标特征表示。4.根据权利要求1所述的方法,其中获得所述目标时频表示包括:获得在所述输入音频信号发生之前的已处理音频信号的第一时频表示,所述第一时频表示指示所述已处理音频信号在所述不同频率上随时间变化的强度;确定所述输入音频信号的第二时频表示,所述第二时频表示指示所述输入音频信号在所述不同频率上随时间变化的强度;以及将所述第一时频表示和所述第二时频表示组合成所述目标时频表示。5.根据权利要求4所述的方法,其中生成所述目标特征表示包括:确定所述时间相关性信息中与所述第二时频表示相关联的第一部分信息;确定所述频率相关性信息中与所述第二时频表示相关联的第二部分信息;以及基于所述第一部分信息、所述第二部分信息和所述目标时频表示,确定所述目标特征表示。6.根据权利要求1所述的方法,其中所述目标时频表示与频域上的多个频段和时域上的多个时段相关联,并且确定所述频率相关性信息和所述时间相关性信息包括:通过处理所述时频表示,获得频域特征表示和时域特征表示,所述频域特征表示包括在所述多个时段中的一个时段内在所述多个频段中的多个特征,所述时域特征表示包括在所述多个频段中的一个频段上在所述多个时段内的多个特征;基于所述频域特征表示和频域加权信息,确定所述频率相关性信息,所述频域加权信息指示参考音频信号在所述多个频段间的相关程度;以及基于所述时域特征表示和时域加权信息,确定所述时间相关性信息,所述时域加权信
息指示参考音频信号在所述多个时段间的相关程度。7.根据权利要求6所述的方法,其中所述频域加权信息和所述时域加权信息基于包括参考语音信号和参考噪声信号的所述参考音频信号而确定。8.根据权利要求1所述的方法,其中生成所述输出音频信号包括:通过将基于所述目标特征表示而生成的掩码应用于所述目标时频表示的至少一部分,确定经掩码的时频表示;以及将所述经掩码的时频表示转换为所述输出音频信号。9.根据权利要求8所述的方法,其中将所述经掩码的时频表示转换为所述输出音频信号包括:通过将所述经掩码的时频表示应用于经训练的解码器,来将所述经掩码的时频表示转换为所述输出音频信号,其中所述经训练的解码器被配置为将所述不同频率上随时间变化的音频信号强度转换成随时间变化的波形。10.一种电子设备,包括:处理单元;以及存储器,耦合至所述处理单元并且包含存储于其上的指令,所述指令在由所述处理单元执行时,使得所述设备执行动作,所述动作包括:获得至少指示输入音频信号在不同频率上随时间变化的强度的目标时频表示,所述输入音频信号包括语音分量和噪声分量;基于所述目标时频表示,确定所述输入音频信号的频率相关性信息和时间相关性信息;基于所述频率相关性信息、所述时间相关性信息和所述目标时频表示,生成用于区分所述语音分量和所述噪声分量的目标特征表示;以及基于所述目标特征表示和所述目标时频表示,生成输出音频信号,在所述输出音频信号中,所述语...
【专利技术属性】
技术研发人员:汤传新,赵之源,罗翀,曾文军,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。