语音增强制造技术

技术编号:31664777 阅读:13 留言:0更新日期:2022-01-01 10:04
根据本公开的实现,提出了一种用于语音增强的方案。在该方案中,至少指示输入音频信号在不同频率上随时间变化的强度的目标时频表示被获得。输入音频信号包括语音分量和噪声分量。输入音频信号的频率相关性信息和时间相关性信息基于目标时频表示被确定。目标特征表示基于频率相关性信息、时间相关性信息和目标时频表示被生成。目标特征表示用于区分语音分量和噪声分量。输出音频信号基于目标特征表示和目标时频表示被生成。在输出音频信号中,语音分量相对于噪声分量被增强。以此方式,能够提高语音增强的性能,这有助于获得完全纯净的语音。音。音。

【技术实现步骤摘要】
语音增强

技术介绍

[0001]在语音录制或语音通信中,语音通常会被环境中的噪声干扰。也即,所录制或传输的音频信号将包括语音和噪声两者。语音增强旨在将受噪声干扰的语音恢复为纯净的语音。诸如视频处理、音频处理、视频会议、基于互联网协议的语音传输(VoIP)、语音识别、助听器的许多领域对语音增强技术具有需求。现有的语音增强方法根据其工作的信号域可以分为时间-频率(T-F)域(以下简称为时频域)方法和时域方法。

技术实现思路

[0002]根据本公开的实现,提出了一种用于语音增强的方案。在该方案中,至少指示输入音频信号在不同频率上随时间变化的强度的目标时频表示被获得。输入音频信号包括语音分量和噪声分量。输入音频信号的频率相关性信息和时间相关性信息基于目标时频表示被确定。目标特征表示基于频率相关性信息、时间相关性信息和目标时频表示被生成。目标特征表示用于区分语音分量和噪声分量。输出音频信号基于目标特征表示和目标时频表示被生成。在输出音频信号中,语音分量相对于噪声分量被增强。该方案可以充分利用音频信号在时域和频域上的相关性信息。以此方式,能够提高语音增强的性能,这有助于获得完全纯净的语音。
[0003]提供
技术实现思路
部分是为了以简化的形式来介绍对概念的选择,其在下文的具体实施方式中将被进一步描述。
技术实现思路
部分无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。
附图说明
[0004]图1示出了能够实施本公开的多个实现的计算设备的框图;
[0005]图2示出了根据本公开的实现的用于语音增强的系统的架构图;
[0006]图3示出了根据本公开的一些实现的相关性单元的框图;
[0007]图4示出了根据本公开的一些实现的注意力块的框图;
[0008]图5示出了根据本公开的一些实现的数据流的变化的框图;
[0009]图6示出了根据本公开的一些实现的生成特征表示的框图;以及
[0010]图7示出了根据本公开的实现的用于语音增强的方法的流程图。
[0011]这些附图中,相同或相似参考符号用于表示相同或相似元素。
具体实施方式
[0012]现在将参照若干示例实现来论述本公开。应当理解,论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开,而不是暗示对本公开的范围的任何限制。
[0013]如本文所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解
读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
[0014]如本文所使用的,“神经网络”能够处理输入并且提供相应输出,其通常包括输入层和输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的神经网络通常包括许多隐藏层,从而延长网络的深度。神经网络的各个层按顺序相连,从而前一层的输出被提供作为后一层的输入,其中输入层接收神经网络的输入,而输出层的输出作为神经网络的最终输出。神经网络的每个层包括一个或多个节点(也称为处理节点或神经元),每个节点处理来自上一层的输入。在本文中,术语“神经网络”、“网络”和“神经网络模型”可替换地使用。
[0015]如本文所使用的,“语音增强”指代如下的任务,该任务旨在将受噪声干扰的语音恢复为纯净的语音。“语音增强”可以通过提高语音信号本身的质量、消除或降低噪声信号及其组合来实现。因此,在本文中,诸如“语音相对于噪声被增强”等类似表述可以是指噪声被消除或降低。
[0016]示例环境
[0017]图1示出了能够实施本公开的多个实现的计算设备100的框图。应当理解,图1所示出的计算设备100仅仅是示例性的,而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示,计算设备100包括通用计算设备形式的计算设备100。计算设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。
[0018]在一些实现中,计算设备100可以被实现为具有计算能力的各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任意类型的移动终端、固定终端或便携式终端,包括移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。还可预见到的是,计算设备100能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。
[0019]处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高计算设备100的并行处理能力。处理单元110也可以被称为中央处理单元(CPU)、微处理器、控制器、微控制器。
[0020]计算设备100通常包括多个计算机存储介质。这样的介质可以是计算设备100可访问的任何可以获得的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。存储器120可以包括音频处理模块122,这些程序模块被配置为执行本文所描述的各种实现的功能。音频处理模块122可以由处理单元110访问和运行,以实现相应功能。
[0021]存储设备130可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,其能够用于存储信息和/或数据并且可以在计算设备100内被访问。计算设备100可以进一步包
括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图1中示出,可以提供用于从可拆卸、非易失性磁盘进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中,每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。
[0022]通信单元140实现通过通信介质与另外的计算设备进行通信。附加地,计算设备100的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,计算设备100可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。
[0023]输入设备150可以是一个或多个各种输入设备,例如鼠标、键盘、追踪球、语音输入设备等。输出设备160本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的方法,包括:获得至少指示输入音频信号在不同频率上随时间变化的强度的目标时频表示,所述输入音频信号包括语音分量和噪声分量;基于所述目标时频表示,确定所述输入音频信号的频率相关性信息和时间相关性信息;基于所述频率相关性信息、所述时间相关性信息和所述目标时频表示,生成用于区分所述语音分量和所述噪声分量的目标特征表示;以及基于所述目标特征表示和所述目标时频表示,生成输出音频信号,在所述输出音频信号中,所述语音分量相对于所述噪声分量被增强。2.根据权利要求1所述的方法,其中生成所述目标特征表示包括:基于所述频率相关性信息、所述时间相关性信息和经卷积的所述目标时频表示,生成用于区分所述语音分量和所述噪声分量的中间特征表示;基于所述中间特征表示,更新所述频率相关性信息;以及基于所述中间特征表示和经更新的所述频率相关性信息,确定所述目标特征表示。3.根据权利要求1所述的方法,其中生成所述目标特征表示包括:基于所述频率相关性信息、所述时间相关性信息和经卷积的所述目标时频表示,生成用于区分所述语音分量和所述噪声分量的中间特征表示;基于所述中间特征表示,更新所述频率相关性信息和所述时间相关性信息;以及基于所述中间特征表示、经更新的所述频率相关性信息和经更新的所述时间相关性信息,确定所述目标特征表示。4.根据权利要求1所述的方法,其中获得所述目标时频表示包括:获得在所述输入音频信号发生之前的已处理音频信号的第一时频表示,所述第一时频表示指示所述已处理音频信号在所述不同频率上随时间变化的强度;确定所述输入音频信号的第二时频表示,所述第二时频表示指示所述输入音频信号在所述不同频率上随时间变化的强度;以及将所述第一时频表示和所述第二时频表示组合成所述目标时频表示。5.根据权利要求4所述的方法,其中生成所述目标特征表示包括:确定所述时间相关性信息中与所述第二时频表示相关联的第一部分信息;确定所述频率相关性信息中与所述第二时频表示相关联的第二部分信息;以及基于所述第一部分信息、所述第二部分信息和所述目标时频表示,确定所述目标特征表示。6.根据权利要求1所述的方法,其中所述目标时频表示与频域上的多个频段和时域上的多个时段相关联,并且确定所述频率相关性信息和所述时间相关性信息包括:通过处理所述时频表示,获得频域特征表示和时域特征表示,所述频域特征表示包括在所述多个时段中的一个时段内在所述多个频段中的多个特征,所述时域特征表示包括在所述多个频段中的一个频段上在所述多个时段内的多个特征;基于所述频域特征表示和频域加权信息,确定所述频率相关性信息,所述频域加权信息指示参考音频信号在所述多个频段间的相关程度;以及基于所述时域特征表示和时域加权信息,确定所述时间相关性信息,所述时域加权信
息指示参考音频信号在所述多个时段间的相关程度。7.根据权利要求6所述的方法,其中所述频域加权信息和所述时域加权信息基于包括参考语音信号和参考噪声信号的所述参考音频信号而确定。8.根据权利要求1所述的方法,其中生成所述输出音频信号包括:通过将基于所述目标特征表示而生成的掩码应用于所述目标时频表示的至少一部分,确定经掩码的时频表示;以及将所述经掩码的时频表示转换为所述输出音频信号。9.根据权利要求8所述的方法,其中将所述经掩码的时频表示转换为所述输出音频信号包括:通过将所述经掩码的时频表示应用于经训练的解码器,来将所述经掩码的时频表示转换为所述输出音频信号,其中所述经训练的解码器被配置为将所述不同频率上随时间变化的音频信号强度转换成随时间变化的波形。10.一种电子设备,包括:处理单元;以及存储器,耦合至所述处理单元并且包含存储于其上的指令,所述指令在由所述处理单元执行时,使得所述设备执行动作,所述动作包括:获得至少指示输入音频信号在不同频率上随时间变化的强度的目标时频表示,所述输入音频信号包括语音分量和噪声分量;基于所述目标时频表示,确定所述输入音频信号的频率相关性信息和时间相关性信息;基于所述频率相关性信息、所述时间相关性信息和所述目标时频表示,生成用于区分所述语音分量和所述噪声分量的目标特征表示;以及基于所述目标特征表示和所述目标时频表示,生成输出音频信号,在所述输出音频信号中,所述语...

【专利技术属性】
技术研发人员:汤传新赵之源罗翀曾文军
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1