用于恢复语音分量的系统和方法技术方案

技术编号:16113105 阅读:35 留言:0更新日期:2017-08-30 06:26
一种用于恢复因噪声降低或噪声消除而失真的音频信号的失真语音分量的方法,该方法包括:确定音频信号中的失真频率区和不失真频率区。失真频率区包括音频信号的存在语音失真的区域。利用模型执行迭代,以完善对失真频率区处的音频信号的预测。所述模型被设置成修改音频信号,并且可以包括利用干净或未损坏的音频信号的频谱包络训练的深度神经网络。在每次迭代之前,将不失真频率区的音频信号恢复至第一次迭代之前音频信号的值;而失真频率区的音频信号在第一次迭代时从零开始完善。当不失真频率区的音频信号的差异满足预定义标准时,迭代结束。

【技术实现步骤摘要】
【国外来华专利技术】用于恢复语音分量的系统和方法相关申请的交叉引用本申请要求保护2014年9月12日提交的美国临时申请No.62/049988的权益。前述申请的主题出于所有目的通过引用而并入于此。
本申请总体上涉及音频处理,并且更具体地,涉及用于恢复噪声被抑制的音频信号的失真语音分量的系统和方法。
技术介绍
在音频处理系统中广泛使用噪声降低以抑制或消除用于发送语音的音频信号中的不希望噪声。然而,在噪声消除和/或抑制之后,与噪声纠缠在一起的语音在噪声降低系统中易于被过度衰减或消除。有一些大脑的模型解释了如何利用经由反馈机制感知地取代输入的内部表述来恢复声音。神经科学已经描述了称为大脑的收敛发散区(CDZ)模型的一个示例性模型,并且尝试解释在人类语音感知中发现的频谱完成和音素恢复现象等。
技术实现思路
提供本
技术实现思路
以通过简化形式介绍选择的概念,其在下面详细描述中进一步描述。本
技术实现思路
不旨在标识所要求保护的主题的关键特征或基本特征,也不是旨在被用作在确定所要求保护的主题的范围的辅助。提供了用于恢复音频信号的失真语音分量的系统和方法。一种示例性方法包括:确定所述音频信号中的失真频率区和不失真频率区。所述失真频率区包括所述音频信号的存在语音失真的区域。该方法包括:利用用于完善对所述失真频率区处的所述音频信号的预测的模型执行一次或更多次迭代。所述模型可被设置成修改所述音频信号。在一些实施方式中,所述音频信号包括通过对包括语音的声学信号进行噪声降低或噪声消除中的至少一种而获取的噪声被抑制的音频信号。所述声学信号在所述失真频率区衰减或消除。在一些实施方式中,所述用于完善对所述失真频率区处的所述音频信号的的预测的模型包括利用干净的音频信号或未损坏的音频信号的频谱包络训练的深度神经网络。所完善的预测可以被用于恢复所述失真频率区中的语音分量。在一些实施方式中,所述失真频率区处的所述音频信号在第一次迭代之前被设置成零。在执行所述迭代中的每一次迭代之前,所述不失真频率区处的所述音频信号在第一次迭代之前被恢复至初始值。在一些实施方式中,该方法还包括:比较每一次迭代之前和之后的所述不失真频率区处的所述音频信号,以确定差异。在某些实施方式中,如果所述差异满足预定标准,则所述方法允许结束所述一次或更多次迭代。所述预定标准可以根据所述音频信号的能量的下限和上限来限定。根据本公开另一示例性实施方式,用于恢复音频信号的失真语音分量的方法的步骤被存储在包括指令的非暂时性机器可读介质上,所述指令在通过一个或更多个处理器实现时执行所述步骤。根据结合附图的下列描述,本公开和方面的其它示例性实施方式将变得清楚。附图说明实施方式在附图的图中通过示例而非限制的方式进行例示,其中,相同标记指示相似部件。图1是例示可以实践本技术的环境的框图。图2是例示根据示例性实施方式的音频装置的框图。图3是例示根据示例性实施方式的音频处理系统的模块的框图。图4是例示根据示例性实施方式的用于恢复音频信号的语音分量的方法的流程图。图5是根据示例性实施方式的可用于实现本技术的方法的计算机系统。具体实施方式本文公开的技术涉及用于恢复音频信号的失真语音分量的系统和方法。本技术的实施方式可以利用被设置成接收和/或提供音频的任何音频装置(诸如蜂窝电话、可佩戴装置、电话听筒、耳机以及会议系统,但不限于此)来实践。应当明白,虽然本技术的一些实施方式将参照蜂窝电话的操作来描述,但本技术可以利用任何音频装置来实践。音频装置可以包括射频(RF)接收器、发送器及收发器、有线和/或无线电信和/或联网装置、放大器、音频和/或视频播放器、编码器、解码器、扬声器、输入部、输出部,存储装置以及用户输入装置。音频装置可以包括输入装置,诸如按钮、开关、按键、键盘、轨迹球、滑块、触摸屏、一个或更多个麦克风、陀螺仪、加速度计、全球定位系统(GPS)接收器等。音频装置可以包括输出装置,诸如LED指示器、视频显示器、触摸屏、扬声器等。在一些实施方式中,移动装置包括可佩戴装置和手持装置,诸如有线和/或无线遥控器、笔记本计算机、平板计算机、平板电话、智能电话、个人数字助理、媒体播放器、移动电话等。在不同实施方式中,音频装置可以在固定和便携式环境中工作。固定环境可以包括住宅和商业建筑物或结构物等。例如,固定的实施方式可以包括:客厅、卧室、家庭影院、会议室、礼堂、商业场所等。便携式环境可以包括:移动中的车辆、移动中的人、其它运输工具等。根据示例性实施方式,用于恢复音频信号的失真语音分量的方法包括确定该音频信号中的失真频率区和不失真频率区的步骤。失真频率区包括音频信号中的存在语音失真的区域。该方法包括利用用于完善对失真频率区处的音频信号的预测的模型来执行一次或更多次迭代的步骤。该模型可以被设置成修改该音频信号。下面参照图1,示出了其中可以实践用于恢复音频信号的失真语音分量的方法的环境100。该示例环境100可以包括至少可工作以接收音频信号的音频装置104。音频装置104还可工作以处理和/或记录/存储所接收的音频信号。在一些实施方式中,音频装置104包括一个或更多个声学传感器,例如,麦克风。在图1的示例中,音频装置104包括主麦克风(M1)106和辅麦克风108。在不同实施方式中,麦克风106和108被用于检测声学音频信号(例如,来自用户102的口头交流)和噪声110两者。该口头交流可以包括关键词、讲话、唱歌等。噪声110是环境100中存在的不需要的声音,其可以例如通过诸如麦克风106和108的传感器检测到。在固定环境中,噪声源可以包括街道噪声、环境噪声、来自移动装置的声音(如音频)、来自除了预定演讲者以外的其它实体的讲话等。噪声110可以包括混响和回声。移动环境可能会遇到某些种类的噪声,这些噪声是由其操作及其操作环境引起的,例如,道路、轨道、轮胎/车轮、风扇、刮水片、发动机、排气装置、娱乐系统、通信系统、竞争扬声器、风、雨、波浪、其它车辆、外部等噪声。由麦克风106和108检测的声信号可以被用于将希望的语音与噪声110分离。在一些实施方式中,音频装置104连接至基于云的计算资源160(也称为计算云)。在一些实施方式中,计算云160包括一个或更多个服务器机群/集群(包括计算机服务器集合),并且该计算机云与网络交换机和/或路由器处于同一位置。计算云160可工作为通过网络(例如,因特网、移动电话(蜂窝电话)网络等)传送一个或更多个服务。在某些实施方式中,音频信号的至少部分处理在计算云160中远程地执行。音频装置104可工作为向计算云160发送数据(例如,记录的声信号)、请求计算服务并接收计算结果。图2是示例音频装置104的框图。如图所示,音频装置104包括接收器200、处理器202、主麦克风106、辅麦克风108、音频处理系统210以及输出装置206。根据音频装置104的工作需要,音频装置104可以包括进一步的或不同的组件。类似地,音频装置104可以包括较少的组件来执行与图2描绘的那些类似或等同的功能。例如,音频装置104在一些实施方式中包括单个麦克风,而在其它实施方式中包括两个或更多个麦克风。在不同实施方式中,接收器200可以被设置成与诸如因特网、广域网(WAN)、局域网(LAN)、蜂窝网络等的网络通信,以接收音频信号。然后,将接收到的音频本文档来自技高网...
用于恢复语音分量的系统和方法

【技术保护点】
一种用于恢复音频信号的失真语音分量的方法,该方法包括:确定所述音频信号中的失真频率区和不失真频率区,所述失真频率区包括所述音频信号的存在语音失真的区域;以及利用模型执行一次或更多次迭代,以完善对所述失真频率区处的所述音频信号的预测,所述模型被设置成修改所述音频信号。

【技术特征摘要】
【国外来华专利技术】2014.09.12 US 62/049,9881.一种用于恢复音频信号的失真语音分量的方法,该方法包括:确定所述音频信号中的失真频率区和不失真频率区,所述失真频率区包括所述音频信号的存在语音失真的区域;以及利用模型执行一次或更多次迭代,以完善对所述失真频率区处的所述音频信号的预测,所述模型被设置成修改所述音频信号。2.根据权利要求1所述的方法,其中,所述音频信号包括通过对包含语音的声信号进行噪声降低或噪声消除中的至少一种而获取的噪声被抑制的音频信号。3.根据权利要求2所述的方法,其中,所述声信号在所述失真频率区被衰减或消除。4.根据权利要求1所述的方法,其中,所述模型包括利用干净的音频信号或未损坏的音频信号的频谱包络训练的深度神经网络。5.根据权利要求1所述的方法,其中,所完善的预测被用于恢复所述失真频率区中的语音分量。6.根据权利要求1所述的方法,其中,所述失真频率区处的所述音频信号在所述一次或更多次迭代中的第一次迭代之前被设置成零。7.根据权利要求1所述的方法,其中,在执行所述一次或更多次迭代中的每一次迭代之前,所述不失真频率区处的所述音频信号被恢复至所述音频信号在所述一次或更多次迭代中的第一次迭代之前的值。8.根据权利要求1所述的方法,所述方法还包括:在执行所述一次或更多次迭代中的每一次迭代之后,比较所述迭代之前和之后的所述不失真频率区处的所述音频信号,以确定差异。9.根据权利要求8所述的方法,所述方法还包括:如果所述差异满足预定标准,则结束所述一次或更多次迭代。10.根据权利要求9所述的方法,其中,所述预定标准根据所述音频信号的能量的下限和上限来限定。11.一种用于恢复音频信号的失真语音分量的系统,该系统包括:至少一个处理器;以及存储器,该存储器以通信方式与所述至少一个处理器联接,所述存储器存储指令,所述指令在由所述至少一个处...

【专利技术属性】
技术研发人员:C·艾文达诺J·伍德拉夫
申请(专利权)人:美商楼氏电子有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1