语音去混响的方法、设备和系统技术方案

技术编号:12420261 阅读:101 留言:0更新日期:2015-12-02 15:21
提供了改进的音频数据处理方法和系统。一些实现方式涉及把频域音频数据划分成多个子带并且为多个子带中每一个确定振幅调制信号值。带通滤波器可以应用到每个子带中的振幅调制信号值,以便为每个子带产生带通滤波后的振幅调制信号值。带通滤波器可以具有超过人类语音的平均节奏的中心频率。可以至少部分地基于振幅调制信号值和带通滤波后的振幅调制信号值的函数为每个子带确定增益。所确定的增益可以应用到每个子带。

【技术实现步骤摘要】
【国外来华专利技术】【专利说明】 相关申请的交叉引用 本申请要求于2013年4月10日提交的美国临时专利申请No. 61/810, 437和于 2013年6月28日提交的美国临时专利申请No. 61/840, 744的优先权,这两个申请当中每一 个的全部内容都通过引用被结合于此。
本公开涉及音频信号的处理。特别地,本公开涉及处理用于远程通信的音频信号, 包括但不限于处理用于电话会议或视频会议的音频信号。
技术介绍
在远程通信中,常常有必要捕获不在麦克风附近的参与者的语音。在这种情况下, 直接的声学反射和后续的房间混响的效果(reverberation)会不利地影响可理解性。在空 间捕获系统的情况下,这种混响可以被人类听觉处理系统与直接的声音(至少在某种程度 上)感知分离。在实践当中,当经多声道渲染试听时,这种空间混响可以改善用户体验,并 且存在一些证据暗示混响会帮助表演空间中声音源的分离和锚定。但是,当信号重叠、作为 单声道或单个声道导出和/或带宽减小时,混响的效果一般更难以让人类听觉处理系统管 理。相应地,改善的音频处理系统将是期望的。
技术实现思路
根据本文所述的一些实现方式,一种方法可以涉及接收包括频域音频数据的信号 并且对频域音频数据应用滤波器组(filterbank),以便产生在多个子带内的频域音频数 据。该方法可以涉及为每个子带中的频域音频数据确定振幅调制信号值,并且对每个子带 中的振幅调制信号值应用带通滤波器以便为每个子带产生带通滤波后的振幅调制信号值。 带通滤波器可以具有超过人类语音的平均节奏(cadence)的中心频率。 该方法可以涉及至少部分地基于振幅调制信号值和带通滤波后的振幅调制信号 值的函数为每个子带确定增益。该方法可以涉及对每个子带应用确定的增益。确定振幅调 制信号值的处理可以涉及为每个子带中的频域音频数据确定对数功率值。 在一些实现方式中,用于较低频率子带的带通滤波器可以比用于较高频率子带的 带通滤波器通过更大的频率范围。用于每个子带的带通滤波器可以具有在10-20HZ范围内 的中心频率。在一些实现方式中,用于每个子带的带通滤波器可以具有大约15Hz的中心频 率。 函数可以包括形式为RIOa的表达式。R可以与子带中每个样本的带通滤波后的 振幅调制信号值除以振幅调制信号值成比例。"A"可以与子带中每个样本的振幅调制信号 值减去带通滤波后的振幅调制信号值成比例。在一些实现方式中,A可以包括指示抑制率 (rate of suppression)的常量。确定增益可以涉及确定是应用通过形式为1?1(^的表达式 产生的增益值还是应用最大抑制值。该方法可以涉及确定对象的扩散率并且至少部分地基 于扩散率为该对象确定最大抑制值。在一些实现方式中,可以为相对较扩散的对象确定相 对较高的最大抑制值。 在一些例子中,应用滤波器组的处理可以涉及产生在5-10的范围内的个数的子 带的频域音频数据。在其它实现方式中,其中应用滤波器组的处理可以涉及产生在10-40 的范围内或者在某个其它范围内的个数的子带的频域音频数据。 该方法可以涉及在对每个子带应用确定的增益之后应用平滑函数。该方法还可以 涉及接收包括时域音频数据的信号并且把时域音频数据变换成频域音频数据。 根据一些实现方式,这些方法和/或其它方法可以经由其上存储了软件的一个或 多个非临时性介质来实现。软件可以包括用于至少部分地控制一个或多个设备执行这种方 法的指令。 根据本文所述的一些实现方式,一种装置可以包括接口系统和逻辑系统。逻辑系 统可以包括通用的单-或多-芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、 现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管逻辑、分立硬件部件和 /或其组合。 接口系统可以包括网络接口。一些实现方式包括存储器设备。接口设备可以包括 逻辑系统与存储器系统之间的接口。 根据一些实现方式,逻辑系统可以能够执行以下操作:接收包括频域音频数据的 信号;对频域音频数据应用滤波器组,以便产生在多个子带内的频域音频数据;为每个子 带中的频域音频数据确定振幅调制信号值;并且对每个子带中的振幅调制信号值应用带通 滤波器,以便为每个子带产生带通滤波后的振幅调制信号值。带通滤波器可以具有超过人 类语音的平均节奏的中心频率。 逻辑系统还可以能够至少部分地基于振幅调制信号值和带通滤波后的振幅调制 信号值的函数为每个子带确定增益。逻辑系统还可以能够对每个子带应用确定的增益。逻 辑系统还可以能够在对每个子带应用确定的增益之后应用平滑函数。逻辑系统还可以能够 接收包括时域音频数据的信号并且把时域音频数据变换成频域音频数据。 确定振幅调制信号值的处理可以涉及为每个子带中的频域音频数据确定对数功 率值。用于较低频率子带的带通滤波器可以比用于较高频率子带的带通滤波器通过更大的 频率范围。用于每个子带的带通滤波器可以具有在10-20HZ范围内的中心频率。例如,用 于每个子带的带通滤波器可以具有大约15Hz的中心频率。 在一些实现方式中,函数可以包括形式为RIOa的表达式。R可以与子带中每个样 本的带通滤波后的振幅调制信号值除以振幅调制信号值成比例。"A"可以与子带中每个样 本的振幅调制信号值减去带通滤波后的振幅调制信号值成比例。"A"可以包括指示抑制率 的常量。确定增益可以涉及确定是应用通过形式为RIOa的表达式产生的增益值还是应用 最大抑制值。 逻辑系统还可以能够确定对象的扩散率并且至少部分地基于扩散率为该对象确 定最大抑制值。可以为相对较扩散的对象确定相对较高的最大抑制值。 应用滤波器组的处理可以涉及产生在5-10范围内的个数的子带的频域音频数 据。作为替代,应用滤波器组的处理可以涉及产生在10-40范围内或者在某个其它范围内 的个数的子带的频域音频数据。 本说明书中所述主题的一种或多种实现方式的细节在附图和以下描述中阐述。其 它特征、方面和优点将从描述、附图和权利要求变得清楚。应当指出,以下附图的相对维度 可以不是按比例绘制的。【附图说明】 图1示出了电话会议系统的元素的例子。 图2是宽带语音信号的一个例子的声压的图。 图3是图2中所表示的语音信号组合了混响信号的例子的声压的图。 图4是图2的语音信号的功率以及图3的组合的语音和混响信号的功率的图。 图5是指示在变换到频域之后图4的功率曲线的图。 图6是图2的语音信号的对数功率以及图3的组合的语音和混响信号的对数功率 的图。 图7是指示在变换到频域之后图6的对数功率曲线的图。 图8A和8B是语音信号的低频子带和高频子带的声压的图。 图9是概述用于缓解音频数据中的混响的处理的流程图。 图10示出了用于彼此重叠的多个频带的带通滤波器的例子。 图11是根据一些例子指示等式3的增益抑制对对数功率比的图。 图12是示出最大抑制对扩散率的图的各种例子的图。 图13是提供能够缓解混响的音频处理装置的部件的例子的框图。 图14是提供音频处理装置的部件的例子的框图。 相同的标号和指示在各个图中指示相同的元素。【具体实施方式】 以下描述针对某些实现方式以用于描述本公开内容的一些创新方面的目的,以及 这些创新方面可以在其中实现的上下文的例子。但是,本文的教导可以以各种不同途径被 应用。例本文档来自技高网...

【技术保护点】
一种方法,包括:接收包括频域音频数据的信号;对频域音频数据应用滤波器组,以便产生在多个子带内的频域音频数据;为每个子带中的频域音频数据确定振幅调制信号值;对每个子带中的振幅调制信号值应用带通滤波器,以便为每个子带产生带通滤波后的振幅调制信号值,该带通滤波器具有超过人类语音的平均节奏的中心频率;至少部分地基于振幅调制信号值和带通滤波后的振幅调制信号值的函数为每个子带确定增益;以及对每个子带应用所确定的增益。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:E·格斯那G·N·迪金斯D·古那万
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1