语音处理系统技术方案

技术编号:11829713 阅读:84 留言:0更新日期:2015-08-05 13:36
一种用于增强将在嘈杂环境中输出的语音的语音易懂性增强系统,该系统包括:语音输入,用于接收要增强的语音;噪声输入,用于接收关于嘈杂环境的实时信息;增强语音输出,用来输出增强的语音;以及处理器,被配置为将从所述语音输入接收的语音转换成将由所述增强语音输出输出的增强的语音,所述处理器被配置为:将频谱整形滤波器应用于经由所述语音输入接收的语音;将动态范围压缩应用于所述频谱整形滤波器的输出;以及测量所述噪声输入处的信噪比,其中频谱整形滤波器包括控制参数,动态范围压缩包括控制参数,以及其中根据所测量的信噪比来实时更新动态范围压缩或频谱整形的控制参数中的至少一个。

【技术实现步骤摘要】
【国外来华专利技术】
这里描述的实施例一般地涉及语音处理系统
技术介绍
经常需要在嘈杂的环境中去理解语音,举例来讲,当在拥挤的地方使用移动电话 时、在移动设备上收听媒体文件时、在车站听公告时,等等。 可以增强语音信号以使得其在这种环境中更加易懂。【附图说明】 现在参照附图描述根据非限制性实施例的系统和方法,其中: 图1是根据本专利技术的一种实施例的系统的示意图; 图2是示出了具有频谱整形滤波器和动态范围压缩级的根据本专利技术的一种实施 例的系统的进一步示意图; 图3是示出了图2的频谱整形滤波器和动态范围压缩级的示意图; 图4是更详细地示出了频谱整形滤波器的示意图; 图5是更详细地示出了动态范围压缩级的示意图; 图6是输入-输出包络特性曲线的图; 图7a是语音信号的图以及图7b是来自动态范围压缩级的输出的图; 图8是根据信噪比适配的输入-输出包络特性曲线的图;以及 图9是具有多个输出的根据又一实施例的系统的示意图。【具体实施方式】 在一种实施例中,提供了一种用于增强将在嘈杂环境中输出的语音的语音易懂性 增强系统,该系统包括: 语音输入,用于接收要增强的语音; 噪声输入,用于接收关于嘈杂环境的实时信息; 增强语音输出,用于输出增强的语音;以及 处理器,被配置为将从所述语音输入接收的语音转换成将由所述增强语音输出输 出的所述增强的语音, 所述处理器被配置为: 将频谱整形滤波器应用于经由所述语音输入接收的语音; 将动态范围压缩应用于所述频谱整形滤波器的输出;以及 测量所述噪声输入处的信噪比; 其中频谱整形滤波器包括控制参数,动态范围压缩包括控制参数,以及其中根据 所测量的信噪比来实时更新动态范围压缩或频谱整形的控制参数中的至少一个。 在根据以上实施例的系统中,所述输出适应于噪声环境。此外,所述输出被不断更 新,以使得其实时地适应于改变的噪声环境。例如,如果将上述系统构建于移动电话中并且 用户站立于嘈杂的房间之外,则系统能够适于根据房间门是打开还是关闭来增强语音。类 似地,如果系统用于火车站中的公共广播系统,则所述系统可随着列车到达和离开实时地 适应于变化的噪声条件。 在一种实施例中,逐帧地估计信噪比,并且针对前一帧的信噪比用来更新当前帧 的参数。典型的帧的长度是1秒到3秒。 以上系统可以使频谱整形滤波器和/或动态范围压缩级适应于嘈杂环境。在一些 实施例中,频谱整形滤波器和动态范围压缩级两者都适配于嘈杂环境。 当使动态范围压缩适应于SNR时,经过更新的控制参数可被用来控制将由所述动 态范围压缩应用的增益。在其他实施例中,更新控制参数,以使得其随着信噪比增加逐渐地 抑制输入语音的低能量段的加强。在一些实施例中,假定SNR和控制参数之间具有线性关 系,在其它实施例中,可使用非线性或逻辑关系。 为了控制输出的音量,在一些实施例中,所述系统还包括能量存储箱,所述能量存 储箱是所述系统中设置的存储器且被配置为存储在增强之前所述输入语音的总能量,所述 处理器还被配置为使用所述能量存储箱中存储的能量来增加增强信号中低能量部分的能 量。 频谱整形滤波器可包括自适应频谱整形级和固定频谱整形级。自适应频谱整形级 可包括共振峰成形滤波器和用来减少频谱倾斜的滤波器。在一种实施例中,第一控制参数 被设置为控制所述共振峰成形滤波器,第二控制参数被配置为控制用于减少频谱倾斜的所 述滤波器,以及其中根据所述信噪比来更新所述第一和/或第二控制参数。所述第一和/ 或第二控制参数与所述信噪比线性相关。 上述讨论集中于响应于SNR来适配信号。然而,所述系统还可被配置为与噪声测 量无关地根据输入语音来修改频谱整形滤波器。例如,所述处理器可被配置为在应用频谱 整形滤波器时估计最大浊音化概率,以及其中所述系统被配置为每m秒更新最大浊音化概 率,其中m是从2到10的值。 所述系统还可以附加地或备选地被配置为与噪声测量无关地根据所述输入语音 来修改动态范围压缩。例如,所述处理器被配置为在应用动态范围压缩时估计输入语音 的信号包络的最大值,以及其中所述系统被配置为每m秒更新输入语音的信号包络的最大 值,其中m是从2到10的值。 所述系统还被配置为在多个位置输出增强语音。例如,这种系统可包括对应于多 个位置的多个噪声输入,所述处理器被配置为应用多个频谱整形滤波器和多个相应的动态 范围压缩级,以使得针对每个噪声输入存在频谱整形滤波器和动态范围压缩级对,所述处 理器被配置为根据从相应的噪声输入测量的信噪比来更新每个频谱整形滤波器和动态范 围压缩级对的控制参数。这种系统可用于例如在不同环境中具有多个扬声器的PA系统。 在其他实施例中,提供了一种用于增强将在嘈杂环境中输出的语音的方法,该方 法包括: 接收要增强的语音; 在噪声输入处接收关于嘈杂环境的实时信息; 将从所述语音输入接收的语音转换成增强的语音;以及 输出所述增强的语音, 其中转换所述语音包括: 测量所述噪声输入处的信噪比; 将频谱整形滤波器应用于经由所述语音输入接收的语音;以及 将动态范围压缩应用于所述频谱整形滤波器的输出; 其中频谱整形滤波器包括控制参数,动态范围压缩包括控制参数,以及其中根据 所测量的信噪比来实时更新动态范围压缩或频谱整形的控制参数中的至少一个。 以上实施例讨论了系统响应于SNR的适应性。然而,在一些实施例中,与语音将要 被输出到的环境的SNR无关地增强语音。这里,提供了一种用于增强要输出的语音的语音 易懂性增强系统,该系统包括: 语音输入,用于接收要增强的语音; 增强语音输出,用于输出增强的语音;以及 处理器,被配置为将从所述语音输入接收的语音转换成将由所述增强语音输出输 出的所述增强的语音,所述处理器被配置为: 将频谱整形滤波器应用于经由所述语音输入接收的语音;以及 将动态范围压缩应用于所述频谱整形滤波器的输出; 其中频谱整形滤波器包括控制参数,动态范围压缩包括控制参数,以及其中根据 在语音输入处接收的语音来实时更新动态范围压缩或频谱整形的控制参数中的至少一个。 例如,所述处理器可被配置为在应用频谱整形滤波器时估计最大浊音化概率,以 及其中所述系统被配置为每m秒更新最大浊音化概率,其中m是从2到10的值。 所述系统还可以附加地或备选地被配置为与噪声测量无关地根据所述输入语音 来修改动态范围压缩。例如,所述处理器被配置为在应用动态范围压缩时估计输入语音 的信号包络的最大值,以及其中所述系统被配置为每m秒更新输入语音的信号包络的最大 值,其中m是从2到10的值。 在又一种实施例中,提供了一种用于增强语音易懂性的方法,该方法包括: 接收要增强的语音; 将从所述语音输入接收的语音转换成增强的语音;以及 输出所述增强的语音, 其中转换所述语音包括: 将频谱整形滤波器应用于经由所述语音输入接收的语音;以及 将动态范围压缩应用于所述频谱整形滤波器的输出; 其中频谱整形滤波器包括控制参数,动态范围压缩包括控制参数,根据在语音输 入处接收的语音来实时更新动态范围压缩或频谱整形的控制参数中的至少一个。 由于根据实施例的一些方法可通过软件实现,所以一些实施例涵盖任意合适载体 介质上的提供给通用计算机的计算机代码。载体介质可包括任意存储介质(比如软盘、CD ROM、磁性装置或可编程存储器设备)或任何瞬时介质本文档来自技高网...
语音处理系统

【技术保护点】
一种用于增强将在嘈杂环境中输出的语音的语音易懂性增强系统,该系统包括:语音输入,用于接收要增强的语音;噪声输入,用于接收关于所述嘈杂环境的实时信息;增强语音输出,用于输出增强的语音;以及处理器,被配置为将从所述语音输入接收的语音转换成将由所述增强语音输出输出的所述增强的语音,所述处理器被配置为:将频谱整形滤波器应用于经由所述语音输入接收的语音;将动态范围压缩应用于所述频谱整形滤波器的输出;以及测量所述噪声输入处的信噪比;其中所述频谱整形滤波器包括控制参数,所述动态范围压缩包括控制参数,以及根据所测量的信噪比来实时更新动态范围压缩或频谱整形的控制参数中的至少一个。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:约安尼斯·斯蒂利亚诺
申请(专利权)人:株式会社东芝
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1