语音增强制造技术

技术编号:5395615 阅读:508 留言:0更新日期:2012-04-11 18:40
一种用于增强语音的方法,包括:提取音频信号的中心通道;使中心通道的谱变平;以及将变平的语音通道与音频信号混合,从而增强音频信号中的任何语音。还公开了一种用于从具有多个通道的音频信号提取声音的中心通道的方法,用于使音频信号的谱变平的方法,以及用于检测音频信号中的语音的方法。还公开了一种语音增强器,包括:中心通道提取器;平谱器;语音置信度生成器;以及混合器,用于与具有所检测的语音的置信度成比例地混合变平的语音通道与原始音频信号,从而增强音频信号中的任何语音。

【技术实现步骤摘要】
【国外来华专利技术】语音增强
技术实现思路
这里描述了如下方法和装置该方法和装置用于从具有多个通道的音频信号提取 声音的中心通道,用于使音频信号的谱变平,用于检测音频信号中的语音,以及用于增强语 音。用于从具有多个通道的音频信号提取声音的中心通道的方法可包括将(1)该音频信 号的第一通道减去候选中心通道的比例α与(2)该音频信号的第二通道的共轭减去该候 选中心通道的比例α相乘;近似最小化α ;以及通过将该候选中心通道乘以近似最小化的 α,产生所提取的中心通道。用于使音频信号的谱变平的方法可包括将假定的语音通道分成感知频带;确定 该感知频带中的哪个具有最大的能量;以及增加具有较少能量的感知频带的增益,从而使 音频信号中的任何语音的谱变平。增加可包括将具有较少能量的感知频带的增益增加直至 最大。用于检测音频信号中的语音的方法可包括测量音频信号的候选中心通道中的谱 波动;测量减去候选中心通道的音频信号的谱波动;以及比较谱波动,从而检测音频信号 中的语音。用于增强语音的方法可包括提取音频信号的中心通道;使中心通道的谱变平;以 及将变平的语音通道与该音频信号混合,从而增强该音频信号中的任何语音。该方法还可包 括生成检测中心通道中的语音的置信度,并且混合可包括与具有所检测的语音的置信度成比 例地混合变平的语音通道与音频信号。置信度可从最低可能的概率到最高可能的概率变化, 并且生成可包括进一步将生成的置信度限制到高于最低可能的概率并且低于最高可能的概 率的值。提取可包括使用上述方法提取音频信号的中心通道。变平可包括使用上述方法使中 心通道的谱变平。生成可包括使用上述方法生成检测中心通道中的语音的置信度。提取可包括使用上述方法提取音频信号的中心通道;变平可包括使用上述方法使 中心通道的谱变平;并且生成可包括使用上述方法生成检测中心通道中的语音的置信度。这里教授了一种计算机可读存储介质以及计算机系统,其中该计算机可读存储介 质中设置有用于执行任何上述方法的计算机程序,该计算机系统包括CPU、存储介质以及耦 合CPU和存储介质的总线。附图说明图1是根据本专利技术的一个实施例的语音增强器的功能框图。图 2 示出 了具有 IERB (Equivalent Rectangular Bandwidth,等效矩形带宽)的间 距从而导致共40个频带的适当滤波器集合。图3描述了根据本专利技术的一个实施例的混合过程。图4示出了根据本专利技术的一个实施例的计算机系统。具体实施例方式图1是根据本专利技术的一个实施例的语音增强器1的功能框图。语音增强器1包括输入信号17、离散傅里叶变换器10a、10b、中心通道提取器11、平谱器12、声音活动检测器 13、可变增益放大器15a、15c,反离散傅里叶变换器18a、18b以及输出信号18。输入信号17 分别包括左右通道17a、17b,并且输出信号18类似地分别包括左右通道18a、18b。相应的离散傅里叶变换器18接收输入信号17的左右通道17a、17b作为输入,并 且产生变换19a、19b作为输出。中心频道提取器11接收变换19并且产生假想中心通道C 20作为输出。平谱器12接收假想中心通道C 20作为输入,并且产生整形的中心通道24作 为输出,同时声音活动检测器13接收同一输入C 20,并且一方面产生用于可变增益放大器 14a和14c的控制信号22以及另一方面产生用于可变增益放大器14b的控制信号21作为 输出。放大器14a分别接收左通道变换19a和声音活动检测器13的输出控制信号22作 为输入和控制信号。同样,放大器14c分别接收右通道变换19b和声音活动检测器输出控 制信号22作为输入和控制信号。放大器14b接收平谱器12的经谱整形的中心通道24和 输出声音活动检测器控制信号21作为输入和控制信号。混合器15a接收从放大器14输出的、经增益调整的左变换23a以及经增益调整 的、经谱整形的中心通道25,并且产生信号26a作为输出。类似地,混合器15b接收来自放 大器14c的、经增益调整的右变换23b以及经增益调整的、经谱整形的中心通道25,并且产 生信号26b作为输出。反变换器18a、18b接收相应的信号26a、26b,并且产生相应推出的左右通道信号 L' 18a, R' 18b。以下更详细地描述语音增强器1的操作。依次(首先大致概括,然后更详细地) 描述根据一个实施例的中心通道提取、平谱、声音活动检测以及混合的过程。中心通道提取假设如下(1)感兴趣的信号17包含语音。(2)在多通道信号(即,左和右,或者立体声)的情况下,该语音是中心平坦的 (center panned)0(3)真正平坦的中心包括源左和右信号的比例α。。(4)减去该比例的结果是一对正交信号根据这些假设进行操作,中心通道提取器11从立体声信号17提取中心平坦的内 容C 20。对于中心平坦的内容,左右通道二者的相同区域包含该中心平坦的内容。通过从 左右通道二者移除相同的部分来提取该中心平坦的内容。可针对剩余左右信号(在多块的帧上或者使用随着新块输入连续地更新的方法) 计算LR * = 其中*表示共轭),并且调整比例α直至该量足够接近零。平谱听觉滤波器将假定的语音通道中的语音分成感知频带。确定每个数据块具有最大 能量的频带。然后改变该块的语音通道的谱形状,以补偿剩余频带中较低的能量。使谱变 平具有较低能量的频带使其增益增加直至某个最大值。在一个实施例中,所有频带可共享 最大增益。在替选实施例中,每个频带可具有其自己的最大增益。(在所有频带具有相同能 量的退化情况下,则谱已经是平的。可认为谱整形没有发生,或者可认为用相同功能实现了谱整形。)平谱发生而与通道内容无关。可处理非语音,但是稍后在系统中不使用该非语音。 与语音相比,非语音具有非常不同的谱,因此针对非语音的变平一般与针对语音的不同。声音活动检测器一旦假设的语音被隔离到单个通道,则针对语音内容对该语音进行分析。它包含 语音吗?内容独立于平谱而被分析。语音内容通过测量相邻的数据帧中的谱波动而被确 定。(每帧可包括许多数据块,但是在48kHZ采样速率,帧通常是两个、四个或者八个块。)在从立体声提取语音通道的情况下,剩余的立体声信号可帮助语音分析。该概念 更普遍地应用于任何多通道源中的相邻通道。混合当认为存在语音时,将变平的语音通道以某一比例与原始信号混合,该比例与语 音通道实际包含语音的置信度有关。一般而言,当置信度高时,使用较多变平的语音通道。 当置信度低时,使用较少变平的语音通道。依次更详细地描述根据一个实施例的中心通道提取、平谱、声音活动检测以及混 合的过程。从2通道源提取假想中心和周围通道使用语音增强,期望仅对中心平坦的音频进行提取、处理以及再插入。在立体声混 合中,语音通常是中心平坦的。现在描述从2通道混合中提取中心平坦的音频(假想中心通道)。数学证明构成 第一部分。第二部分将该证明应用于真实的立体声信号,以推出假想中心。当从原始立体声减去假想中心时,剩下具有正交通道的立体声信号。类似的方法 从周围平坦的音频推出假想周围通道。中心通道提取_数学证明给定某一两通道信号,可将通道分成左(L)和右(R)。左右通道均包含独有的信息 以及公共的信息。可将公共的信息表示为C(中心平坦的),并且将独有的信息分别表示本文档来自技高网...

【技术保护点】
一种用于从具有多个通道的音频信号提取声音的中心通道的方法,所述方法包括:将(1)所述音频信号的第一通道减去候选中心通道的比例α与(2)所述音频信号的第二通道的共轭减去所述候选中心通道的所述比例α相乘;近似最小化α;以及通过将所述候选中心通道乘以近似最小化的α,产生所提取的中心通道。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:C菲利普布朗
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利