多通道音频中语音相关通道的缩放回避的方法和系统技术方案

技术编号:11795643 阅读:98 留言:0更新日期:2015-07-30 00:15
本发明专利技术涉及多通道音频中语音相关通道的缩放回避的方法和系统。一种用于对具有语音通道和至少一个非语音通道的多通道音频信号进行滤波以改善由该信号确定的语音的可辨识度的方法和系统。在典型实施例中,该方法包括步骤:确定指示由该语音通道确定的语音相关内容与由该非语音通道确定的语音相关内容之间的相似程度的至少一个衰减控制值,以及响应于该至少一个衰减控制值对该非语音通道进行衰减。典型地,该衰减步骤包括响应于该至少一个衰减控制值对该非语音通道的原始衰减控制信号,例如回避增益控制信号,进行缩放。一些实施例是通用或专用处理器,用软件或固件编程和/或以其他方式配置为执行根据本发明专利技术的滤波。

【技术实现步骤摘要】
多通道音频中语音相关通道的缩放回避的方法和系统本申请是申请日为2011年2月28日、申请号为201180012782.5专利技术名称为“多通道音频中语音相关通道的缩放回避的方法和系统”的专利技术专利申请的分案申请。相关申请的交叉引用本申请要求2010年3月8日提交的美国专利临时申请No.61/311,437的优先权,其整体通过引用合并于此。
本专利技术涉及用于改善由多通道音频信号确定的人类语音(例如对话)的可辨识度的系统和方法。在一些实施例中,本专利技术是一种方法和系统,其通过确定指示由语音通道确定的语音相关内容与由非语音通道确定的语音相关内容之间的相似程度的至少一个衰减控制值,并响应于该衰减控制值对该非语音通道进行衰减,来对具有语音通道和非语音通道的音频信号进行滤波以改善由信号确定的语音可辨识度。
技术介绍
贯穿本公开,包括在权利要求书中,术语“语音”用于广义上指示人类语音。因此,由音频信号确定的“语音”是指信号中在由扬声器(或其他发声换能器)再现信号时感知为人类语音(例如对话、独白、歌声或其他人类语音)的音频内容。根据本专利技术的典型实施例,由音频信号确定的语音的可听度相对于由信号确定的其他音频内容(例如乐器音乐或非语音声音效果)得到改善,由此改善语音的可辨识度(例如,清楚性或理解容易度)。贯穿本公开,包括在权利要求书中,多通道音频信号中的一通道的“语音增强内容”这一表述是指增强由信号的另一通道(例如语音通道)确定的语音内容的可辨识度或其他感知品质的内容(由该通道确定)。本专利技术的典型实施例假定多通道输入音频信号确定的语音的大部分由信号的中央通道确定。该假定与环绕声音产品惯例一致,根据该惯例,大部分语音通常置于仅一个通道(中央通道)中,大部分音乐、环境声音和音效通常混合到所有通道中(例如左通道、右通道、左环绕通道和右环绕通道以及中央通道)。因此,多通道音频信号的中央通道将有时在这里称为“语音”通道,信号的全部其它通道(例如左通道、右通道、左环绕通道和右环绕通道)有时在这里称为“非语音”通道。类似地,由立体声信号的左和右通道之和产生的“中央”通道(其语音被移位到中央)有时在这里称为“语音”通道,通过从立体信号的左(或右)通道减去这样的中央通道而产生的“侧”通道将有时在这里称为“非语音”通道。贯穿本公开,包括在权利要求书中,“对”信号或数据进行操作的表述(例如对信号或数据进行滤波、缩放或变换)用于广义上指示直接对信号或数据进行操作,或者对信号或数据的处理变体(例如,在对其执行操作之前已经经历了初步滤波的信号变体)执行操作。贯穿本公开,包括在权利要求书中,表述“系统”用于广义上指示器件、系统或子系统。例如,实现解码器的子系统可以称为解码器系统,包括这样的子系统的系统(例如,响应于多个输入产生X个输出信号的系统,其中该子系统产生M个输入,其它X-M个输入从外部源接收)也可以称为解码器系统。贯穿本公开,包括在权利要求书中,第一值(“A”)对第二值(“B”)的“比”这一表述广义上用于表示A/B、或B/A、或A和B之一的缩放或偏移变体对A和B中的另一个的缩放或偏移变体的比(例如(A+x)/(B+y),其中x和y表示偏移值)。贯穿本公开,包括在权利要求书中,信号通过发声换能器(例如扬声器)的“再现”这一表述表示使换能器响应于信号产生声音,包括通过进行任何所需的放大和/或其它信号处理。当在存在竞争声音的情况下听语音时(诸如在餐馆中克服人群噪声倾听朋友说话),指示语音的音素内容的部分声学特征(语音提示(speechcue))被竞争声音所掩盖且不再可用于倾听者来解码讯息。随着竞争声音的水平相对于语音水平升高,正确接收的语音提示的数量降低且语音感知逐渐变得更难,直到在某竞争声音水平下,语音感知过程中断。虽然这种关系对于所有倾听者有效,但是对于任意语音水平而言能容忍的竞争声音水平对于所有倾听者并不相同。有些倾听者,例如由于年老而损失听力者(老年聋)或倾听青春期之后学会的语言者,与具有良好听力或运用母语的倾听者相比,更不能容忍竞争声音。存在竞争声音时倾听者理解语音的能力不同的事实暗示了新闻或娱乐音频中环境声音和背景音乐与语音混合的水平。损失听力或运用外语的倾听者通常喜欢与内容产生者所提供的相比相对更低水平的非语音音频。为了迎合这些特殊需要,已知对多通道音频信号的非语音通道应用衰减(回避),而更小(或没有)衰减应用到信号的语音通道,以改善信号所确定的语音的可辨识度。例如,PCT国际申请公开No.WO2010/011377,专利技术人为HannesMuesch且转让给DolbyLaboratoriesLicensingCorporation(2010年1月28日公开),公开了多通道音频信号的非语音通道(例如,左通道和右通道)可以掩盖信号的语音通道(例如,中央通道)中的语音到不再满足期望水平的语音可辨识度的程度。WO2010/011377描述了如何确定由回避电路应用到非语音通道的衰减函数以尝试显露语音通道中的语音,同时尽可能多地感知内容创建者的意图。WO2010/011377中描述的技术基于如下假设:非语音通道中的内容从不增强语音通道确定的语音内容的可辨识度(或者其它感知品质)。本专利技术部分地基于如下认识,即虽然该假设对于绝大多数多通道音频内容而言是正确的,但是并非总是有效。专利技术人意识到,当多通道音频信号中的至少一个非语音通道包括增强信号的语音通道确定的语音内容的可辨识度(或其它感知品质)的内容时,根据WO2010/011377的方法对信号的滤波可能负面影响倾听再现的滤波了的信号的听众的娱乐体验。根据本专利技术的典型实施例,在内容不符合WO2010/011377的方法蕴含的假设时,WO2010/011377描述的方法的应用被暂停或被修改。需要一种方法和系统,用于在音频信号的至少一个非语音通道包括增强音频信号的语音通道中的语音内容的可辨识度的内容的一般情况下,对多通道音频信号进行滤波以改善语音可辨识度。
技术实现思路
在第一类实施例中,本专利技术是一种方法,用于对具有语音通道和至少一个非语音通道的多通道音频信号进行滤波,以改善信号所确定的语音的可辨识度。该方法包括步骤:(a)确定指示多通道语音信号的语音通道确定的语音相关内容与至少一个非语音通道确定的语音相关内容之间的相似程度的至少一个衰减控制值;以及(b)响应于该至少一个衰减控制值,对该多通道音频信号的至少一个非语音通道进行衰减。典型地,该衰减步骤包括响应于该至少一个衰减控制值,缩放用于该非语音通道的原始衰减控制信号(例如回避增益控制信号)。优选地,该非语音通道被衰减从而改善由语音通道确定的语音的可辨识度,而没有不期望地衰减由该非语音通道确定的语音增强内容。在一些实施例中,步骤(a)确定的每个衰减控制值指示由音频信号的语音通道确定的语音相关内容与一个非语音通道确定的语音相关内容之间的相似程度,步骤(b)包括响应于所述每个衰减控制值对该非语音通道进行衰减的步骤。在另一些实施例中,步骤(a)包括从音频信号的至少一个非语音通道得到衍生非语音通道的步骤,该至少一个衰减控制值指示由该语音通道确定的语音相关内容与由该衍生非语音通道确定的语音相关内容之间的相似程度。例如,该衍生非语音通道可以通过叠加或以另外的方式混合或组本文档来自技高网
...
多通道音频中语音相关通道的缩放回避的方法和系统

【技术保护点】
一种对具有语音通道和至少一个非语音通道的多通道音频信号进行滤波以改善由该信号确定的语音的可辨识度的方法,所述方法包括如下步骤:(a)比较该语音通道的特性和该非语音通道的特性以产生用于控制该非语音通道相对于该语音通道的衰减的至少一个衰减值;以及(b)响应于至少一个语音增强可能性值调节该至少一个衰减值以产生用于控制该非语音通道相对于该语音通道的衰减的至少一个调节了的衰减值。

【技术特征摘要】
2010.03.08 US 61/311,4371.一种对具有语音通道和至少一个非语音通道的多通道音频信号进行滤波以改善由该信号确定的语音的可辨识度的方法,所述方法包括如下步骤:(a)比较该语音通道的特性和该非语音通道的对应的特性以产生用于控制该非语音通道的衰减的至少一个衰减值;(b)比较指示由该语音通道确定的语音相关内容的第一语音相关特征序列和指示由该非语音通道确定的语音相关内容的第二语音相关特征序列来确定比较值的序列作为该非语音通道的语音增强可能性值,其中每个该比较值是该第一语音相关特征序列和该第二语音相关特征序列之间在不同时间的相似程度;以及(c)响应于所述语音增强可能性值调节该至少一个衰减值以产生用于控制该非语音通道相对于该语音通道的衰减的至少一个调节了的衰减值。2.如权利要求1所述的方法,其中,步骤(c)包括响应于一个所述语音增强可能性值缩放每个所述衰减值以产生一个所述调节了的衰减值。3.如权利要求1所述的方法,其中,每个所述语音增强可能性值与该非语音通道指示增强由该语音通道确定的语音内容的感知品质的语音增强内容的可能性单调相关。4.如权利要求1所述的方法,还包括如下步骤:响应于该至少一个调节了的衰减值,对该非语音通道进行衰减。5.如权利要求1所述的方法,其中,在步骤(a)中产生的每个所述衰减值是:指示将该非语音通道中的信号功率对该语音通道中的信号功率的比值限制为不超过预定阈值所需的该非语音通道的衰减量的第一因子,其被与该语音通道指示语音的可能性单调相关的第二因子缩放。6.如权利要求1所述的方法,其中,在步骤(a)中产生的每个所述衰减值是指示足以使在存在由该非语音通道确定的内容时由该语音通道确定的语音的预测可辨识度超过预定阈值的该非语音通道的衰减量的第一因子,其被与该语音通道指示语音的可能性单调相关的第二因子缩放。7.如权利要求1所述的方法,其中,在步骤(a)中每个所述衰减值的产生包括如下步骤:确定该语音通道的指示作为频率函数的...

【专利技术属性】
技术研发人员:H·缪施
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1