双耳对话增强制造技术

技术编号:19248556 阅读:29 留言:0更新日期:2018-10-24 10:16
本发明专利技术揭示一种用于增强音频内容的对话的方法,其包括:提供音频成分的第一音频信号呈现;提供第二音频信号呈现;接收一组对话估计参数,所述对话估计参数经配置以实现从所述第一音频信号呈现估计对话成分;将所述组对话估计参数应用于所述第一音频信号呈现,以形成所述对话成分的对话呈现;及组合所述对话呈现与所述第二音频信号呈现以形成在第二音频再现系统上再现的对话增强音频信号呈现,其中所述第一音频信号呈现及所述第二音频信号呈现中的至少一者是双耳音频信号呈现。

Binaural conversation enhancement

The invention discloses a method for enhancing the audio content of the dialogue includes providing a first audio signal audio components present; 2 audio signal is present; receiving a set of parameters estimation of the dialogue, the dialogue is configured to realize parameter estimation from the first audio signal is estimated by the dialogue component; Dialogue is applied to parameter estimation of the first audio signal is presented, to form the dialogue component of dialogue; and combined the dialogue presentation and the second audio signal to form in the second audio reproduction system reproduces dialogue enhanced audio signals, wherein the first audio signal and the second presentation Two at least one of the audio signal presentation is the presentation of the binaural audio signal.

【技术实现步骤摘要】
【国外来华专利技术】双耳对话增强相关申请案的交叉参考本申请案主张2016年1月29日申请的第62/288,590号美国临时专利申请案及2016年1月29日申请的第16153468.0号欧洲专利申请案的优先权,所述两个申请案的全部内容以引用方式并入本文中。
本专利技术涉及音频信号处理的领域,且揭示用于有效地估计尤其是具有空间化成分的音频信号(有时称为沉浸式音频内容)的对话成分的方法及系统。
技术介绍
贯穿说明书对
技术介绍
的任何论述决不应被视为承认此项技术是众所周知的或形成所属领域中的公知常识的部分。传统上,以基于声道的格式(即,为整个内容生态系统中的内容设想一个特定目标回放系统)执行音频的内容创建、编码、分配及再现。此类目标回放系统音频格式的实例是单声道、立体声、5.1、7.1及类似者,并且我们将这些格式称为原始内容的不同呈现。上述呈现通常通过扬声器回放,但明显例外是通常也直接通过耳机回放的立体声呈现。一个特定呈现是通常针对在耳机上回放的双耳呈现。双耳呈现的独特之处在于其是双声道信号,其中每一信号分别表示在左耳膜及右耳膜处或附近感知的内容。双耳呈现可直接通过扬声器回放,但优选地双耳呈现使用串扰消除技术经转换成适于通过扬声器回放的呈现。上文已介绍不同音频再现系统,如同呈不同配置(例如立体声、5.1及7.1)的扬声器及耳机。从上述实例可理解,原始内容的呈现具有自然的、指定的、相关联的音频再现系统,但当然可在不同音频再现系统上回放。如果将在与指定回放系统不同的回放系统上再现内容,那么可应用向下混合或向上混合过程。例如,可通过采用特定向下混合等式而在立体声回放系统上再现5.1内容。另一实例是通过7.1扬声器设置回放立体声编码内容,所述7.1扬声器设置可包括所谓向上混合过程,其可或不可受立体声信号中存在的信息引导。能够向上混合的系统是来自杜比实验室(DolbyLaboratoriesInc)的杜比定向逻辑(DolbyProLogic)(罗杰斯·杜斯勒(RogerDressler),“杜比定向逻辑环绕解码器,操作原理(DolbyProLogicSurroundDecoder,PrinciplesofOperation)”,www.Dolby.com)。替代音频格式系统是音频对象格式,例如由杜比全景声(DolbyAtmos)系统提供的格式。在这种类型的格式中,对象或成分被定义为具有围绕听众的可时变的特定位置。这种格式的音频内容有时称为沉浸式音频内容。应注意,在本申请案的上下文内,音频对象格式不被视为如上文所描述的呈现,而是被视为呈现给编码器中的一或多个呈现的原始内容的格式,此后所述呈现经编码且经传输到解码器。当如上所述那样将基于多声道及对象的内容转换成双耳呈现时,通过分别在无回声或回声(模拟)环境中模拟从每一扬声器/对象到耳膜的声学路径的头部相关脉冲响应(HRIR)或双耳房间脉冲响应(BRIR)来模拟由特定位置处的扬声器及对象组成的声学场景。特定来说,音频信号可与HRIR或BRIR卷积以复原耳间水平差(ILD)、耳间时间差(ITD)及谱特征,其允许听众确定每一个别扬声器/对象的位置。声学环境(混响)的模拟也有助于实现特定的感知距离。图1说明用于呈现从内容存储区12读出以供4个HRIR(例如14)处理的两个对象或声道信号xi10、11的处理流程的示意性概览。接着,对每一声道信号的HRIR输出求和15、16,以便产生耳机扬声器输出以经由耳机18回放给听众。例如在怀特曼(Wightman)、L弗里德里克(FredericL.)及J桃瑞丝·基斯特勒(DorisJ.Kistler)的“声音定位(Soundlocalization)”,《人类心里物理学》(Humanpsychophysics),纽约斯普林格出版社(SpringerNewYork),1993年,155-192中解释HRIR的基本原理。HRIR/BRIR卷积方法具有若干缺点,其中之一是耳机回放需要大量卷积处理。HRIR或BRIR卷积需要单独应用于每个输入对象或声道,且因此复杂度通常随声道或对象的数目线性地增长。由于耳机通常结合电池供电的便携式装置使用,所以高计算复杂度是不合意的,因为其可大大缩短电池寿命。此外,随着基于对象的音频内容(其可包括例如100个以上的同时活动的对象)的引入,HRIR卷积的复杂度可显著高于传统基于声道的内容。出于此目的,2015年8月25日申请的共同待决且未公布的第62/209,735号美国临时专利申请案描述一种用于可用来有效地传输及解码用于耳机的沉浸式音频的呈现变换的双端方法。通过跨编码器及解码器分割呈现过程而非仅依赖解码器来呈现所有对象来实现编码效率及解码复杂度的降低。在创建期间与特定空间位置相关联的内容的部分称为音频成分。空间位置可为空间中的点或分布式位置。音频成分可被视为声音艺术家混合(即,在空间上定位)到音轨中的所有个别音频源。通常,将语义含义(例如,对话)被指派给所关注成分使得处理目标(例如,对话增强)得到定义。应注意,在内容创建期间产生的音频成分通常存在于从原始内容到不同呈现的整个处理链中。例如,在对象格式中,可存在具有相关空间位置的对话对象。并且在立体声呈现中,可存在空间上定位在水平平面中的对话成分。在一些应用中,期望提取音频信号中的对话成分,以便例如增强或放大此类成分。对话增强(DE)的目标可为修改包含语音及背景音频的混合物的一段内容的语音部分,使得语音对于终端用户变得更容易理解及/或更不容易让人感到疲劳。DE的另一用途是减弱例如被终端用户感知为令人烦恼的对话。DE方法存在两种基本类别:编码器侧DE及解码器侧DE。解码器侧DE(称为单端)仅对重构非增强音频的经解码参数及信号进行操作,即,位流中不存在用于DE的专用边信息。在编码器侧DE(称为双端)中,在编码器中计算可用来在解码器中执行DE的专用边信息且在位流中插入所述边信息。图2展示常规立体声实例中的双端对话增强的实例。在此,在编码器20中计算专用参数21,专用参数21实现从解码器24中经解码的非增强立体声信号23提取对话22。对所提取对话进行级别修改(例如升高)25(提高达受终端用户部分控制的量)且将其添加到非增强输出23以形成最终输出26。专用参数21可从非增强音频27盲提取或在参数计算中利用单独提供的对话信号28。在US8,315,396中揭示另一方法。在此,到解码器的位流包含对象向下混合信号(例如立体声呈现)、实现重构音频对象的对象参数、及允许操纵所重构音频对象的基于对象的元数据。如US8,315,396的图10中所指示,操纵可包含放大语音相关对象。因此,这种方法需要在解码器侧上重构原始音频对象,这通常对计算要求苛刻。一般期望在双耳环境中也有效地提供对话估计。
技术实现思路
本专利技术的目标是在双耳背景中(即,当从其提取(若干)对话成分的音频呈现或将所提取对话添加到其的音频呈现中的至少一者是(回声或无回声)双耳表示时)提供有效对话增强。根据本专利技术的第一方面,提供一种用于增强具有一或多个音频成分的音频内容的对话的方法,其中每一成分与空间位置相关联,所述方法包括:提供希望在第一音频再现系统上再现的音频成分的第一音频信号呈现;提供希望在第二音频再现系统上再现的所述音频成分的第二音频信号呈现;本文档来自技高网
...

【技术保护点】
1.一种用于增强具有一或多个音频成分的音频内容的对话的方法,其中每一成分与空间位置相关联,所述方法包括:提供希望在第一音频再现系统上再现的所述音频成分的第一音频信号呈现;提供希望在第二音频再现系统上再现的所述音频成分的第二音频信号呈现;接收一组对话估计参数,所述对话估计参数经配置以实现从所述第一音频信号呈现估计对话成分;将所述组对话估计参数应用于所述第一音频信号呈现,以形成所述对话成分的对话呈现;及组合所述对话呈现与所述第二音频信号呈现以形成在所述第二音频再现系统上再现的对话增强音频信号呈现;其中所述第一音频信号呈现及所述第二音频信号呈现中的至少一者是双耳音频信号呈现。

【技术特征摘要】
【国外来华专利技术】2016.01.29 EP 16153468.0;2016.01.29 US 62/288,5901.一种用于增强具有一或多个音频成分的音频内容的对话的方法,其中每一成分与空间位置相关联,所述方法包括:提供希望在第一音频再现系统上再现的所述音频成分的第一音频信号呈现;提供希望在第二音频再现系统上再现的所述音频成分的第二音频信号呈现;接收一组对话估计参数,所述对话估计参数经配置以实现从所述第一音频信号呈现估计对话成分;将所述组对话估计参数应用于所述第一音频信号呈现,以形成所述对话成分的对话呈现;及组合所述对话呈现与所述第二音频信号呈现以形成在所述第二音频再现系统上再现的对话增强音频信号呈现;其中所述第一音频信号呈现及所述第二音频信号呈现中的至少一者是双耳音频信号呈现。2.根据权利要求1所述的方法,其中所述第一音频信号呈现及所述第二音频信号呈现两者是双耳音频信号呈现。3.根据权利要求1所述的方法,其中仅所述第一音频信号呈现及所述第二音频信号呈现中的一者是双耳音频信号呈现。4.根据权利要求3所述的方法,其中所述第一音频信号呈现及所述第二音频信号呈现中的另一者是立体声或环绕声音频信号呈现。5.根据权利要求3或4所述的方法,其进一步包括:接收一组对话变换参数且在应用所述组对话估计参数之前或之后应用所述组对话变换参数,以形成对应于所述第二音频信号呈现的经变换对话呈现。6.根据权利要求3或4所述的方法,其中所述对话估计参数还经配置以执行呈现变换,使得所述对话呈现对应于所述第二音频信号呈现。7.根据权利要求2所述的方法,其中提供所述第一音频信号呈现包含接收初始音频信号呈现及一组呈现变换参数,且将所述组呈现变换参数应用于所述初始音频信号呈现。8.根据前述权利要求中任一权利要求所述的方法,其进一步包括:接收一组呈现变换参数,所述呈现变换参数经配置以实现将所述第一音频信号呈现变换成所述第二音频信号呈现;及将所述组呈现变换参数应用于所述第一音频信号呈现以形成所述第二音频信号呈现。9.根据权利要求8所述的方法,其进一步包括在应用所述组对话估计参数之前或之后应用所述组呈现变换参数,以形成对应于所述第二音频信号呈现的经变换对话呈现。10.根据权利要求8所述的方法,其中组合所述对话呈现与所述第二音频信号呈现的步骤包含形成所述对话呈现及所述第一音频信号呈现的和且将所述组呈现变换参数应用于所述和。11.根据前述权利要求中任一权利要求所述的方法,其中从编码器接收所述第一音频信号呈现。12.根据前述权利要求中任一权利要求所述的方法,其进一步包括将级别修改因子G应用于所述对话呈现。13.根据权利要求12所述的方法,其中当G小于给定阈值时应用第一处理,且当G大于所述阈值时应用第二处理。14.根据权利要求13所述的方法,其中所述阈值等于零,其中G<0表示对话减弱且G>0表示对话增强。15.根据权利要求13或14所述的方法,其中所述第一处理包括形成所述对话呈现及所述第一音频信号呈现的和且将一组呈现变换参数应用于所述和。16.根据权利要求13到15中的任一权利要求所述的方法,其中所述第二处理包括在应用所述组对话估计参数之前或之后应用一组呈现变换参数,以形成对应于所述第二音频信号呈现的经变换对话呈现。17.一种用于增强具有一或多个音频成分的音频内容的对话的方法,其中每一成分与空间位置相关联,所述方法包括:接收希望在第一音频再现系统上再现的所述音频成分的第一音频信号呈现;接收一组呈现变换参数,所述呈现变换参数经配置以实现将所述第一音频信号呈现变换成希望在第二音频再现系统上再现的第二音频信号呈现;接收一组对话估计参数,其经配置以实现从所述第一音频信号呈现估计对话成分;将所述组呈现变换参数应用于所述第一音频信号呈现以形成第二音频信号呈现;将所述组对话估计参数应用于所述第一音频信号呈现以形成所述对话成分的对话呈现;及组合所述对话呈现与所述第二音频信号呈现以形成在所述第二音频再现系统上再现的对话增强音频信号呈现;其中仅所述第一音频信号呈现及所述第二音频信号呈现中的一者是双耳音频信号呈现。18.根据权利要求17所述的方法,其中组合所述对话呈现与所述第二音频信号呈现的步骤包含形成所述对话呈现及所述第一音频信号呈现的和且将所述组呈现变换参数应用于所述和。19.根据权利要求17所述的方法,其中所述对话估计参数还经配置以执行呈现变换,使得所述对话呈现对应于所述第二音频信号呈现。20.根据权利要求17所述的方法,其进一步包括在应用所述组对话估计参数之前或之后应用所述组呈现变换参数,以形成对应于所述第二音频信号呈现的经变换对话呈现。21.根据权利要求17所述的方法,其中所述对话呈现是单声道呈现,且所述方法进一步包括:接收与所述对话成分相关的位置数据,在与所述第二音频信号呈现组合之前使用所述位置数据来渲染所述单声道对话呈现。22.根据权利要求21所述的方法,其中所述渲染包含:基于所述位置数据从库选择头部相关传递函数HRTF,及将所述选定HRTF应用于所述单声道对话呈现。23.根据权利要求21所述的方法,其中所述渲染包含振幅平移。24.一种用于增强具有一或多个音频成分的音频内容的对话的方法,其中每一成分与空间位置相关联,所述方法包括:接收希望在第一音频再现系统上再现的所述音频成分的第一音频信号呈现;接收一组呈现变换参数,所述呈现变换参数经配置以实现将所述第一音频信号呈现变换成希望在第二音频再现系统上再现的所述第二音频信号呈现;接收一组对话估计参数,所述对话估计参数经配置以实现从所述第二音频信号呈现估计对话成分;将所述组呈现变换参数应用于所述第一音频信号呈现以形成第二音频信号呈现;将所述组对话估计参数应用于所述第二音频信号呈现以形成所述对话成分的对话呈现;及对所述对话呈现与所述第二音频信号呈现求和以形成在所述第二音频再现系统上再现的对话增强音频信号呈现;其中仅所述第一...

【专利技术属性】
技术研发人员:L·J·萨穆埃尔松D·J·布里巴尔特D·M·库珀J·科庞
申请(专利权)人:杜比实验室特许公司杜比国际公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1