实现3D音频内容的SAOC降混合的装置及方法制造方法及图纸

技术编号:28565542 阅读:27 留言:0更新日期:2021-05-25 18:02
提供了一种实现3D音频内容的SAOC降混合的装置及方法。该装置包含:参数处理器(110),用于计算输出声道混合信息,以及降混合处理器(120),用于产生该一个或多个音频输出声道。该降混合处理器(120)用于接收包含一个或多个音频传输声道的音频传输信号,其中两个或更多个音频对象信号被混合在该音频传输信号中,且其中该一个或多个音频传输声道的数量小于该两个或更多个音频对象信号的数量。该音频传输信号取决于第一混合规则以及第二混合规则。第一混合规则指示如何混合该两个或更多个音频对象信号以获得多个预混合声道。

【技术实现步骤摘要】
实现3D音频内容的SAOC降混合的装置及方法本申请是申请日为2014年7月16日、申请号为“201480041327.1”、专利技术名称为“实现3D音频内容的SAOC降混合的装置及方法”的中国专利技术专利的分案申请。
本专利技术涉及音频编码/解码,特别是涉及空间音频编码以及空间音频对象编码,以及更特别地涉及一种实现三维音频内容的SAOC降混合的装置及方法,以及一种三维音频内容的高效率解码该SAOC降混合的装置及方法。现有技术空间音频编码工具是此
中所熟知的,例如,在环绕MPEG标准中已有标准化规范。空间音频编码从原始输入声道开始,例如在再现装备中依照其位置而识别的五个或七个声道,即左声道、中间声道、右声道、左环绕声道、右环绕声道以及低频增强声道。空间音频编码器通常从原始声道得到至少一个降混声道,以及另外得到关于空间线索的参数数据,例如声道间水平差异、声道间相位差异、声道间时间差异等等。至少一个降混声道与指示空间线索的参数化辅助信息(parametricsideinformation,或称为参数边信息、参数侧信息或参数侧边信息)一起传送到空间音频解码器,空间音频解码器解码降混声道以及相关联的参数数据,最后获得为原始输入声道的近似版本的输出声道。声道在输出装备的放置通常为固定,例如,5.1声道格式或7.1声道格式等等。此种基于声道的音频格式广泛使用于储存或者传送多声道音频内容,而每一个声道关于在给定位置的特定扬声器。这些种类格式的忠实再现,需要扬声器装备,其中扬声器放置在与音频信号生产期间使用的扬声器相同的位置。虽然增加扬声器数量可改进真实三维虚拟现实场景的再现,但是满足此要求是越来越困难的,尤其是在家庭环境中,像是客厅。可用以对象为基础的方法来克服对特殊扬声器设备的需求,在以对象为基础的方法中扬声器信号特别针对回放装备来渲染。例如,空间音频对象编码工具是此
中所熟知的且在MPEGSAOC(SAOC=spatialaudioobjectcoding空间音频对象编码)标准中已成标准。相比于空间音频编码从原始声道开始,空间音频对象编码从非自动专为特定渲染再现装备的音频对象开始。代替地,音频对象在再现场景中的位置可变化,且可由使用者通过将特定的渲染信息输入至空间音频对象编码解码器来确定。可选地或另外,渲染信息,即在再现装备中特定音频对象待放置的位置信息,以额外的辅助信息或元数据来传送。为了获得特定的数据压缩,由SAOC编码器来编码多个音频对象,SAOC编码器根据特定的降混合信息来降混合对象以从输入对象计算至少一个传输声道。此外,SAOC编码器计算参数化辅助信息,其代表对象间线索,例如对象水平差异(OLD)、对象相干数值等等。对象间参数数据针对参数时间平铺/频率平铺来计算,即,针对音频信号的特定帧(例如,1024或2048个样本),考虑多个处理频带(例如28、20、14或10个处理频带等等)使得对于每一帧以及每一处理频带皆存在参数数据。作为举例,当音频片具有20个帧且当每一帧细分成28个处理频带,则时间/频率平铺的数量为560。在以对象为基础的方法中,以分离式音频对象来描述音场。此需要对象元数据,其描述在3D空间中每一个声源的时变位置。在现有技术中,第一元数据编码概念为空间声音描述交换格式(SpatDIF),而音频场景描述格式目前尚在开发中[M1]。音频场景描述格式为以对象为基础的声音场景交换格式,其并没有提供任何压缩对象轨迹的方法。SpatDIF将以文字为基础的开放性声音控制(OSC)格式使用于对象元数据的结构[M2]。然而,简单以文字为基础的表现并非为对象轨迹的压缩传输的选项。在现有技术中,另一个元数据概念为音频场景描述格式(ASDF)[M3],其是具有相同的缺点的以文字为基础的解决方案。此数据通过同步多介质集成语言(SMIL)的延伸所建构,该同步多介质集成语言(SMIL)为可延伸标记式语言(XML)[M4],[M5]的子集合。在现有技术中的另一个元数据概念为场景的音频二进制格式(AudioBIFS),为MPEG-4标准的一部分的二进制格式[M6],[M7]。其高度关于基于XML的虚拟现实建模语言(VRML),其已开发应用于音频虚拟3D场景以及交互式虚拟现实[M8]。复杂的AudioBIFS标准使用场景图以指定对象移动的路径。AudioBIFS主要的缺点在于并非设计用于实时操作,其中会使有限的系统延迟并且需要随机读取数据流。此外,对象位置的编码不运用受限的听者的定位能力。在音频虚拟场景中的听者有固定位置时,则对象数据可量化成较低的位数[M9]。因此,应用于AudioBIFS的对象元数据的编码对于数据压缩是无效的。
技术实现思路
本专利技术的目的在于提供对降混合音频内容的改善概念。本专利技术的目的是根据权利要求1的装置、根据权利要求9的装置、根据权利要求12的系统、根据权利要求13的方法、根据权利要求14的方法以及根据权利要求15的计算机程序来进行解决的。根据实施方案,实现了高效率的传输以及提供了对三维音频内容的降混合进行解码的方式。提供了一种用于产生一个或多个音频输出声道的装置。所述装置包含参数处理器及降混合处理器,此参数处理器用于计算输出声道混合信息,而降混合处理器用于产生所述一个或多个音频输出声道。所述降混合处理器用于接收包含一个或多个音频传输声道的音频传输信号,其中两个或更多个音频对象信号被混合在所述音频传输信号中,且其中所述一个或多个音频传输声道的数量小于所述两个或更多个音频对象信号的数量。所述音频传输信号取决于第一混合规则以及第二混合规则。所述第一混合规则指示如何混合所述两个或更多个音频对象信号以获得多个预混合声道。此外,所述第二混合规则指示如何混合所述多个预混合声道以获得所述音频传输信号的一个或多个音频传输声道。所述参数处理器用于接收所述第二混合规则的信息,其中所述第二混合规则的信息指示如何混合所述多个预混合信号,使得所述一个或多个音频传输声道被获得。此外,所述参数处理器用于根据音频对象数量、预混合声道数量以及所述第二混合规则的信息,计算所述输出声道混合信息,所述音频对象数量指示所述两个或更多个音频对象信号的数量,所述预混合声道数量指示所述多个预混合声道的数量。所述降混合处理器用于根据所述输出声道混合信息从所述音频传输信号产生一个或多个音频输出声道。此外,本专利技术提供一种装置,其用于产生包含一个或多个音频传输声道的音频传输信号。所述装置包含对象混合器,用于产生所述音频传输信号,此音频传输信号包含来自于所述两个或更多个音频对象信号的一个或多个音频传输声道,使得所述两个或更多个音频对象信号被混合在音频传输信号中,且其中所述一个或多个音频传输声道的数量小于所述两个或更多个音频对象信号的数量,且输出接口用于输出所述音频传输信号。所述对象混合器用于根据第一混合规则以及第二混合规则,产生所述音频传输信号的一个或多个音频传输声道,其中所述第一混合规则指示如何混合所述两个或更多个音频对象信号以获得多个预混合声道,且其中所述第二混合规则指示如何混合多个预混合声道本文档来自技高网
...

【技术保护点】
1.一种装置,用于产生一个或多个音频输出声道,其中该装置包含:/n参数处理器(110),用于计算输出声道混合信息,以及/n降混合处理器(120),用于产生所述一个或多个音频输出声道,其中所述降混合处理器(120)用于接收包含一个或多个音频传输声道的音频传输信号,其中两个或更多个音频对象信号被混合在所述音频传输信号中,且其中所述一个或多个音频传输声道的数量小于所述两个或更多个音频对象信号的数量,/n其中所述音频传输信号取决于第一混合规则以及第二混合规则,其中所述第一混合规则指示如何混合所述两个或更多个音频对象信号以获得多个预混合声道,且其中所述第二混合规则指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道,/n其中所述参数处理器(110)用于接收所述第二混合规则的信息,其中所述第二混合规则的所述信息指示如何混合所述多个预混合信号,使得所述一个或多个音频传输声道被获得,/n其中所述参数处理器(110)用于根据音频对象数量、预混合声道数量以及所述第二混合规则的所述信息,计算所述输出声道混合信息,所述音频对象数量指示所述两个或更多个音频对象信号的所述数量,所述预混合声道数量指示所述多个预混合声道的所述数量,以及/n其中所述降混合处理器(120)用于根据所述输出声道混合信息从所述音频传输信号产生所述一个或多个音频输出声道。/n...

【技术特征摘要】
20130722 EP 13177371.5;20130722 EP 13177357.4;20131.一种装置,用于产生一个或多个音频输出声道,其中该装置包含:
参数处理器(110),用于计算输出声道混合信息,以及
降混合处理器(120),用于产生所述一个或多个音频输出声道,其中所述降混合处理器(120)用于接收包含一个或多个音频传输声道的音频传输信号,其中两个或更多个音频对象信号被混合在所述音频传输信号中,且其中所述一个或多个音频传输声道的数量小于所述两个或更多个音频对象信号的数量,
其中所述音频传输信号取决于第一混合规则以及第二混合规则,其中所述第一混合规则指示如何混合所述两个或更多个音频对象信号以获得多个预混合声道,且其中所述第二混合规则指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道,
其中所述参数处理器(110)用于接收所述第二混合规则的信息,其中所述第二混合规则的所述信息指示如何混合所述多个预混合信号,使得所述一个或多个音频传输声道被获得,
其中所述参数处理器(110)用于根据音频对象数量、预混合声道数量以及所述第二混合规则的所述信息,计算所述输出声道混合信息,所述音频对象数量指示所述两个或更多个音频对象信号的所述数量,所述预混合声道数量指示所述多个预混合声道的所述数量,以及
其中所述降混合处理器(120)用于根据所述输出声道混合信息从所述音频传输信号产生所述一个或多个音频输出声道。


2.如权利要求1所述的装置,其中所述装置用于接收所述音频对象数量以及所述预混合声道数量中的至少一个。


3.如权利要求1所述的装置,
其中所述参数处理器(110)用于根据所述音频对象数量以及所述预混合声道数量,确定所述第一混合规则的信息,使得所述第一混合规则的所述信息指示如何混合所述两个或更多个音频对象信号以获得所述多个预混合声道,以及
其中所述参数处理器(110)用于根据所述第一混合规则的所述信息以及所述第二混合规则的所述信息,计算所述输出声道混合信息。


4.如权利要求3所述的装置,
其中所述参数处理器(110)用于根据所述音频对象数量以及所述预混合声道数量,确定第一矩阵(P)的多个系数以作为所述第一混合规则的所述信息,其中所述第一矩阵(P)指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道,
其中所述参数处理器(110)用于接收第二矩阵(Q)的多个系数以作为所述第二混合规则的所述信息,其中所述第二矩阵(Q)指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道,以及
其中所述参数处理器(110)用于根据所述第一矩阵(P)以及所述第二矩阵(Q)计算所述输出声道混合信息。


5.如权利要求1所述的装置,
其中所述参数处理器(110)用于接收元数据信息,所述元数据信息包含针对每一所述两个或更多个音频对象信号的位置信息,
其中所述参数处理器(110)用于根据每一所述两个或更多个音频对象信号的所述位置信息,确定所述第一降混合规则的所述信息。


6.如权利要求5所述的装置,
其中所述参数处理器(110)用于根据每一所述两个或更多个音频对象信号的所述位置信息,确定渲染信息,以及
其中所述参数处理器(110)用于根据所述音频对象数量、所述预混合声道数量、所述第二混合规则的所述信息以及所述渲染信息,计算所述输出声道混合信息。


7.如权利要求中1所述的装置,
其中所述参数处理器(110)用于接收协方差信息,所述协方差信息指示针对每一所述两个或更多个音频对象信号的对象水平差异,以及
其中所述参数处理器(110)用于根据所述音频对象数量、所述预混合声道数量、所述第二混合规则的所述信息以及所述协方差信息,计算所述输出声道混合信息。


8.如权利要求7所述的装置,
其中所述协方差信息进一步指示在所述两个或更多个音频对象信号的其中一个及另一个之间的至少一个对象间相关性,以及
其中所述参数处理器(110)用于根据所述音频对象数量、所述预混合声道数量、所述第二混合规则的所述信息、每一所述两个或更多个音频对象信号的所述对象水平差异以及在所述两个或更多个音频对象信号的其中一个及另一个之间的所述至少一个对象间相关性,计算所述输出声道混合信息。


9.一种用于产生包含一个或多个音频传输声道的音频传输信号的装置,其中所述装置包含:
对象混合器(210),用于从两个或更多个音频对象信号产生包含所述一个或多个音频传输声道的所述音频传输信号,使得所述两个或更...

【专利技术属性】
技术研发人员:萨沙·迪克哈拉尔德·福斯奥立夫·赫尔穆特于尔根·赫勒艾德里安·穆尔塔扎法尔科·里德布施里昂·特伦蒂夫约尼·鲍卢斯
申请(专利权)人:弗朗霍夫应用科学研究促进协会
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1