自适应量化制造技术

技术编号:18844069 阅读:30 留言:0更新日期:2018-09-05 08:58
可以对多个接收的音频对象中的每个音频对象确定重要性度量,该重要性度量至少部分地基于能量度量。一些方法可以包含:至少部分地基于通过对音频对象中的每个音频对象的能量度量进行求和而计算的总能量值来对音频对象中的所有音频对象确定总体重要性度量;对音频对象中的每个音频对象确定估计的量化位深和量化误差;对音频对象中的所有音频对象计算总噪声度量,总噪声度量至少部分地基于与估计的量化位深相对应的总量化误差;计算与总噪声度量和总能量值相对应的总信噪比;并且通过将信噪比阈值应用于总信噪比来对音频对象中的每个音频对象确定最终量化位深。

Adaptive quantization

An importance measure can be determined for each audio object in a plurality of received audio objects, which is at least partially based on an energy measure. Some methods may include determining a global importance measure for all audio objects in an audio object based at least in part on the total energy value computed by summing the energy measurements of each audio object in the audio object, and determining the estimated quantization bit depth and quantization error for each audio object in the audio object. The total noise metric is calculated for all audio objects in the audio object, and the total noise metric is based at least in part on the total error corresponding to the estimated quantization bit depth; the total signal-to-noise ratio corresponding to the total noise metric and the total energy value is calculated; and the signal-to-noise ratio threshold is applied to the total signal-to-noise ratio to the audio object. Each audio object determines the final quantization bit depth.

【技术实现步骤摘要】
【国外来华专利技术】自适应量化相关申请的交叉引用本申请要求2016年1月26日提交的美国临时专利申请No.62/287,348和2016年1月26日提交的欧洲专利申请No.16152783.3的优先权权益,这些申请特此通过引用并入。
本公开涉及音频数据处理。具体地说,本公开涉及音频数据的高效编码。
技术介绍
自从1927年为影片引入声音以来,用于捕获运动图片声轨的艺术意图并且在电影院环境中重放该声轨的技术一直稳定地发展。在二十世纪三十年代,盘上的同步声音让位于影片上的可变区域声音,影片上的可变区域声音随着多轨录音和可操纵重放(通过使用控制音调来移动声音)的早期引入而在二十世纪四十年代通过剧场声学考虑和改进的扩音器设计得到进一步的改进。在二十世纪五十年代和二十世纪六十年代,影片的涂磁道使得可以在剧院里进行多声道回放,从而在高级剧院里引入环绕声道和多达五个屏幕声道。在二十世纪七十年代,Dolby在后期制作中和影片上两者引入了降噪、以及对具有3个屏幕声道和单个环绕声道的混音进行编码和分发的成本有效的手段。影院声音的质量在二十世纪八十年代通过Dolby频谱录音(SR)降噪和认证程序(诸如THX)得到进一步的改进。Dolby在二十世纪九十年代期间通过5.1声道格式将数字声音带入影院,该5.1声道格式提供离散的左屏幕声道、中心屏幕声道和右屏幕声道、左环绕阵列和右环绕阵列、以及用于低频效果的低音炮声道。2010年引入的DolbySurround7.1通过将现有的左环绕声道和右环绕声道划分为四个“区”而使环绕声道的数量增加。因为声道的数量增加并且扩音器布局从平面二维(2D)阵列转变为包括高度扬声器的三维(3D)阵列,所以创作和渲染声音的任务变得越来越复杂。在一些情况下,提高的复杂度已经涉及需要被存储和/或流传输的音频数据的量的相当大的增加。改进的方法和设备将是期望的。
技术实现思路
本公开中描述的主题的一些方面涉及不参照任何特定的再现环境而创建的包括音频对象的音频数据。如本文所使用的,术语“音频对象”可以是指音频信号和相关联的音频对象元数据的流。元数据可以至少指示音频对象的位置。但是,在一些例子中,元数据还可以指示去相关数据、渲染约束数据、内容类型数据(例如,对话、效果等)、增益数据、轨迹数据等。一些音频对象可以是静态的,而其他音频对象可以具有时变的元数据:这样的音频对象可以移动,可以改变大小,和/或可以具有随着时间而改变的其他性质。当在再现环境中监视或回放音频对象时,可以至少根据音频对象位置数据来渲染音频对象。渲染处理可以包含对输出声道的集合中的每个声道计算音频对象增益值的集合。每个输出声道可以对应于再现环境的一个或多个再现扬声器。因此,渲染处理可以包含至少部分地基于音频对象元数据来将音频对象渲染到一个或多个扬声器馈送信号中。扬声器馈送信号可以对应于再现环境内的再现扬声器定位。如本文详细地描述的,在一些实现中,一种方法可以包含接收包括多个音频对象的音频数据。音频对象可以包括音频信号和相关联的音频对象元数据。在一些例子中,多个音频对象可以对应于音频数据的单个帧。可以对音频对象中的每个音频对象确定重要性度量,该重要性度量可以至少部分地基于能量度量。在一些实现中,能量度量可以是与根据频率变化的人类听力灵敏度相对应的感知能量度量。一些例子可以包含根据每个音频对象的能量度量来对音频对象进行排序(sort)。一些方法可以包含至少部分地基于通过对音频对象中的每个音频对象的能量度量进行求和而计算的总能量值来对音频对象中的所有音频对象确定总体(global)重要性度量。这样的方法可以包含对音频对象中的每个音频对象确定估计的量化位深和量化误差。一些这样的方法可以包含对音频对象中的所有音频对象计算总噪声度量。根据一些实现,总噪声度量可以至少部分地基于与估计的量化位深相对应的总量化误差。可替代地,或附加地,总噪声度量可以至少部分地基于与根据频率而变化的人类听力灵敏度相对应的感知噪声度量。一些实现可以包含:计算与总噪声度量和总能量值相对应的总信噪比,并且通过确定总信噪比是否小于或等于信噪比阈值来对音频对象中的每个音频对象确定最终量化位深,并且如果确定总信噪比超过信噪比阈值,则迭代地执行以下步骤,直到确定总信噪比小于或等于信噪比阈值为止:识别与最大的量化误差相对应的音频对象;增大用于对与最大的量化误差相对应的音频对象进行量化的位深;重新计算总噪声度量;并且重新计算总信噪比。该方法可以包含根据最终量化位深来对与音频对象中的每个音频对象相对应的音频信号进行量化。一些这样的例子可以包含将量化的音频信号输出到无损编码器。一些这样的方法可以包含:对音频对象中的每个音频对象估计与多个量化位深中的每个量化位深相对应的音频对象量化误差;对音频对象中的所有音频对象计算与多个量化位深中的每个量化位深相对应的总量化误差;并且至少暂时地存储估计的音频对象量化误差和计算的总量化误差。在一些例子中,确定估计的量化位深可以包含:确定每个音频对象的能量度量与总能量值的能量比,并且根据能量比、对每个音频对象确定估计的量化位深。在一些实现中,重要性度量可以至少部分地基于音频对象元数据。例如,元数据可以包括音频对象位置数据,重要性度量可以至少部分地基于音频对象位置数据。根据一些实现,元数据可以包括音频对象优先级数据,重要性度量可以至少部分地基于音频对象优先级数据。一些方法可以包含使音频信号抖动(dither)。总噪声度量可以包括抖动噪声。音频对象中的至少一些可以是静态音频对象。但是,音频对象中的至少一些可以是具有时变的元数据(诸如时变的位置数据)的动态音频对象。本文所描述的方法中的一些或全部可以由一个或多个设备根据存储在非暂时性介质上的指令(例如,软件)执行。这样的非暂时性介质可以包括存储器设备,诸如本文所描述的那些,包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。例如,软件可以包括用于控制用于接收包括一个或多个音频对象的音频数据的一个或多个设备的指令。音频对象可以包括音频信号和相关联的音频对象元数据。软件可以包括用于接收包括多个音频对象的音频数据的指令。音频对象可以包括音频信号和相关联的音频对象元数据。在一些例子中,多个音频对象可以对应于音频数据的单个帧。可以对音频对象中的每个音频对象确定重要性度量,该重要性度量可以至少部分地基于能量度量。在一些实现中,能量度量可以是与根据频率而变化的人类听力灵敏度相对应的感知能量度量。一些例子可以包含根据每个音频对象的能量度量来对音频对象进行排序。软件可以包括用于执行以下操作的指令:至少部分地基于通过对音频对象中的每个音频对象的能量度量进行求和而计算的总能量值来对音频对象中的所有音频对象确定总体重要性度量;对音频对象中的每个音频对象确定估计的量化位深和量化误差;对音频对象中的所有音频对象计算总噪声度量,总噪声度量至少部分地基于与估计的量化位深相对应的总量化误差;计算与总噪声度量和总能量值相对应的总信噪比;并且通过确定总信噪比是否小于或等于信噪比阈值来对音频对象中的每个音频对象确定最终量化位深,如果确定总信噪比超过信噪比阈值,则迭代地执行以下步骤,直到确定总信噪比小于或等于信噪比阈值为止:识别与最大的量化误差相对应的音频对象;增大用本文档来自技高网
...

【技术保护点】
1.一种对音频数据进行处理的方法,该方法包括:接收包括多个音频对象的音频数据,音频对象包括音频信号和相关联的音频对象元数据;对音频对象中的每个音频对象确定重要性度量,重要性度量至少部分地基于能量度量;对音频对象中的所有音频对象确定总体重要性度量,总体重要性度量至少部分地基于通过对音频对象中的每个音频对象的能量度量进行求和而计算的总能量值;对音频对象中的每个音频对象确定估计的量化位深和量化误差;对音频对象中的所有音频对象计算总噪声度量,总噪声度量至少部分地基于与估计的量化位深相对应的总量化误差;计算与总噪声度量和总能量值相对应的总信噪比;并且通过以下操作来对音频对象中的每个音频对象确定最终量化位深:确定总信噪比是否小于或等于信噪比阈值;并且如果确定总信噪比超过信噪比阈值,则迭代地执行以下步骤,直到确定总信噪比小于或等于信噪比阈值为止:识别与最大的量化误差相对应的音频对象;增大用于对与最大的量化误差相对应的音频对象进行量化的位深;重新计算总噪声度量;并且重新计算总信噪比,该方法进一步包括根据最终量化位深来对与音频对象中的每个音频对象相对应的音频信号进行量化。

【技术特征摘要】
【国外来华专利技术】2016.01.26 EP 16152783.3;2016.01.26 US 62/287,3481.一种对音频数据进行处理的方法,该方法包括:接收包括多个音频对象的音频数据,音频对象包括音频信号和相关联的音频对象元数据;对音频对象中的每个音频对象确定重要性度量,重要性度量至少部分地基于能量度量;对音频对象中的所有音频对象确定总体重要性度量,总体重要性度量至少部分地基于通过对音频对象中的每个音频对象的能量度量进行求和而计算的总能量值;对音频对象中的每个音频对象确定估计的量化位深和量化误差;对音频对象中的所有音频对象计算总噪声度量,总噪声度量至少部分地基于与估计的量化位深相对应的总量化误差;计算与总噪声度量和总能量值相对应的总信噪比;并且通过以下操作来对音频对象中的每个音频对象确定最终量化位深:确定总信噪比是否小于或等于信噪比阈值;并且如果确定总信噪比超过信噪比阈值,则迭代地执行以下步骤,直到确定总信噪比小于或等于信噪比阈值为止:识别与最大的量化误差相对应的音频对象;增大用于对与最大的量化误差相对应的音频对象进行量化的位深;重新计算总噪声度量;并且重新计算总信噪比,该方法进一步包括根据最终量化位深来对与音频对象中的每个音频对象相对应的音频信号进行量化。2.根据权利要求1所述的方法,进一步包括:对音频对象中的每个音频对象估计与多个量化位深中的每个量化位深相对应的音频对象量化误差;对音频对象中的所有音频对象计算与所述多个量化位深中的每个量化位深相对应的总量化误差;并且至少暂时地存储估计的音频对象量化误差和计算的总量化误差。3.根据权利要求1或权利要求2所述的方法,其中,重要性度量至少部分地基于音频对象元数据。4.根据权利要求3所述的方法,其中,音频对象元数据包括音频对象位置数据,并且其中,重要性度量至少部分地基于音频对象位置数据。5.根据权利要求1-4中任一项所述的方法,进一步包括使音频信号抖动,其中,总噪声度量包括抖动噪声。6.根据权利要求1-5中任一项所述的方法,其中,确定估计的量化位深包含:确定每个音频对象的能量度量与总能量值的能量比;并且根据能量比、对每个音频对象确定估计的量化位深。7.根据权利要求1-6中任一项所述的方法,其中,能量度量是与根据频率而变化的人类听力灵敏度相对应的感知能量度量。8.根据权利要求1-7中任一项所述的方法,进一步包括根据每个音频对象的能量度量来对音频对象进行排序。9.根据权利要求1-8中任一项所述的方法,其中,多个音频对象对应于音频数据的单个帧。10.根据权利要求1-9中任一项所述的方法...

【专利技术属性】
技术研发人员:N·R·茨恩高斯Z·G·科恩V·库玛
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1