一种声音对象的编码方法技术

技术编号:13601276 阅读:61 留言:0更新日期:2016-08-27 16:27
本发明专利技术公开了一种声音对象的编码方法,包括:获取声场空间的声音对象;以声场空间水平切面中心、与录音师双耳连线中心等高的位置为原点建立三维坐标系;将声音对象的位置轨迹以帧为单位划分,每帧分为若干块;确定声音对象第i块的位置坐标为(x(i),y(i),z(i));确定声音对象的作用区域为(φ,θ,γ),其中φ为声音对象和原点连线在xoy平面上的投影与x轴的夹角、范围[0,2π),θ为声音对象和原点连线与z轴的夹角,γ是锥面张开大小的、定义为锥面母线和中轴线的夹角,范围[0,π/2]。本发明专利技术提供的声音对象的编码方法,将声音对象的坐标(x、y、z)和有效作用区域(φ,θ,γ)统一到一个坐标系统,实现更高效率的空间表示和更好的声场效果。

【技术实现步骤摘要】

本专利技术涉及声音编码
,具体涉及一种声音对象的编码方法
技术介绍
随着计算能力和网络的快速发展,在电影、电视、音乐、游戏、虚拟现实和网络视频等应用领域,能表现真实三维声场的音频录制、缩混编辑、编码、解码、渲染和回放技术,有着重要的应用价值。“全景声”是对三维声场的形象描述。目前,MPEG推出了MPEG H的三维声编码技术,Dolby公司推出了Atmos全景声编码技术,都在传统多声道信号编码的基础上,提出了声音对象编码的概念。其中,Dolby Atmos采用直接记录声音对象的三维运动轨迹的方式,对声音对象的三维坐标(x、y、z)进行编码,并且对声音对象的渲染和回放方式,划分为9个矩形区域。MPEG H则不直接对声音对象编码,而是采用参数立体声的编码技术,将多个声音混合成一个单声道信号,并对每个声音对象的空间感知信息(相位、强度和相关性)编码;在解码时,先解码单声道和信号,再利用声音对象的空间感知信息,恢复出每个声音对象。在高质量应用场合,如电影等领域,Dolby Atmos能够获得比MPEG H更高的声音质量。但是Dolby Atmos的空间坐标体系、坐标表示方法、声音对象坐标编码方法、声音对象分区表示方法都存在编码效率低、声音表现力差和声音制作不方便等局限。DolbyAtmos在描述声场时,将坐标原点定于前方左侧屏幕扬声器高度位置,从原点到右墙为X轴,从原点到后墙为Y轴,从原点到房顶为Z轴;同时,将房间划分为左侧屏幕扬声器区域、中间屏幕扬声器区域、右侧屏幕扬声器区域、左墙扬声器区域、右墙扬声器区域、后墙左侧扬声器区域、后墙右侧扬声器区域、左房顶扬声器区域和右房顶扬声器区域等九个区域。以如上的位置坐标和区域划分来编码声音对象。DolbyAtmos的坐标原点定义和区域是分离的,对点声源、面声源和扩散声源等声音对象的表达效率不高。另外,Dolby Atmos的扬声器区域和实际声音对象的有效作用区域不是等价关系,后者是实际物理声场的更准确描述。从声音编码效率的角度看,一般来说在表达完整的信息的前提下力争用更少的码流,从而达到更高的编码效率。现有的坐标定义方法是用一个固定的比特数来对坐标进行编码,比如DolbyAtmos就是将位置坐标的映射到单位立方体中,得到一个范围在[0,1]的小数,然后用12比特来储存这个无符号小数。这样编码的结果是无论位置坐标
是否变化都要用12比特来存储,从而产生了大量的码流的浪费。实际上,声音对象的位置大多变化缓慢,在相邻帧或相邻块之间的位置坐标数据间存在较大冗余。从声音表现力来看,现有的空间区域划分都是采用的固定划分的方式,例如DolbyAtmos将空间划分为左侧屏幕扬声器区域、中间屏幕扬声器区域、右侧屏幕扬声器区域、左墙扬声器区域、右墙扬声器区域、后墙左侧扬声器区域、后墙右侧扬声器区域、左房顶扬声器区域和右房顶扬声器区域等九个区域。这样对于声音对象的定位就缺乏弹性,可选择的余地较少,从而使声音表现不够灵活。
技术实现思路
专利技术目的:针对现有技术的不足,本专利技术提供一种声音对象的编码方法,实现更高效率的空间表示和更好的声场效果。技术方案:本专利技术所述的声音对象的编码方法,包括:获取声场空间的声音对象;以声场空间水平切面中心、与录音师双耳连线中心等高的位置为原点建立三维坐标系;将声音对象的位置轨迹以帧为单位划分,每帧分为若干块;确定声音对象第i块的位置坐标为(x(i),y(i),z(i));位置坐标(x,y,z)映射为(pID,Ax,Ay,Az),pID为象限标识符,Ax、Ay、Az为位置坐标的绝对值。所述声音对象的作用区域为(φ,θ,γ),其中为声音对象和原点连线在xoy平面上的投影与x轴的夹角、范围[0,2π),θ为声音对象和原点连线与z轴的夹角,γ是描述锥面张开大小的、定义为锥面母线和中轴线的夹角,范围[0,π/2]。进一步完善上述技术方案,所述声场空间采用归一化坐标,位置坐标绝对值Ax、Ay、Az的取值范围为[0,1]。进一步地,所述象限标识符pID与(x,y,z)的符号位信息(signb(x),signb(y),signb(z))相对应,其中signb(x)是取符号位运算signb(x)=0,当x>=0;signb(x)=1,当x<0。进一步地,所述声音对象采用1024样本为一帧,每帧分为4块或2块。有益效果:与现有技术相比,本专利技术的优点:本专利技术提供的一种声场空间的坐标定义方法,并引入了声音对象有效作用区域,并用锥形表示,将声音对象的坐标(x、y、z)和有效作用区域(φ,θ,γ)统一到一个坐标系统,实现更高效率的空间表示和
更好的声场效果,点源可以仅用三维坐标值表示,面源不仅需要三维坐标值,还需要区域信息,更有效的表示点源声音对象、面源声音对象,实现更高效率的空间表示和更好的声场效果,更加完善的三维声场;编码效率高、声音表现力好且声音制作方便。而本专利技术提出了一种新的划分方式,以对象与原点的连线为中轴来得到一个圆锥,圆锥的张角可调,圆锥所笼罩的区域就是对象的有效作用区域。现有的区域划分是从扬声器的角度出发对扬声器的分布进行区域划分,而本专利技术是从对象的角度出发划分出对象的有效作用区域,有利于录音师定义自己理想的有效作用区域,而在进行对象呈现时可以根据实际声场的扬声器布置和所采用的呈现算法来灵活地决定扬声器的取舍,这样形成的区域划分将使得对声音对象的重建更加具有表现力。从声音的制作的角度来看,通过灵活的定义了声音对象的位置以及声场空间的区域划分,在声音制作的环节上能够方便地在传统的3D立体声基础上随意添加声音对象,使得无论录音还是声音制作的环节都充满了灵活性。附图说明图1为本专利技术的扬声器的区域划分示意图。具体实施方式下面结合附图对本专利技术技术方案进行详细说明。实施例1:以一个立方体来描述声场空间为例,典型应用是扬声器布置于立方体的边界面。声音对象的空间坐标定义:将坐标原点定义为水平切面的中心、高度与录音师监听时耳朵齐平的位置,并令x轴指向右侧(墙),y轴指向前方(通常为屏幕),z轴垂直指向上方(房顶)。对声场空间采用归一化坐标表示,x轴、y轴和z轴的最大绝对坐标值为1,z轴较短一侧为地面,其归一化绝对坐标值为a(a<1),则此声场空间的8个坐标为:(1,1,1)——表示区域前方右上角;(-1,1,1)——表示区域前方左上角;(1,1,-a)——表示区域前方右下角;(-1,1,-a)——表示区域前方左下角;(1,-1,1)——表示区域后方右上角;(-1,-1,1)——表示区域后方左上角;(1,-1,-a)——表示区域后方右下角;(-1,-1,-a)——表示区域后方左下角。声音对象的位置轨迹编码以帧为单位划分,每帧进一步分为若干块。为和压缩编码兼容,采用1024个样本为一帧:48kHz采样频率时,每个块为256个样本,时间间隔为5.3ms;96kHz采样频率时,每个块为512个样本,时间间隔为5.3ms。第i块的某一声音对象的位置坐标表示为(x(i),y(i),z(i)),i=1、2、3、4。声音对象的位置坐标(x,y,z)可以映射为用四个量(pID,Ax,Ay,Az)来描述,即象限标识符pID和位置坐标的绝对值Ax、Ay、Az(取本文档来自技高网
...

【技术保护点】
一种声音对象的编码方法,其特征在于,包括:获取声场空间的声音对象;以声场空间水平切面中心、与录音师双耳连线中心等高的位置为原点建立三维坐标系;将声音对象的位置轨迹以帧为单位划分,每帧分为若干块;确定声音对象第i块的位置坐标为(x(i),y(i),z(i));位置坐标(x,y,z)映射为(pID,Ax,Ay,Az),pID为象限标识符,Ax、Ay、Az为位置坐标的绝对值。

【技术特征摘要】
1.一种声音对象的编码方法,其特征在于,包括:获取声场空间的声音对象;以声场空间水平切面中心、与录音师双耳连线中心等高的位置为原点建立三维坐标系;将声音对象的位置轨迹以帧为单位划分,每帧分为若干块;确定声音对象第i块的位置坐标为(x(i),y(i),z(i));位置坐标(x,y,z)映射为(pID,Ax,Ay,Az),pID为象限标识符,Ax、Ay、Az为位置坐标的绝对值。2.根据权利要求1所述声音对象的编码方法,其特征在于:所述声音对象的作用区域为(φ,θ,γ),其中φ为声音对象和原点连线在xoy平面上的投影与x轴的夹角、范围[0,2π),θ为声音对象和原点连线与z轴的夹角,γ是描述锥面...

【专利技术属性】
技术研发人员:潘兴德吴超刚
申请(专利权)人:南京青衿信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1