兼容现有音视频系统的三维声信号的编码器及其方法技术方案

技术编号:18304883 阅读:50 留言:0更新日期:2018-06-28 13:41
本发明专利技术公开一种兼容现有音视频系统的三维声信号的编码器及其方法,包括下混及基础声道划分模块,用于接收基础声道和/或声音对象,按照下混方案进行下混和基础声道划分操作,输出下混兼容基础声道、扩展基础声道、基础声道划分边信息;兼容编码模块,用于接收下混兼容基础声道,输出下混兼容基础声道编码数据;扩展编码模块,用于接收声音对象、下混方案、扩展基础声道、基础声道划分边信息,输出扩展编码数据;打包模块,用于接收下混兼容基础声道编码数据和扩展编码数据,进行分别打包输出或者混合打包输出三维声数据码流。本发明专利技术能够更好地兼容已有音视频系统的编码和解码方法,同时具备三维声编解码的能力。

Encoder and method compatible with existing 3D audio signal of audio and video system

The invention discloses an encoder and method for compatible three-dimensional sound signal of the existing audio and video system, including the lower mixing and the basic sound channel division module for receiving the basic sound channel and / or the sound object. In accordance with the lower mixing scheme, the lower mixed basic sound channel division operation is carried out, and the mixed compatible basic sound channel, the extended basic sound channel, and the base are output. The basic sound channel divides the edge information; the compatible coding module is used to receive the mixed compatible basic sound channel, and outputs the mixed compatible basic sound channel encoding data; the extended coding module is used for receiving the sound object, the downmixing scheme, the extended basic sound channel, the basic sound channel division edge information, and the output spread encoding data; the packaging module is used for connection. The mixed compatible basic channel coding data and the extended coding data are received, and the three dimensional audio data stream is packaged, output or mixed packaged separately. The invention can better match the encoding and decoding methods of the existing audio and video system, and has the ability of three-dimensional sound encoding and decoding.

【技术实现步骤摘要】
兼容现有音视频系统的三维声信号的编码器及其方法
本专利技术涉及一种三维声编解码处理
,具体涉及兼容现有音视频系统的三维声信号的编码器及其方法。
技术介绍
经过多年发展,立体声、5.1、7.1环绕声等系统已经获得了广泛的应用,这些系统因缺乏声音的高度信息,最多只能呈现二维的声音。在真实的世界中,三维声是声音最真实的呈现和表达方式,无论自然界、艺术领域或视听娱乐领域,三维声都是未来的发展趋势。在现有的系统中,三维声可以是多声道信号(如9.1、11.1、13.1和22.2等),可以是多个声音对象,也可以是两者的组合。在三维声系统中,多声道信号可以是环绕声信号,如5.1、7.1等,也可以是多层多声道信号(即多层声道信号分布在不同高度平面)。例如,有些三维声系统采用中间层及顶层的两层平面,有些三维声系统采用三层系统等。有些三维声系统只有多层多声道信号,但没有声音对象,例如SMPTE的22.2三维声系统和AURO9.1系统等。有些三维声系统则既有多层多声道信号,也有声音对象,例如MPEG-H、DolbyAtmos和DTS:X系统。当然,作为一个极端的例子,三维声也可以全部是声音对象信号。三维声作为刚刚出现的新技术和系统,还没有获得广泛的应用,其推广需要一个很长的发展阶段。因立体声、环绕声系统的普遍存在,三维声系统只有最大限度的兼容已经普遍存在的立体声或环绕声系统,才能获得市场的接受,并逐步成为主流。
技术实现思路
专利技术目的:本专利技术目的在于针对网络、电视等的三维声系统应用,提供一种兼容现有音视频系统的三维声信号的编码器及其方法,该方法能够更好兼容已有音视频系统的编码和解码方法,同时具备三维声编解码的能力。技术方案:本专利技术所述的三维声编码器,包括:下混及基础声道划分模块,用于接收基础声道和/或声音对象,按照下混方案进行下混和基础声道划分操作,输出下混兼容基础声道、扩展基础声道、基础声道划分边信息;兼容编码模块,用于接收下混兼容基础声道,输出下混兼容基础声道编码数据;扩展编码模块,用于接收声音对象、下混方案、扩展基础声道、基础声道划分边信息,输出扩展编码数据;打包模块,用于接收下混兼容基础声道编码数据和扩展编码数据,将下混兼容基础声道编码数据和扩展编码数据进行分别打包输出下混兼容基础声道数据码流和扩展编码数据码流或者将下混兼容基础声道编码数据和扩展编码数据进行混合打包输出三维声数据码流。进一步完善上述技术方案,在采用系统自适应选择的下混方案时,所述下混及基础声道划分模块包括下混模块和基础声道划分模块,下混模块用于接收基础声道和声音对象,输出下混兼容基础声道和下混方案,基础声道划分模块用于接收基础声道、下混模块生成的下混方案,输出扩展基础声道、基础声道划分边信息。进一步地,在采用外部输入确定的下混方案时,所述下混及基础声道划分模块包括下混模块和基础声道划分模块,下混模块用于接收基础声道、声音对象、外部输入的下混方案,输出下混兼容基础声道;基础声道划分模块用于接收基础声道、外部输入的下混方案,输出扩展基础声道、基础声道划分边信息。所述扩展编码模块采用有损编码或无损编码进行编码,在采用有损编码和外部输入确定的下混方案时,所述下混及基础声道划分模块包括下混模块和基础声道划分模块,基础声道划分模块用于接收基础声道和外部输入的下混方案,输出所述扩展基础声道和基础声道划分边信息;所述扩展编码模块输出的扩展编码数据通过扩展解码模块进行解码,解码的下混方案、解码的扩展基础声道、解码的声音对象、解码的基础声道划分边信息与所述基础声道输入至下混模块,下混模块输出所述下混兼容基础声道。进一步地,所述下混模块按照下混方案将基础声道、声音对象下混为下混兼容基础声道,下混兼容基础声道信号分为基础声道下混分量、声音对象下混分量,基础声道下混分量分为扩展基础声道下混分量、兼容基础声道下混分量。所述下混模块采用PAN系统或WFS系统或Ambisonic系统或者功能类似的下混系统执行下混操作。进一步地,所述基础声道划分模块将基础声道划分为兼容基础声道、扩展基础声道,;所述基础声道划分模块采用的基础声道划分方案根据基础声道的声道配置、所要兼容的多声道系统及下混映射函数确定,如根据对应下混声道的划分方法确定或者根据基于QR分解的划分方法确定。根据对应下混声道的划分方法确定的基础声道划分方案包括:S11:令集合Sbedt=Sbed,Ssrt=Ssr,基础声道信号集合下混兼容基础声道信号集合fb(k,i)为下混映射函数;S12:遍历集合Ssrt,找出一个满足如下关系的下混兼容基础声道k:对于所有属于Sc中的声道n,有fb(k,n)=0;若没有找到,执行步骤S15;S13:对于步骤S12中的下混兼容基础声道k,遍历集合Sbedt,找出fb(k,m)不为0且fb(k,m)可逆的基础声道m,若没有找到,执行步骤S15;S14:将步骤S13中找到的基础声道m加入到集合Sc中,得到新的Sc,从Ssrt中去除下混兼容基础声道k,得到新的Ssrt,从Sbedt中去除所有满足fb(k,i)不为0的基础声道i,得到新的Sbedt,若新的Ssrt、新的Sbedt都不为空,跳转到步骤S12,若新的Ssrt、新的Sbedt为空,则执行步骤S15;S15:Sc或Sc的子集作为基础声道集合Sbed的兼容基础声道集合。根据基于QR分解的划分方法确定的基础声道划分方案包括:S21:令Sbedc=Sbed,Sbed为基础声道信号集合;S22:采用矩阵运算形式表达Sbedc的下混:Hs_bedcop=HAc*Hbc,Hs_bedcop为Sbedc下混形成的下混分量组成的矩阵,Hbc为Sbedc中基础声道信号组成的矩阵,HAc为Sbedc下混系数矩阵;S23:对HAc进行QR分解,得HAc=Q*HR,其中Q为一个Ns×Ns的酉矩阵,HR是一个Ns×Nbc的上三角矩阵;S24:设M=min(Ns,Nbc),Ns为基础声道下混的声道数、Nbc为Sbedc的声道数,如果对于HR中每一个n=1…M,都满足r(n,n)>0,执行步骤S25;否则,对于每一个n=1…M,如果HR中r(n,n)=0,将Sbedc中第n个声道从Sbedc中剔除形成新的集合Sbedc‘,令Sbedc=Sbedc‘并执行步骤S22;S25:保留Sbedc中n=1…M的声道组成的集合,该集合或集合的子集作为基础声道集合Sbed的兼容基础声道集合。进一步地,所述兼容编码模块与扩展编码模块采用相同的编码格式或者不同的编码格式进行编码。进一步地,所述兼容编码模块为音频编码模块,用于接收下混兼容基础声道,输出音频编码数据;所述打包模块为TS/PS打包模块,将音频编码数据和扩展编码数据进行分别打包输出符合TS/PS规范的音频流和私有流。采用上述三维编码器进行三维声编码方法,包括如下步骤:按照下混方案将基础声道和/或声音对象下混为所兼容的下混兼容基础声道,将基础声道划分为扩展基础声道、兼容基础声道并确定基础声道划分边信息;将声音对象、下混方案、扩展基础声道、基础声道划分边信息进行编码得到扩展编码数据;对下混兼容基础声道进行编码生成下混兼容基础声道编码数据,对下混兼容基础声道编码数据、扩展编码数据进行分开打包或混合打包后输出。用于兼容音视频系本文档来自技高网...
兼容现有音视频系统的三维声信号的编码器及其方法

【技术保护点】
1.一种三维声编码器,其特征在于,包括:下混及基础声道划分模块,用于接收基础声道和/或声音对象,按照下混方案进行下混和基础声道划分操作,输出下混兼容基础声道、扩展基础声道、基础声道划分边信息;兼容编码模块,用于接收下混兼容基础声道,输出下混兼容基础声道编码数据;扩展编码模块,用于接收声音对象、下混方案、扩展基础声道、基础声道划分边信息,输出扩展编码数据;打包模块,用于接收下混兼容基础声道编码数据和扩展编码数据,将下混兼容基础声道编码数据和扩展编码数据进行分别打包输出下混兼容基础声道数据码流和扩展编码数据码流或者将下混兼容基础声道编码数据和扩展编码数据进行混合打包输出三维声数据码流。

【技术特征摘要】
1.一种三维声编码器,其特征在于,包括:下混及基础声道划分模块,用于接收基础声道和/或声音对象,按照下混方案进行下混和基础声道划分操作,输出下混兼容基础声道、扩展基础声道、基础声道划分边信息;兼容编码模块,用于接收下混兼容基础声道,输出下混兼容基础声道编码数据;扩展编码模块,用于接收声音对象、下混方案、扩展基础声道、基础声道划分边信息,输出扩展编码数据;打包模块,用于接收下混兼容基础声道编码数据和扩展编码数据,将下混兼容基础声道编码数据和扩展编码数据进行分别打包输出下混兼容基础声道数据码流和扩展编码数据码流或者将下混兼容基础声道编码数据和扩展编码数据进行混合打包输出三维声数据码流。2.根据权利要求1所述的三维声编码器,其特征在于:所述下混及基础声道划分模块包括下混模块和基础声道划分模块,下混模块用于接收基础声道和声音对象,输出下混兼容基础声道和下混方案,基础声道划分模块用于接收基础声道、下混模块生成的下混方案,输出扩展基础声道、基础声道划分边信息。3.根据权利要求1所述的三维声编码器,其特征在于:所述下混及基础声道划分模块包括下混模块和基础声道划分模块,下混模块用于接收基础声道、声音对象、外部输入的下混方案,输出下混兼容基础声道;基础声道划分模块用于接收基础声道、外部输入的下混方案,输出扩展基础声道、基础声道划分边信息。4.根据权利要求1所述的三维声编码器,其特征在于:所述下混及基础声道划分模块包括下混模块和基础声道划分模块,基础声道划分模块用于接收基础声道和外部输入的下混方案,输出所述扩展基础声道和基础声道划分边信息;所述扩展编码模块输出的扩展编码数据通过扩展解码模块进行解码,解码的下混方案、解码的扩展基础声道、解码的声音对象、解码的基础声道划分边信息与所述基础声道输入至下混模块,下混模块输出所述下混兼容基础声道。5.根据权利要求2至4任一所述三维声编码器,其特征在于:所述下混模块按照下混方案将基础声道、声音对象下混为下混兼容基础声道,下混兼容基础声道信号分为基础声道下混分量、声音对象下混分量,基础声道下混分量分为扩展基础声道下混分量、兼容基础声道下混分量。6.根据权利要求2至4任一所述的三维声编码器,其特征在于:所述基础声道划分模块将基础声道划分为兼容基础声道、扩展基础声道;所述基础声道划分模块采用的基础声道划分方案根据基础声道的声道配置、所要兼容的多声道系统及下混映射函数确定,如根据对应下混声道的划分方法确定或者根据基于QR分解的划分方法确定。7.根据权利要求6所述的三维声编码器,其特征在于:根据对应下混声道的划分方法确定的基础声道划分方案包括:S11:令集合Sbedt=Sbed,Ssrt=Ssr,基础声道信号集合下混兼容基础声道信号集合fb(k,i)为下混映射函数;S12:遍历集合Ssrt,找出一个满足如下关系的下混兼容基础声道k:对于所有属于Sc中的声道n,有fb(k,n)=0;若没有找到,执行步骤S15;S13:对于步骤S12中的下混兼容基础声道k,遍历集合Sbedt,找出fb(k,m)不为0且fb(k,m)可逆的基础声道m,若没有找到,执行步骤S15;S14:将步骤S13中找到的基础声道m加入到集合Sc中,得到新的Sc,从Ssrt中去除下混兼容基础声道k,得到新的Ssrt,从Sbedt中去除所有满足fb(k,i)不为0的基础声道i,得到新的Sbedt,若新的Ssrt、新的Sbedt都不为空,跳转到步骤S12,若新的Ssrt、新的Sbedt为空,则执行步骤S15;S15:Sc或Sc的子集作为基础声道集合Sbed的兼容基础声道集合。8.根据权利要求6所述的三维声编码器,其特征在于:根据基于QR分解的划分方法确定的基础声道划分方案包括:S21:令Sbedc=Sbed,Sbed为基础声道信号集合;S22:采用矩阵运算形式表达Sbedc的下混:Hs_bedcop=HAc*Hbc,Hs_bedcop为Sbedc下混形成的下混分量组成的矩阵,Hbc为Sbedc中基础声道信号组成的矩阵,HAc为Sbedc下混系数矩阵;S23:对HAc进行QR分解,得HAc=Q*HR,其中Q为一个Ns×Ns的酉矩阵,HR是一个Ns×Nbc的上三角矩阵;S24:设M=min(Ns,Nbc),Ns为基础声道下混的声道数、Nbc为Sbedc的声道数,如果对于HR中每一个n=1…M,都满足r(n,n)>0,执行步骤S25;否则,对于每一个n=1…M,如果HR中r(n,n)=0,将Sbedc中第n个声道从Sbedc中剔除形成新的集合Sbedc‘,令Sbedc=Sbedc‘并执行步骤S22;S25:保留Sbedc中n=1…M的声道组成的集合,该集合或集合的子集作为基础声道集合Sbed的兼容基础声道集合。9.根据权利要求1所述的三维声编码器,其特征在于:所述兼容编码模块与扩展编码模块采用相同的编码格式或者不同的编码格式进行编码。10.根据权利要求1所述的三维声编码器,其特征在于:所述兼容编码模块为音频编码模块,用于接收下混兼容基础声道,输出音频编码数据;所述打包模块为TS/PS打包模块,将音频编码数据和扩展编码数据进行分别打包输出符合TS/PS规范的音频流和私有流。11.一种三维声编码方法,其特征在于,包括如下步骤:按照下混方案将基础声道和/或声音对象下混为所兼容的下混兼容基础声道,将基础声道划分为扩展基础声道、兼容基础...

【专利技术属性】
技术研发人员:潘兴德陈笑天吴超刚
申请(专利权)人:南京青衿信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1