【技术实现步骤摘要】
【国外来华专利技术】用音频信号及相关联元数据表示空间音频相关申请案的交叉参考此申请案主张以下专利申请案的优先权权益:2018年11月13日申请的第62/760,262号美国临时专利申请案;2019年1月22日申请的第62/795,248号美国临时专利申请案;2019年4月2日申请的第62/828,038号美国临时专利申请案;及2019年10月28日申请的第62/926,719号美国临时专利申请案,其内容特此以引用方式并入。
本文中的揭示内容大体上涉及包括音频对象的音频场景的编码。特定来说,其涉及用于表示空间音频的方法、系统、计算机程序产品及数据格式,及用于编码、解码及渲染空间音频的相关联编码器、解码器及渲染器。
技术介绍
将4G/5G高速无线接入引入电信网络,再加上功能日益强大的硬件平台的可用性,已为比以往任何时候都更快且更容易地部署高级通信及多媒体服务提供基础。第三代合作伙伴计划(3GPP)增强语音服务(EVS)编解码器已通过引入超宽带(SWB)及全带(FB)语音及音频编码以及改进的数据包丢失复原,高度显著地改善用户体验。然而,扩展的音频带宽只是真正沉浸式体验所需的维度之一。理想地,以资源有效的方式使用户沉浸在令人信服的虚拟世界中需要支持超过由EVS当前提供的单声道及多声道-单声道。另外,3GPP中当前指定的音频编解码器为立体声内容提供合适的质量及压缩,但缺少对话语音及电话会议所需的对话特征(例如足够低的延时)。这些编码器还缺少沉浸式服务(例如实时流、虚拟现实(VR)及沉浸式电话会议)所必需的多通道功能 ...
【技术保护点】
1.一种用于表示空间音频的方法,所述空间音频是定向声音与扩散声音的组合,所述方法包括:/n通过下混来自捕获所述空间音频的音频捕获单元中的多个麦克风(m1、m2、m3)的输入音频信号创建单通道或多通道下混音频信号;/n确定与所述下混音频信号相关联的第一元数据参数,其中所述第一元数据参数指示以下项中的一或多者:与每一输入音频信号相关联的相对时间延迟值、增益值及相位值;及/n将所述经创建下混音频信号及所述第一元数据参数组合成所述空间音频的表示。/n
【技术特征摘要】
【国外来华专利技术】20181113 US 62/760,262;20190122 US 62/795,248;20191.一种用于表示空间音频的方法,所述空间音频是定向声音与扩散声音的组合,所述方法包括:
通过下混来自捕获所述空间音频的音频捕获单元中的多个麦克风(m1、m2、m3)的输入音频信号创建单通道或多通道下混音频信号;
确定与所述下混音频信号相关联的第一元数据参数,其中所述第一元数据参数指示以下项中的一或多者:与每一输入音频信号相关联的相对时间延迟值、增益值及相位值;及
将所述经创建下混音频信号及所述第一元数据参数组合成所述空间音频的表示。
2.根据权利要求1所述的方法,其中将所述经创建下混音频信号及所述第一元数据参数组合成所述空间音频的表示进一步包括:
在所述空间音频的所述表示中包含第二元数据参数,所述第二元数据参数指示所述输入音频信号的下混配置。
3.根据权利要求1或2所述的方法,其中针对所述麦克风输入音频信号的一或多个频带确定所述第一元数据参数。
4.根据权利要求1到3中任一权利要求所述的方法,其中用以创建单通道或多通道下混音频信号x的所述下混通过以下项来描述:
x=D·m
其中:
D是含有定义针对来自所述多个麦克风的每一输入音频信号的权重的下混系数的下混矩阵,且
m是表示来自所述多个麦克风的所述输入音频信号的矩阵。
5.根据权利要求4所述的方法,其中选取所述下混系数来选择当前具有关于所述定向声音的最佳信噪比的所述麦克风的所述输入音频信号,及丢弃来自任何其它麦克风的信号输入音频信号。
6.根据权利要求5所述的方法,其中所述选择是针对每时间频率TF片基础做出的。
7.根据权利要求5所述的方法,其中所述选择是针对特定音频帧的所有频带做出的。
8.根据权利要求4所述的方法,其中当组合来自所述不同麦克风的所述输入音频信号时,选取所述下混系数以最大化关于所述定向声音的所述信噪比。
9.根据权利要求8所述的方法,其中所述最大化是针对特定频带进行的。
10.根据权利要求8所述的方法,其中所述最大化是针对特定音频帧进行的。
11.根据权利要求1到10中任一权利要求所述的方法,其中确定第一元数据参数包含分析以下项中的一或多者:来自所述多个麦克风的所述输入音频信号的延迟、增益及相位特性。
12.根据权利要求1到11中任一权利要求所述的方法,其中所述第一元数据参数是以每时间频率TF片为基础确定的。
13.根据权利要求1到12中任一权利要求所述的方法,其中所述下混的至少一部分发生于所述音频捕获单元中。
14.根据权利要求1到12中任一权利要求所述的方法,其中所述下混的至少一部分发生于编码器中。
15.根据权利要求1到14中任一权利要求所述的方法,其进一步包括:
响应于检测到一个以上定向声源,针对每一源确定第一元数据。
16.根据权利要求1到15中任一权利要求所述的方法,其中所述空间音频的所述表示包含以下参数中的至少一者:方向指数;直接能与总能比;扩展相干性;每一麦克风的到达时间、增益及相位;扩散能与总能比;周围相干性;剩余能与总能比;及距离。
17.根据权利要求1到16中任一权利要求所述的方法,其中所述第二或第一元数据参数中的元数据参数指示所述经创建下混音频信号是从左右立体声信号产生,从平面一阶环境立体声FOA信号产生,还是从一阶环境立体声分量信号产生。
18.根据权利要求1到17中任一权利要求所述的方法,其中所述空间音频的所述表示含有组织到定义字段及选择符字段中的元数据参数,所述定义字段指定与所述多个麦克风相关联的至少一个延迟补偿参数集,且所述选择符字段指定延迟补偿参数集的所述选择。
19.根据权利要求18所述的方法,其中所述选择符字段指定将什么延迟补偿参数集应用于任何给定时间频率片。
20.根据权利要求1到19中任一权利要求所述的方法,其中所述相对时间延迟值大约是在[-2.0ms,2.0ms]的间隔内。
21.根据权利要求18所述的方法,其中所述空间音频的所述表示中的所述元数据参数进一步包含指定经应用增益调整的字段及指定相位调整的字段。
22.根据权利要求21所述的方法,其中所述增益调整大约是在[+10dB,-30dB]的间隔内。
23.根据权利要求1到22中任一权利要求所述的方法,其中使用存储于存储器中的查找表在所...
【专利技术属性】
技术研发人员:S·布鲁恩,
申请(专利权)人:杜比实验室特许公司,杜比国际公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。