一种全景声音频处理方法技术

技术编号:14139593 阅读:47 留言:0更新日期:2016-12-10 14:58
本发明专利技术公开了一种全景声音频处理方法,所述方法包括:服务器端获取不同格式的音频信号,转码获得中间格式音频信号;对中间格式音频信号叠加,得到输出给客户端的中间格式音频信号;客户端从服务器端获取输出给客户端的中间格式音频信号;获取头部旋转方向;解码获得全景声双耳信号。所述方法能够有效且高质量地生成全景声,全景声在服务器端经过处理,统一为中间格式,很好地改善了全景声内容格式的兼容性,减小了网络带宽占用量并且减轻了客户端的处理复杂度,解决了现有客户端无法有效、高效地播放各种格式的全景声内容的问题。头部旋转的全景声渲染在客户端完成,也满足了头部追踪低延时的需求,尤其适用于虚拟现实的应用。

【技术实现步骤摘要】

本专利技术涉及信号处理
,具体涉及一种全景声音频处理方法
技术介绍
在用虚拟现实头戴设备(Head-Mounted Display,HMD)向用户呈现内容时,音频内容通过立体声耳机向用户播放。这时需要面临如何提高虚拟环绕声效果的问题。在虚拟现实应用中,当通过立体声耳机播放音频内容时,虚拟3D音频的目的是想要达到一种效果,让用户就像用扬声器阵列(如5.1或7.1)听一样,甚至像听现实中的声音一样真实。在制作虚拟现实音频内容时,通常有需要几种声音元素。一种提高临场感的方法是跟踪用户头部动作(head tracking),对声音进行相应的处理。比如,如果原始声音被用户感知为来自正前方,当用户向左转头90度后,声音应被处理使得用户感知声音来自正右方90度。在这里虚拟现实设备可以有很多种类,比如带头部跟踪的显示设备,或者只是一部带头部跟踪传感器的立体声耳机。实现头部跟踪也有多种方法。比较常见的是使用多种传感器。运动传感器套件通常包括加速度计、陀螺仪和磁力传感器。在运动跟踪和绝对方向方面每种传感器都有自己固有的强项和弱点。因此常用做法是采用传感器“融合”(sensor fusion),将来自各传感器的信号组合在一起,产生一个更加精确的运动检测结果。在得到头部旋转角度后,需要对声音进行相应的变化。生成虚拟现实声场有以下几种方法:一种做法是是对音频对象使用HRTF(Head Related Transfer Function,头相关变换函数)滤波器进行滤波,得到虚拟环绕声。HRTF在时间域所对应的名称是HRIR(Head Related Impulse Response)。或者将音源与双耳房间脉冲响应(Binaural Room Impulse Response,BRIR)做卷积。双耳房间脉冲响应由三个部分组成:直达声、早期反射声和混响。直接将音频对象和BRIR卷积这种做法的缺点是如果场景复杂,含有大量的音频对象,则复杂度会变得非常高,特别是在虚拟现实设备上还需要根据头部的动作对音频对象的位置进行实时调整,对于很多音频播放终端,这将导致功耗过大,甚至无法播放。另外大量的音频对象数据从服务器到客户端对带宽的要求极高,不切合实际。第二种方式是将声音转到ambisonic域,然后再通过使用旋转矩阵对信号做变换。具体做法是将音频转为B格式信号,将该B格式信号转换为虚拟扬声器阵列信号,将虚拟扬声器阵列信号通过HRTF滤波器进行滤波,得到虚拟环绕声。第三种方法是采用人头录音,直接得到双耳的信号。通过多个方向的人头录音,进行插值,从而得到头部在任何旋转角度时的双耳信号。可以看到,虚拟现实全景声存在多种格式,在效率以及效果上各有优缺点。现有的虚拟现实全景声客户端一般无法完全支持和兼容各种全景声格式。同时,由于复杂度和带宽的限制,客户端支持有的全景声格式会力不从心。有鉴于此,在本领域需要一种有效且高质量生成虚拟现实全景声的系统解决方案。
技术实现思路
本专利技术的目的在于提供一种全景声音频处理方法,采用服务器加客户端的音频处理方式,能有效地在服务器端兼容输入的各种全景声格式,将其根据应用和内容,动态地选择兼容性好的中间格式进行转码输出,从而大大改善了客户端对全景声的兼容性,降低了客户端处理全景声的复杂度,减小了服务器到客户端传送全景声信号的带宽。客户端只需要从服务器端获取全景声的中间格式,以及虚拟现实头戴设备获取的头部方向,即可解码获得全景声双耳信号,通过立体声耳机播放,即能获得全景声体验。为实现上述目的,本专利技术所述的全景声音频处理方法包括以下步骤:服务器端获取不同格式的音频信号,对不同格式的音频信号进行转码获得中间格式音频信号;对所述中间格式音频信号叠加,得到输出给客户端的中间格式音频信号;客户端从服务器端获取输出给客户端的中间格式音频信号;获取头部旋转方向;解码获得全景声双耳信号。优选地,所述不同格式的音频信号包括多方向双耳录音信号、声场录音信号和音频对象信号。优选地,所述中间格式音频信号包括多路binaural信号和Ambisonic信号。优选地,服务器端对所述不同格式的音频信号转码为统一的中间格式音频信号,具体包括:a、对于中间格式音频信号为多路binaural信号的情况:将输入的多方向双耳录音信号、声场录音信号和音频对象信号都统一转码成多路binaural信号;b、对于中间格式音频信号为Ambisonic信号的情况:将输入的多方向双耳录音信号、声场录音信号和音频对象信号都统一转码成Ambisonic信号。优选地,服务器端对所述不同格式的音频信号混合地或动态地同时转码为多种中间格式音频信号。优选地,对所述中间格式音频信号叠加指的是将不同格式的音频信号转码得到的中间格式音频信号混合叠加在一起,得到最终输出给客户端的中间格式音频信号。优选地,所述头部旋转方向包括头部注视方向的水平角和仰角。优选地,所述的头部旋转方向的获取是通过虚拟现实头戴设备的传感器得到的。优选地,所述的解码指的是将中间格式音频信号解码转换为全景声双耳信号,具体包括:a、对于中间格式音频信号为多路binaural信号的情况:将多路binaural信号,根据头部旋转角度,插值得到全景声双耳信号;b、对于中间格式音频信号为Ambisonic信号的情况:将Ambisonic信号,通过根据头部旋转角度得到的旋转矩阵处理得到声场旋转后的Ambisonic信号;再通过解码矩阵转换为虚拟扬声器阵列信号,将虚拟扬声器阵列信号通过对应的HRTF滤波器进行滤波,得到全景声双耳信号。本专利技术具有如下优点:本专利技术所述全景声音频处理方法能够有效且高质量地生成全景声,主要用于配合虚拟现实头戴设备进行音频的立体声耳机播放,并且所述全景声在服务器端经过处理,统一为中间格式,很好地改善了全景声内容格式的兼容性,减小了网络带宽占用量并且减轻了客户端的处理复杂度,很好地适应了现有的基于云架构的网络类型,由云端服务器执行主要的音频处理、存储和分发,从而解决了现有客户端无法有效、高效地播放各种格式的全景声内容的问题。头部旋转的全景声渲染在客户端完成,也满足了头部追踪低延时的需求,尤其适用于虚拟现实的应用。附图说明图1是本专利技术所述全景声音频处理方法的流程示意图。具体实施方式以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。如图1所示,本专利技术所述的全景声音频处理方法包括以下步骤:服务器端获取不同格式的音频信号,将其根据应用和内容,动态选择兼容性好的中间格式进行转码,获得中间格式音频信号;对所述中间格式音频信号叠加,得到输出给客户端的中间格式音频信号;客户端从服务器端获取(例如通过互联网)输出给客户端的中间格式音频信号;获取头部旋转方向;解码获得全景声双耳信号。优选地,所述不同格式的音频信号包括多方向双耳录音信号(比如quad binaural)、声场录音信号(比如Ambisonic)和音频对象信号。优选地,所述中间格式音频信号包括多路binaural信号和Ambisonic信号。优选地,服务器端对所述不同格式的音频信号转码为统一的中间格式音频信号,具体包括:a、对于中间格式音频信号为多路binaural信号的情况:将输入的多方向双耳录音信号、声场录音信号和音频对象信号都统一转码成多路binaura本文档来自技高网
...
一种全景声音频处理方法

【技术保护点】
一种全景声音频处理方法,其特征在于,所述全景声音频处理方法包括以下步骤:服务器端获取不同格式的音频信号,对不同格式的音频信号进行转码获得中间格式音频信号;对所述中间格式音频信号叠加,得到输出给客户端的中间格式音频信号;客户端从服务器端获取输出给客户端的中间格式音频信号;获取头部旋转方向;解码获得全景声双耳信号。

【技术特征摘要】
1.一种全景声音频处理方法,其特征在于,所述全景声音频处理方法包括以下步骤:服务器端获取不同格式的音频信号,对不同格式的音频信号进行转码获得中间格式音频信号;对所述中间格式音频信号叠加,得到输出给客户端的中间格式音频信号;客户端从服务器端获取输出给客户端的中间格式音频信号;获取头部旋转方向;解码获得全景声双耳信号。2.如权利要求1所述全景声音频处理方法,其特征在于,所述不同格式的音频信号包括多方向双耳录音信号、声场录音信号和音频对象信号。3.如权利要求1所述全景声音频处理方法,其特征在于,所述中间格式音频信号包括多路binaural信号和Ambisonic信号。4.如权利要求1所述全景声音频处理方法,其特征在于,服务器端对所述不同格式的音频信号...

【专利技术属性】
技术研发人员:孙学京张晨
申请(专利权)人:北京时代拓灵科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1