一种远程声场实时虚拟重现的方法与装置制造方法及图纸

技术编号：24419408 阅读：85 留言：0更新日期：2020-06-06 13:14

本发明专利技术公开一种远程声场实时虚拟重现的方法与装置。该方法包括：（1）采用端对端的卷积神经网络，由用户耳部图像推知个性化的仰角定位因素，并以此为依据对通用HRTF进行个性化定制，进一步将定制的个性化HRTF应用于双耳虚拟声信号的合成；（2）基于用户头部位置的实时检测，实现跟踪头部位置的动态双耳虚拟声信号的重放。上述个性化定制和实时动态的虚拟声信号处理方法可以增强用户的现场感和沉浸感。所述装置包括远程声场多通路捡拾模块、云处理模块、用户端模块和5G通讯模块。本发明专利技术的实施基于云计算技术和5G网络传输，可有效减轻用户端的运算负荷，满足多用户的并行需求。本发明专利技术可视为基于移动便携设备的虚拟现实的声模块方案。

A method and device for real-time virtual reproduction of remote sound field

全部详细技术资料下载

【技术实现步骤摘要】
一种远程声场实时虚拟重现的方法与装置
本专利技术涉及3D虚拟声
，具体涉及一种远程声场实时虚拟重现的方法与装置。
技术介绍
随着基于移动终端(例如手机、平板)的互联网时代的发展，远程实时3D直播成为大众喜爱的娱乐、学习以及交际的方式。视听信息的交互协调是远程实时3D直播的关键，是用户现场感和沉浸感的重要决定因素。目前，相比于视觉信息的远程实时传输，听觉信息远程实时传输的成熟度和效果都有待提升，主要体现在虚拟声的个性化重放和声场动态调整两个方面。为了充分涵盖现场的所有声信息，目前主流采用传声器阵列实施多通路捡拾。由于移动用户端主要采用双通路耳机进行声重放，因此需要采用虚拟声技术将多通路捡拾声信号转变为双耳声信号。头相关传输函数(HRTF)是虚拟声技术的核心，它反映了人体的生理结构(例如耳廓、头部、肩部、躯干等)对入射声波的反射及衍射作用。不同用户的生理结构在细节形态和尺寸等方面存在差异，因此它们对声波的作用也存在个体差异。这意味着，HRTF因人而异，是一个具有个性化的参量。现有研究表明，相较于个性化HRTF，采用非个性化HRTF(如通用HRTF)进行虚拟声信号处理，将出现定位精度下降(特别是仰角方向)、前后混乱增多等现象，破坏用户的沉浸感。然而，无论是通过测量还是计算的途径获取个性化HRTF都需要特定的场所或设备，因此现有虚拟声产品中普遍使用通用HRTF进行虚拟声信号处理。虚拟声技术采用头坐标系统，以听者的头中心为坐标原点。如果希望远程用户获得“身临其境”的现场声感受，就需要根据用户头部的位置实时...

【技术保护点】
1.一种远程声场实时虚拟重现的方法，其特征是，包括如下步骤：/n步骤1、用户将自身的耳部图像上传至云服务器的神经网络模型，获取用户HRTF的特征谷曲线；/n步骤2、以特征谷曲线为依据，对通用HRTF进行个性化定制，得到用户的个性化HRTF数据；/n步骤3、对远程声场进行实时的多通路声捡拾并将捡拾信号上传至云服务器；/n步骤4、将捡拾信号和用户个性化HRTF数据进行卷积和叠加运算，生成多个空间位置的双耳虚拟声信号；/n步骤5、根据用户端实时检测并上传的用户头部空间位置，调取相应空间位置的双耳虚拟声信号，发送至用户端的耳机设备进行声重放；/n步骤6、按照设定的时间采样间隔，重复步骤3到步骤5，直至远程声场直播结束。/n

【技术特征摘要】
1.一种远程声场实时虚拟重现的方法，其特征是，包括如下步骤：
步骤1、用户将自身的耳部图像上传至云服务器的神经网络模型，获取用户HRTF的特征谷曲线；
步骤2、以特征谷曲线为依据，对通用HRTF进行个性化定制，得到用户的个性化HRTF数据；
步骤3、对远程声场进行实时的多通路声捡拾并将捡拾信号上传至云服务器；
步骤4、将捡拾信号和用户个性化HRTF数据进行卷积和叠加运算，生成多个空间位置的双耳虚拟声信号；
步骤5、根据用户端实时检测并上传的用户头部空间位置，调取相应空间位置的双耳虚拟声信号，发送至用户端的耳机设备进行声重放；
步骤6、按照设定的时间采样间隔，重复步骤3到步骤5，直至远程声场直播结束。

2.根据权利要求1所示的一种远程声场实时虚拟重现的方法，其特征是：步骤1中所述云服务器的神经网络模型已事先训练好，训练步骤包括：
步骤101、选取一个已知的HRTF数据库，它包含M名受试者的全空间HRTF数据和受试者的耳部图像；
步骤102：对于其中一个受试者m(m＝1,2,…,M)，采用头中心坐标系，选取受试者中垂面上沿仰角均匀分布的N个HRTF数据，逐个提取HRTF特征谷的频率位置fm,n(n＝1,2,…,N)；
步骤103：拟合仰角和特征谷频率位置fm,n的关系，获得该受试者的HRTF的特征谷曲线
步骤104：对HRTF数据库中的每个受试者实施步骤102和步骤103，获得所有M名受试者HRTF特征谷曲线的集合
步骤105、构建一个端对端的卷积神经网络，将全体受试者的耳部图像作为网络输入，将HRTF特征谷曲线集合作为网络输出，训练网络；
步骤106、保存训练好的网络，即为神经网络模型。

3.根据权利要求2所示的一种远程声场实时虚拟重现的方法，其特征是：步骤101中所述的已知的完备HRTF数据库。

4.根据权利要求1所示的一种远程声场实时虚拟重现的方法，其特征是：步骤1中云服务器的神经网络模型已通过训练建立了耳部图像和HRTF的特征谷曲线的映射关系，将用户的耳部图像输入神经网络模型，就可以获得其HRTF的特征谷曲线。

5.根据权利要求1所示的一种远程声场实时虚拟重现的方法，其特征是，步骤2中对通用HRTF进行个性化定制，能通过频移实现：设通用HRTF在仰角方向的特征谷频率位置为通过查询步骤1获取的用户HRTF的特征谷曲线可得到该仰角方向用户的特征谷频率位置为在时间域，将通用HRTF即HGenetic代入

得到定制...

【专利技术属性】
技术研发人员：钟小丽，赖焯威，宋昊，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人