一种远程声场实时虚拟重现的方法与装置制造方法及图纸

技术编号:24419408 阅读:85 留言:0更新日期:2020-06-06 13:14
本发明专利技术公开一种远程声场实时虚拟重现的方法与装置。该方法包括:(1)采用端对端的卷积神经网络,由用户耳部图像推知个性化的仰角定位因素,并以此为依据对通用HRTF进行个性化定制,进一步将定制的个性化HRTF应用于双耳虚拟声信号的合成;(2)基于用户头部位置的实时检测,实现跟踪头部位置的动态双耳虚拟声信号的重放。上述个性化定制和实时动态的虚拟声信号处理方法可以增强用户的现场感和沉浸感。所述装置包括远程声场多通路捡拾模块、云处理模块、用户端模块和5G通讯模块。本发明专利技术的实施基于云计算技术和5G网络传输,可有效减轻用户端的运算负荷,满足多用户的并行需求。本发明专利技术可视为基于移动便携设备的虚拟现实的声模块方案。

A method and device for real-time virtual reproduction of remote sound field

【技术实现步骤摘要】
一种远程声场实时虚拟重现的方法与装置
本专利技术涉及3D虚拟声
,具体涉及一种远程声场实时虚拟重现的方法与装置。
技术介绍
随着基于移动终端(例如手机、平板)的互联网时代的发展,远程实时3D直播成为大众喜爱的娱乐、学习以及交际的方式。视听信息的交互协调是远程实时3D直播的关键,是用户现场感和沉浸感的重要决定因素。目前,相比于视觉信息的远程实时传输,听觉信息远程实时传输的成熟度和效果都有待提升,主要体现在虚拟声的个性化重放和声场动态调整两个方面。为了充分涵盖现场的所有声信息,目前主流采用传声器阵列实施多通路捡拾。由于移动用户端主要采用双通路耳机进行声重放,因此需要采用虚拟声技术将多通路捡拾声信号转变为双耳声信号。头相关传输函数(HRTF)是虚拟声技术的核心,它反映了人体的生理结构(例如耳廓、头部、肩部、躯干等)对入射声波的反射及衍射作用。不同用户的生理结构在细节形态和尺寸等方面存在差异,因此它们对声波的作用也存在个体差异。这意味着,HRTF因人而异,是一个具有个性化的参量。现有研究表明,相较于个性化HRTF,采用非个性化HRTF(如通用HRTF)进行虚拟声信号处理,将出现定位精度下降(特别是仰角方向)、前后混乱增多等现象,破坏用户的沉浸感。然而,无论是通过测量还是计算的途径获取个性化HRTF都需要特定的场所或设备,因此现有虚拟声产品中普遍使用通用HRTF进行虚拟声信号处理。虚拟声技术采用头坐标系统,以听者的头中心为坐标原点。如果希望远程用户获得“身临其境”的现场声感受,就需要根据用户头部的位置实时动态地调整双耳虚拟声信号。然而,现有的主流系统主要还是采用静态重放,即假设在观看直播过程中用户的头保持不动。这主要是受限于两个方面:1)头部跟踪设备比较昂贵,尚未成为移动终端的标配;2)网络传输速度有限。动态虚拟重放的数据量远大于静态虚拟重放;如果强行实施动态重放,将出现声滞后以及视听不匹配等现象。上述不足制约了远程声场实时虚拟重现技术的发展和相关产品性能的进一步提高。
技术实现思路
基于移动终端、云处理技术(含神经网络)以及5G网络的发展,本专利技术为解决上述不足,提供了一种远程声场实时虚拟重现的方法与装置,涉及三维空间虚拟声的个性化定制方法和一种远程声场的动态自适应调整技术。本专利技术采用端对端的卷积神经网络,由用户耳部图像推知个性化的仰角定位因素,并以此为依据对通用HRTF实施进行个性化定制(即频移),进一步将定制的个性化HRTF应用于双耳虚拟声信号的合成;此外,利用移动终端的外设进行用户头部位置的实时检测,实现跟踪头部位置的动态双耳虚拟声信号的重放。上述HRTF个性化定制和实时动态的虚拟声处理方法可以增强用户的现场感和沉浸感。本专利技术的目的通过以下技术方案实现。一种远程声场实时虚拟重现的方法,其特征是,包括如下步骤:步骤1、用户将自身的耳部图像上传至云服务器的神经网络模型,获取用户HRTF的特征谷曲线;步骤2、以特征谷曲线为依据,对通用HRTF进行个性化定制,得到用户的个性化HRTF数据;步骤3、对远程声场进行实时的多通路声捡拾并将捡拾信号上传至云服务器;步骤4、将捡拾信号和用户个性化HRTF数据进行卷积和叠加运算,生成多个空间位置的双耳虚拟声信号;步骤5、根据用户端实时检测并上传的用户头部空间位置,调取相应空间位置的双耳虚拟声信号,发送至用户端的耳机设备进行声重放。步骤6、按照一定的时间采样间隔,重复步骤3到步骤5,直至远程声场直播结束。进一步地,步骤1中所述的处于云服务器的神经网络模型已事先训练好,训练步骤包括:步骤101、选取一个已知的完备HRTF数据库,它包含M名受试者的全空间HRTF数据和受试者的耳部图像;步骤102:对于其中一个受试者m(m=1,2,…,M),采用头中心坐标系,选取受试者中垂面上沿仰角均匀分布的N个HRTF数据,逐个提取HRTF特征谷的频率位置fm,n(n=1,2,…,N);步骤103:拟合仰角和特征谷频率位置fm,n的关系,获得该受试者的HRTF的特征谷曲线步骤104:对HRTF数据库中的每个受试者实施步骤102和步骤103,获得所有M名受试者HRTF特征谷曲线的集合步骤105、构建一个端对端的卷积神经网络。将全体受试者的耳部图像作为网络输入,将HRTF特征谷曲线集合作为网络输出,训练网络;步骤106、保存训练好的网络,即为神经网络模型。进一步地,步骤101中所述的已知的完备HRTF数据库,可选取美国CIPICHRTF数据库或奥地利ARIHRTF数据库等;为了增大训练数据量,也可将不同的HRTF数据库联合使用;进一步地,步骤1中云服务器的神经网络模型已通过训练建立了耳部图像和HRTF的特征谷曲线的映射关系,因此将用户的耳部图像输入神经网络模型,就可以获得其HRTF的特征谷曲线。进一步地,步骤2中对通用HRTF进行个性化定制,可通过频移实现。假设通用HRTF在仰角方向的特征谷频率位置为通过查询步骤1获取的用户HRTF的特征谷曲线可得到该仰角方向用户的特征谷频率位置为在时间域,将通用HRTF即HGenetic代入即可得到定制的用户个性化HRTF即HIndividual。如果(f1-f0)为正,表明需要将通用HRTF向较f0高的频率方向移动;如果(f1-f0)为负,表明需要将通用HRTF向较f0高的频率方向移动。进一步地,步骤1和步骤2都涉及双耳信息的处理,包括左耳图像、右耳图像、左耳中垂面HRTF和右耳中垂面HRTF。这里将双耳问题转化为单耳问题。具体的:以左耳为例,将右耳图像进行180°空间翻转即可获得一个新的左耳图像;左耳图像和左耳中垂面HRTF相对应,新的左耳图像和右耳中垂面HRTF相对应。进一步地,步骤4中选取用户在收看远程直播过程中可能的头部空间区域,如水平方位角-10°≤θ≤10°,仰角按照的网格精度划分空间区域,计算每个网格节点的双耳虚拟声信号。进一步地,步骤5中根据头动设备捕获的头部实时位置坐标按照最近邻的挑选原则,确定头位置最近邻的空间节点,读取该节点的双耳虚拟声信号。一种用于实现所述方法的装置,包括:远程声场多通路捡拾模块,采用传声器阵列捡拾远程的现场声信号,阵列输出为多通路声信号;云处理模块,包括基于神经网络的个性化HRTF的获取,并将获取的个性化HRTF应用于多个空间位置的双耳虚拟声信号的合成;根据用户实时的头位置信息,挑选合适的双耳虚拟声信号重放;用户端模块,由拍摄装置、头部跟踪装置和耳机组成。拍摄装置用于拍摄用户的耳部图像,头部跟踪装置用于检测头部的实时位置,耳机用于播放双耳虚拟声信号。5G通讯模块,采用5G通讯技术实施云处理模块和远程声场多通路捡拾模块、云处理模块和用户端模块之间的通讯。进一步地,所述的云处理模块包括:个性化HRTF定制模块,用于事前训练并建立反映耳部图像和HRTF特征谷曲线的映射关系的卷积神经网络;将用户的本文档来自技高网
...

【技术保护点】
1.一种远程声场实时虚拟重现的方法,其特征是,包括如下步骤:/n步骤1、用户将自身的耳部图像上传至云服务器的神经网络模型,获取用户HRTF的特征谷曲线;/n步骤2、以特征谷曲线为依据,对通用HRTF进行个性化定制,得到用户的个性化HRTF数据;/n步骤3、对远程声场进行实时的多通路声捡拾并将捡拾信号上传至云服务器;/n步骤4、将捡拾信号和用户个性化HRTF数据进行卷积和叠加运算,生成多个空间位置的双耳虚拟声信号;/n步骤5、根据用户端实时检测并上传的用户头部空间位置,调取相应空间位置的双耳虚拟声信号,发送至用户端的耳机设备进行声重放;/n步骤6、按照设定的时间采样间隔,重复步骤3到步骤5,直至远程声场直播结束。/n

【技术特征摘要】
1.一种远程声场实时虚拟重现的方法,其特征是,包括如下步骤:
步骤1、用户将自身的耳部图像上传至云服务器的神经网络模型,获取用户HRTF的特征谷曲线;
步骤2、以特征谷曲线为依据,对通用HRTF进行个性化定制,得到用户的个性化HRTF数据;
步骤3、对远程声场进行实时的多通路声捡拾并将捡拾信号上传至云服务器;
步骤4、将捡拾信号和用户个性化HRTF数据进行卷积和叠加运算,生成多个空间位置的双耳虚拟声信号;
步骤5、根据用户端实时检测并上传的用户头部空间位置,调取相应空间位置的双耳虚拟声信号,发送至用户端的耳机设备进行声重放;
步骤6、按照设定的时间采样间隔,重复步骤3到步骤5,直至远程声场直播结束。


2.根据权利要求1所示的一种远程声场实时虚拟重现的方法,其特征是:步骤1中所述云服务器的神经网络模型已事先训练好,训练步骤包括:
步骤101、选取一个已知的HRTF数据库,它包含M名受试者的全空间HRTF数据和受试者的耳部图像;
步骤102:对于其中一个受试者m(m=1,2,…,M),采用头中心坐标系,选取受试者中垂面上沿仰角均匀分布的N个HRTF数据,逐个提取HRTF特征谷的频率位置fm,n(n=1,2,…,N);
步骤103:拟合仰角和特征谷频率位置fm,n的关系,获得该受试者的HRTF的特征谷曲线
步骤104:对HRTF数据库中的每个受试者实施步骤102和步骤103,获得所有M名受试者HRTF特征谷曲线的集合
步骤105、构建一个端对端的卷积神经网络,将全体受试者的耳部图像作为网络输入,将HRTF特征谷曲线集合作为网络输出,训练网络;
步骤106、保存训练好的网络,即为神经网络模型。


3.根据权利要求2所示的一种远程声场实时虚拟重现的方法,其特征是:步骤101中所述的已知的完备HRTF数据库。


4.根据权利要求1所示的一种远程声场实时虚拟重现的方法,其特征是:步骤1中云服务器的神经网络模型已通过训练建立了耳部图像和HRTF的特征谷曲线的映射关系,将用户的耳部图像输入神经网络模型,就可以获得其HRTF的特征谷曲线。


5.根据权利要求1所示的一种远程声场实时虚拟重现的方法,其特征是,步骤2中对通用HRTF进行个性化定制,能通过频移实现:设通用HRTF在仰角方向的特征谷频率位置为通过查询步骤1获取的用户HRTF的特征谷曲线可得到该仰角方向用户的特征谷频率位置为在时间域,将通用HRTF即HGenetic代入



得到定制...

【专利技术属性】
技术研发人员:钟小丽赖焯威宋昊
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1