当前位置: 首页 > 专利查询>DTS公司专利>正文

使用深度学习图像分析的房间声学仿真制造技术

技术编号:30149026 阅读:35 留言:0更新日期:2021-09-25 14:55
一种方法包括:接收真实世界环境的图像;使用机器学习分类器,对所述图像进行分类以生成与用于声学环境仿真的声学预设置相关联的分类,所述声学预设置均包括表示声音混响的声学参数;以及基于所述分类,在所述声学预设置当中选择声学预设置。当中选择声学预设置。当中选择声学预设置。

【技术实现步骤摘要】
【国外来华专利技术】使用深度学习图像分析的房间声学仿真
[0001]优先权要求
[0002]本申请要求2018年12月24日提交的美国临时专利申请No.62/784,648的优先权,该申请的全部内容通过引用并入本文。


[0003]本公开涉及对图像进行分类以用于增强现实。

技术介绍

[0004]增强现实(AR)是合并真实世界和虚拟世界以生成新的环境和可视化,其中实际的或真实的物理对象和数字的或虚拟的对象共存,并且可以实时地相互作用。AR利用逼真的视觉和音频将虚拟世界带到用户的真实世界环境中。AR将来自虚拟声音对象的虚拟声音与真实的声学环境中的真实声音混合。来自虚拟声音对象的虚拟声音应与通过耳机向用户播放的等效的真实世界的声音匹配以确保令人愉快的AR体验。否则,用户经历AR体验的劣化。常规的技术使用复杂的多步处理来使虚拟声音与等效的真实世界的声音匹配。这样的复杂性将显著的听觉延迟引入到AR仿真中,这可能劣化用户体验。而且,该复杂性不利地提高了对于AR设备的处理要求,因此提高了AR设备的成本。
附图说明
[0005]图1A是被配置为向用户提供AR体验的示例性扩展现实(XR)系统的高级框图。
[0006]图1B是可以被用户穿戴并且被配置为向用户传递AR体验的示例性AR设备或系统的透视图。
[0007]图2是对于XR系统可以基于声学预设置仿真的环境的示例性声音响应的例示。
[0008]图3是可由XR系统执行的、与来自虚拟声音对象的声音的渲染组合的基于机器学习(ML)的分类的示例性方法的例示。
[0009]图4是使用ML分类将真实世界环境的图像直接分类到用于声学环境仿真的声学参数的声学预设置的示例性方法的流程图。
[0010]图5是使用ML分类将真实世界环境的图像分类到房间类型的示例性方法的流程图,然后可以从房间类型推导用于声学环境仿真的声学预设置。
[0011]图6是使用ML分类基于真实世界环境的场景及其相关联的声学预设置的高速缓存将真实世界环境的图像直接分类到用于声学环境仿真的声学参数的声学预设置的示例性方法的流程图。
[0012]图7是使用ML分类将真实世界环境的图像直接分类到用于声学环境仿真的一般/主要声学预设置和次要声学修改符的示例性方法的流程图。
[0013]图8是将图7的方法扩展到产生三维(3D)网格和从该3D网格的材料性质推导的声学参数的示例性方法的流程图。
[0014]图9A是基于根据第一训练场景的训练图像对XR系统的ML分类器进行训练并且ML
分类器一旦被训练、就使用ML分类器来对图像进行分类的示例性方法的例示。
[0015]图9B是用于图9A的训练方法的预训练数据准备的例示。
[0016]图10是根据第二训练场景和第三训练场景对ML分类器进行训练的示例性方法的例示。
[0017]图11A是根据第四训练场景对ML分类器进行训练的示例性方法的例示。
[0018]图11B是包括背对背180
°
鱼眼透镜并且在两个相机视角上捕捉房间的360
°
图像的示例性图像传感器的例示。
[0019]图12是与图1A的XR处理器实施例相比、包括附加功能的示例性XR处理器的框图。
[0020]图13是可以在XR处理器中使用或者与XR处理器一起使用以基于声学参数执行环境仿真的示例性交互式音频引擎(LAE)的框图。
[0021]图14是可由图12的XR处理器执行的示例性声学参数改善处理的流程图。
[0022]图15是由图12的XR处理器产生的示例性声学参数的表格。
[0023]图16是使用高速缓存的声学预设置的示例性XR处理器的框图。
[0024]图17是在声学预设置之间转变的示例性方法的流程图。
[0025]图18是在声学预设置之间转变并且执行可用图像安全性检查的示例性方法的流程图。
[0026]图19是在被校准的场景实施例中在声学预设置之间转变的示例性方法的流程图。
[0027]图20是ML分类器的从处于未被训练条件状态的ML分类器开始的深度神经网络(DNN)训练的示例性方法的例示。
[0028]图21是其中可以实现XR处理器和/或交互式音频引擎的示例性计算机设备的框图。
[0029]图22是直接将图像分类到声学预设置的示例性总结方法的流程图。
[0030]图23是直接对相对于在图22的方法中分类的图像的后续图像或第二图像进行分类的示例性方法的流程图。
具体实施方式
[0031]示例实施例
[0032]扩展现实(XR)通常涵盖虚拟显示(VR)和增强现实(AR),有时被称为混合现实(MR)。音频信号再现系统已经发展到将三维(3D)音频递送给收听者。在3D音频中,声音由耳机或听筒(为了简单,在本文中统称为“耳机”)生成,并且可以涉及或包括声音源在收听者听觉感知到的真实的或理论的3D空间或环境中的虚拟放置。例如,虚拟化声音可以在听到3D音频处理声音的收听者的上面、下面、或者甚至后面提供。经由耳机的常规音频再现趋向于提供被感知为源自或发源于收听者的头内部的声音。在例子中,通过耳机(包括使用常规的一对立体声耳机)递送的音频信号可以被特殊地处理以实现3D音频效果,诸如为收听者提供感知的空间声音环境。
[0033]3D音频耳机系统可以被用于VR应用,诸如为收听者在没有真实的声音源存在的局部或虚拟环境中的特定位置处提供声音源的感知。类似地,3D音频耳机系统可以被用于AR应用,从而为收听者在没有真实的声音源存在的位置处提供声音源的感知,但是是以收听者仍至少部分地知晓局部环境中的一个或多个真实声音的方式。用于VR或AR的由计算机产
生的音频渲染可以利用游戏和虚拟现实音频渲染系统和应用编程接口中的信号处理技术进展,诸如在计算机音乐和建筑声学领域中的先前进展之上构建或延伸。可以应用各种双耳技术、人工混响、物理房间声学建模和可听化(auralization)技术来为用户提供增强的收听体验。VR或AR信号处理系统可以被配置为再现一些声音以使得它们被收听者感知为发源于局部环境中的外部源,而不是发源于耳机或者发源于收听者的头内部的地点。
[0034]与VR 3D音频相比,AR音频涉及鼓励暂停参与者的怀疑(诸如通过提供与局部收听环境的声学基本上一致的仿真环境声学和源环境交互)的额外的挑战。这提出了如下挑战:以虚拟信号或添加信号包括或表示用户的环境的方式对这些信号提供音频信号处理,从而使得这些信号不容易与自然发生的或通过环境中的耳机再现的其他声音区分开。这样的音频信号处理通过对于给定的收听环境、匹配和应用混响性质来在虚拟声场中提供准确的声音源,所述混响性质包括衰减时间、混响响度特性和/或混响均衡特性(例如,混响的频谱内容)。在视听AR应用中,计算机产生的声音对象(被称为“虚拟声音对象”)可以经由声学透明的耳机来渲染,以与观看者/收听者自然地听到的物理环境混合。这样的混合可以包括或使用双耳人工混响处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:接收真实世界环境的图像;使用机器学习分类器,对所述图像进行分类以生成与用于声学环境仿真的声学预设置相关联的分类,所述声学预设置均包括表示声音混响的声学参数;以及基于所述分类,在所述声学预设置当中选择声学预设置。2.根据权利要求1所述的方法,进一步包括:基于所述声学预设置的声学参数来执行声学环境仿真。3.根据权利要求2所述的方法,其中,执行声学环境仿真包括基于所述声学预设置的声学参数来对虚拟地放置在真实世界环境中的一个或多个虚拟声音对象的声音混响进行建模。4.根据权利要求2所述的方法,进一步包括:使用所述机器学习分类器,对所述图像或一个或多个进一步的图像进行分类,以生成一个或多个声学参数修改符;以及基于所述一个或多个声学参数修改符来修改所述声学预设置的声学参数,以生成经修改的声学预设置,所述经修改的声学预设置包括用于声学环境仿真的经修改的声学参数,其中,执行声学环境仿真包括使用所述经修改的声学参数来执行声学环境仿真。5.根据权利要求1所述的方法,其中:所述声学参数包括以下中的一个或多个:频率相关的衰减时间、房间大小、反射延迟、早期起始时间和扩散水平。6.根据权利要求1所述的方法,其中,所述分类包括直接将所述图像分类到所述分类和相关联的声学预设置。7.根据权利要求1所述的方法,其中:所述分类包括对所述图像进行分类,以生成所述分类使得所述分类具有相应的置信水平;并且所述选择包括选择所述声学预设置使得所述声学预设置与所述分类当中具有相应的置信水平中的最高的置信水平的分类相关联。8.根据权利要求7所述的方法,进一步包括:接收所述真实世界环境的第二图像;使用所述机器学习分类器,对所述第二图像进行分类以生成具有相应的第二置信水平的第二分类;确定所述第二分类中的一个或多个是否具有超过置信水平阈值的相应的第二置信水平;以及如果所述第二分类中的一个或多个具有超过所述置信水平阈值的相应的第二置信水平,则基于所述第二分类,在所述声学预设置当中选择第二声学预设置,并且用第二声学预设置替换所述声学预设置以用于声学环境仿真。9.根据权利要求8所述的方法,进一步包括:如果所述第二分类中的一个或多个不具有超过所述置信水平阈值的对应的第二置信水平,则不选择所述第二声学预设置,并且不替换用于声学环境仿真的声学预设置。10.根据权利要求1所述的方法,其中,所述接收真实世界环境的图像包括接收作为所
述真实世界环境的360度图像的图像。11.根据权利要求1所述的方法,其中,所述图像表示不同图像的合成物。12.根据权利要求1所述的方法,其中,所述声学预设置的声学参数是通过算法从声学脉冲响应推导得到的,所述声学脉冲响应表示其上训练过所述机器学习分类器的训练图像中表示的真实世界环境。13.根据权利要求1所述的方法,其中,所述声学预设置的声学参数是基于主观声音设计而开发的。14.根据权利要求1所述的方法,进一步包括:对所述声学预设置执行声学参数安全性检查。15.根据权利要求1所述的方法,其中,所述机器学习分类器是在用相应的声学预设置贴标签的真实世界环境的训练图像上训练的。16.根据...

【专利技术属性】
技术研发人员:M
申请(专利权)人:DTS公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1