沉浸式显示设备上的自动音频衰减制造技术

技术编号:20290446 阅读:21 留言:0更新日期:2019-02-10 20:41
本文公开的示例涉及控制沉浸式显示设备上的音量。一个示例提供了一种近眼显示设备,包括传感器子系统、逻辑子系统和存储指令的存储子系统,这样的指令由逻辑子系统可执行以从传感器子系统接收图像传感器数据,呈现包括视觉分量和听觉分量的内容,在呈现内容时,经由图像传感器数据来检测语音可能正指向近眼显示设备的佩戴者,以及响应于检测到语音可能正指向佩戴者,衰减听觉分量的方面。

【技术实现步骤摘要】
【国外来华专利技术】沉浸式显示设备上的自动音频衰减
技术介绍
显示设备,诸如近眼显示设备,可以被配置为连同音频信息一起向用户呈现虚拟影响和其他内容,以提供沉浸式虚拟或增强现实体验。
技术实现思路
公开了涉及自动衰减沉浸式显示设备上的音量的示例。一个示例提供了近眼显示设备,包括传感器子系统、逻辑子系统和存储指令的存储子系统,这样的指令由逻辑子系统可执行以从传感器子系统接收图像传感器数据,呈现包括视觉分量和听觉分量的内容,在呈现内容时,经由图像传感器数据来检测语音可能正指向近眼显示设备的佩戴者,以及响应于检测到语音可能正指向佩戴者,衰减听觉分量的方面。提供本
技术实现思路
是为了以简化的形式介绍一些概念,这些概念将在下面的具体实施方式中进一步描述。本
技术实现思路
无意标识所要求保护的主题的关键特征或必要特征,也无意用于限制所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本公开的任何部分中提到的任何或所有缺点的实施方式。附图说明图1示出了用于示例近眼显示设备的示例使用场景。图2示出了用于多个近眼显示设备的示例使用场景。图3A和图3B示出了自动衰减经由近眼显示设备呈现的音频内容的音量的示例方法。图4示出了示例近眼显示系统的框图。图5示出了示例计算系统的框图。具体实施方式如上所述,近眼显示设备,诸如头戴式虚拟现实或增强现实显示设备,可以向用户呈现沉浸式音频/视觉体验。这样的体验可以用于媒体呈现、游戏、工作/生产以及用于许多其他计算交互。图1示出了示例使用场景100,其中示例性近眼显示设备102由正在玩沉浸式混合现实游戏的用户104所佩戴。如图所示,用户104通过透视显示系统查看与真实世界背景的视图混合的虚拟内容105。在这种沉浸式设置中,有时当其他人(诸如,人106)试图与用户104交互时,用户104可能不会注意到。解决这样的问题的一种方法可能是经由近眼显示设备上的麦克风来检测环境声音,并响应于检测到的环境声音来自动减小音频内容的音量。然而,这种方法可能导致在不适当的时间衰减音频呈现。例如,在图1中,从人108和人110之间的对话中检测到不是指向用户104的话音,但是在被设备102检测到时仍然可以导致音频内容的音量减小。因此,在依赖于不考虑检测到的环境音频源的环境音频检测的情况下,近眼显示设备102不能够将检测到的实际指向用户104的语音与不指向用户104的语音进行区分,并且可能随后在可能不适当或不期望的时候减少呈现的音频内容的音量。因此,所公开的示例涉及经由图像传感器数据来确定来自另一个人的语音是否可能指向可穿戴显示设备的用户,以及当作出这样的确定时,衰减近眼显示设备上的音频呈现的方面。例如,传感器数据可用于确定人是否接近该用户、人是否正面向用户、检测到的语音是否源自于与检测到的人相同的方向、和/或语音中的词是否指示语音指向该用户。然后,这些因素的存在或不存在可以被使用来帮助确定是否衰减沉浸式近眼体验的音频分量。这可以帮助减少在沉浸式体验的呈现中发生不期望的或不必要的中断。可以以各种方式来使用图像传感器数据确定人是否可能正将语音指向近眼显示设备的用户。例如,图像传感器数据可以用于确定一个或多个其他人相对于用户的定位(例如,位置和/或定向),因为这样的信息可以指示该人是否正在对用户讲话。作为更具体的示例,近眼显示设备102可以利用深度图像数据来检测人106在用户104的阈值距离内,例如,通过骨架拟合和/或基于深度神经网络、语义角色标记和/或其他合适算法的其他机器学习技术。然后,在检测到人106在阈值距离内时,近眼显示设备可以获取二维图像数据并且应用面部检测算法来确定人106正直接面对用户104。合适的面部检测算法的示例可以包括,但不限于,使用特征脸方法的主成分分析、线性判别分析、使用Fisherface算法的弹性束图匹配、隐马尔可夫模型、多线性子空间学习和动态链接匹配。确定一个人正面向用户可以指示该人正在对该用户讲话的较高可能性,同时确定一个人没有面对用户可以指示该人正在对该用户讲话的可能性较低并且可能反而是在与别人讲话。此外,近眼显示设备102可将姿势识别算法应用于深度数据,以识别人106的移动(例如,嘴部移动、手臂移动、手/手指移动等),其指示可能尝试与用户104的交互。合适的手势识别算法的示例包括但不限于,基于3D模型的算法、基于骨架的算法和基于外观的模型。使用这样的信息,近眼显示设备102然后可以确定人106可能正在对用户104讲话,并且作为响应,衰减在近眼显示设备102上呈现的音频内容,从而使用户104意识到要关注人106。这些具体示例无意是限制性的,因为图像数据可以以其他方式被用于检测人将语音指向近眼显示用户的可能性。例如,可以使用二维图像数据或深度图像数据来进行这样的确定。可以使用任何合适的图像传感器或图像传感器的组合。示例包括但不限于:深度图像传感器(例如,飞行时间(time-of-flight)、一个或多个结构光照相机和/或立体照相机布置)和二维图像传感器(例如,RGB和/或灰度传感器)。这样的一个或多个图像传感器可以被配置为获取可见光、红外和/或一个或多个其他合适波长范围内的图像。在一些示例中,图像数据可以与音频数据相结合以用于确定人可能正将语音指向近眼显示设备用户。例如,近眼显示设备首先可以检测经由被配置为检测环境声音的一个或多个麦克风进行讲话的人。在检测到人讲话时,近眼显示设备然后可以获取并分析图像数据,以确定该语音是否可能源自于站在观看者附近和/或面对观看者的人。这样的音频数据可以被用于提供附加信息。例如,在近眼显示设备包括定向麦克风阵列(例如,该设备包括位于近眼显示设备上的不同位置处的多个麦克风)的情况下,可以确定接收语音的方向,并且该方向可以与在图像数据中检测到的人的位置进行比较,以确定检测到的语音是否可能源自该人。此外,在一些示例中,话音识别可以与面部标识结合地应用(例如,通过将话音和/或面部数据与存储在远程服务处的用户简档中的话音和/或面部信息进行匹配),来确定讲话者的身份是否与检测到的面部的身份相匹配。另外,可以应用语音识别来标识可以提供如下的指示的词:讲话的人可能将语音指向近眼显示用户。例如,在标识到的被讲出的词中识别出用户的姓名,这可以指示语音可能正指向用户104。如上所述,二维图像数据可以响应于某些触发而被选择性地获取,而不是由近眼显示设备102连续地获取。作为一个示例,近眼显示设备102可以被配置为响应于从环境麦克风的输入检测到的语音/语音信息,开始获取二维图像数据。作为另一示例,近眼显示设备102可以最初从(多个)机载深度图像传感器获取深度图像数据流以检测人的可能的存在,然后获取二维图像数据来进一步确定人正在对用户104交谈。与连续获取二维图像的系统相比,响应于这样的触发而选择性地激活二维图像数据的获取和/或面部检测可以有助于减少近眼显示设备102的散热和功耗。此外,在一些示例中,近眼显示设备可以被配置为在检测到来自扬声器系统(诸如建筑物中的紧急扬声器系统)的语音时衰减声音。这样的语音例如可以通过与捕获扬声器的图像的图像数据相组合的定向音频数据来被标识。在其他示例中,近眼显示设备可以能够基于从其他人在使用的其他设备接收到的数据来检测语音可能正指向佩戴者。作为一个非限制性示例,图2示出了本文档来自技高网...

【技术保护点】
1.一种近眼显示设备,包括:传感器子系统,包括一个或多个图像传感器;逻辑子系统;以及存储子系统,存储指令,所述指令由所述逻辑子系统可执行以:从所述传感器子系统接收图像传感器数据,呈现内容,所述内容包括视觉分量和听觉分量,在呈现所述内容时,经由所述图像传感器数据来检测语音可能正指向所述近眼显示设备的佩戴者,以及响应于检测到语音可能正指向所述佩戴者,衰减所述听觉分量的方面。

【技术特征摘要】
【国外来华专利技术】2016.06.02 US 15/172,0801.一种近眼显示设备,包括:传感器子系统,包括一个或多个图像传感器;逻辑子系统;以及存储子系统,存储指令,所述指令由所述逻辑子系统可执行以:从所述传感器子系统接收图像传感器数据,呈现内容,所述内容包括视觉分量和听觉分量,在呈现所述内容时,经由所述图像传感器数据来检测语音可能正指向所述近眼显示设备的佩戴者,以及响应于检测到语音可能正指向所述佩戴者,衰减所述听觉分量的方面。2.根据权利要求1所述的近眼显示设备,其中可执行以检测所述语音可能正指向所述佩戴者的所述指令包括:可执行以经由所述图像传感器数据、基于检测人的脸部来检测所述人可能正在对所述佩戴者讲话的指令。3.根据权利要求1所述的近眼显示设备,其中所述传感器子系统包括麦克风阵列,并且其中可执行以检测所述语音可能正指向所述佩戴者的所述指令包括:可执行以经由从所述麦克风阵列接收到的定向音频数据来检测人可能正在对所述佩戴者讲话的指令。4.根据权利要求1所述的近眼显示设备,其中可执行以检测所述语音可能正指向所述佩戴者的所述指令包括:可执行以经由从正在被人使用的另一设备接收到的传感器数据来检测所述人可能正在对所述佩戴者讲话的指令。5.根据权利要求1所述的近眼显示设备,其中可执行以检测所述语音可能正指向所述佩戴者的所述指令包括可执行以通过检测以下一项或多项来检测人可能正在对所述佩戴者讲话的指令:所述人在距所述佩戴者的阈值距离内,以及所述人正朝向所述佩戴者。6.根据权利要求1所述的近眼显示设备,其中可执行以衰减所述听觉分量的方面的所述指令包括:可执行以减小所述听觉分量的音量的指令。7.根据权利要求1所述的近眼显示设备,其中所述听觉分量包括多声道音频内容,并且其中可执行以衰减所述听觉分量的方面的所述指令包括:可执行以与所述多声道音频内容的第二声道子集相比不同地减少所述多声道音频内容的第一声道子集的音量的指令...

【专利技术属性】
技术研发人员:J·科勒D·吴
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1