在计算机介导的现实应用中优化发送方与接收方之间的通信的方法、装置和系统制造方法及图纸

技术编号:22269267 阅读:28 留言:0更新日期:2019-10-10 18:11
本发明专利技术涉及用于处理媒体内容以供第一装置再现的系统、方法和装置。所述方法包括获得指示用户的位置和/或取向的姿势信息。将所述姿势信息传输到提供所述媒体内容的第二装置。基于所述姿势信息来渲染所述媒体内容以获得经渲染的媒体内容。将所述经渲染的媒体内容传输到所述第一装置以进行再现。本发明专利技术可以包括用于再现媒体内容的第一装置和存储所述媒体内容的第二装置。所述第一装置被配置为获得姿势信息指示并将所述姿势信息传输到所述第二装置;并且所述第二装置适用于:基于所述姿势信息来渲染所述媒体内容以获得经渲染的媒体内容;将所述经渲染的媒体内容传输到所述第一装置以进行再现。

Methods, devices and systems for optimizing communication between sender and receiver in computer-mediated practical applications

【技术实现步骤摘要】
【国外来华专利技术】在计算机介导的现实应用中优化发送方与接收方之间的通信的方法、装置和系统相关申请的交叉引用本申请要求2018年6月5日提交的美国临时申请号62/680,678、均于2017年6月15日提交的美国临时申请号62/519,952和欧洲专利申请号17176248.7的优先权,所有这些申请都通过引用以其全文并入本文。
本公开涉及计算机介导的现实应用,例如虚拟现实(VR)应用、增强现实(AR)应用和混合现实(MR)应用。这些应用可以包括但不限于客户端/接收方双耳化和非双耳化的音频应用和视频应用。
技术介绍
计算机介导的现实空间(例如,VR、AR和MR空间)中的应用和产品正在快速发展而包括声源和场景的越来越精细的声学模型。并非刻意进行限制,将在本文档的其余部分中提及VR、AR和MR。为了优化计算机介导的现实体验,优选的是使用户移动(例如,头部移动)与对适应于该移动的声音(经渲染的声音)的感知之间的延迟最小化。这种延迟也被称为运动到声音时延或运动到耳朵迟延。另外,还希望最小化对公共接收方设备(如智能电话)的声音进行解码和渲染所需的指令的数量,其中,重要的是优化计算复杂性和功耗。例如对于非通信情况,当传输整个音频场景时,重点在于接收方的渲染时延。例如,线性应用(例如,电影)不会动态地对用户的动作作出反应。然而,对于交互式内容,将必须解决所有累积的往返时延(例如,如果用户触发需要发送回服务器进行渲染的事件)。在消耗内容之前,应该以足够的前置时间对动态变化的内容进行编码,使得用户不会识别到运动与运动产生的效果之间的时延,并且内容的音频与视频之间不存在未校准。在线性应用的情况下,对于运动到声音时延,不考虑编码和解码时延,因为用户移动(位置和/或取向)不影响内容本身。相反,这些移动仅影响观看内容时的视角。因此,对于线性内容,用户移动仅影响渲染,而不影响对输出声音的编码和/或解码。通信情况却不同,因为系统只能在内容(例如,语音)发生时才开始编码、传输和解码媒体。这同样适用于交互式内容(例如,来自游戏引擎)由云中的远程服务器实时渲染和编码的情况。另外,视频和音频系统的整体时延是相同的是非常重要的,因为差异可能导致晕动病。因此,取决于视频系统的时延,需要实现相似水平的音频系统的时延。
技术实现思路
本文档解决了常见AR、VR和MR系统需要太高时延和太高计算复杂性要求来提供引人注目的体验的技术问题。为了解决该问题,本文档提出了一种处理媒体内容的方法、一种用于处理媒体内容的系统以及相应的装置,所述方法、系统和装置具有相应的独立权利要求的特征。本公开的一方面涉及一种处理媒体内容以供第一装置再现的方法。例如,第一装置可以是接收方、接收方装置或重放装置中的一种。例如,所述第一装置可以对应于、包括AR/VR/MR设备(例如,AR/VR/MR头戴式设备)或结合AR/VR/MR设备进行操作。如此,第一装置可以包括用于再现媒体内容的再现设备(例如,扬声器、头戴式耳机)和耦接到再现设备的处理器。媒体内容可以是或包括音频内容和/或视频内容。处理可以涉及或对应于渲染。再现可以涉及或对应于重放。所述方法可以包括获得指示用户的位置和/或取向的姿势信息。获得姿势信息可以在第一装置处执行。用户可以是第一装置的用户。例如,姿势信息可以与用户的头部有关。所述姿势信息可以通过可被布置成与用户配准的传感器(例如,姿势传感器)获得。因此,姿势信息可以被称为传感器数据。姿势信息可以进一步包括姿势的一个或多个一阶导数和/或姿势的一个或多个二阶导数。例如,用户可以佩戴AR/VR/MR设备。所述方法可以进一步包括将姿势信息传输到提供(例如,存储、中继)媒体内容的第二装置。例如,第二装置可以是发送方装置、服务器装置或内容传递装置中的一种。第二装置可以是用于向第一装置提供媒体内容的装置。第一装置和第二装置可以在空间上彼此分开。所述方法可以进一步包括基于姿势信息来渲染媒体内容以获得经渲染的媒体内容。渲染可以在第二装置处执行。经渲染的媒体内容可以称为预渲染的媒体内容。例如,在音频内容的情况下,渲染可以是渲染到两个或更多个声道。所述方法可以进一步包括将经渲染的媒体内容传输到第一装置以进行再现。传输经渲染的媒体内容可以由第二装置执行。所述方法还可以进一步包括(通过第一装置)再现(例如,重放)经渲染的媒体内容。如果仅需要传输经渲染的媒体内容,则用于无损数据传输的传输比特率可以与完整媒体内容的压缩版本的比特率类似或相当。因此,在所提出的方法的上下文中可能不需要压缩。传输未压缩或无损媒体流将消除或减少因编码和解码而导致的时延。例如,由编码/解码产生的时延可以减少到零,这将导致运动到耳朵时延和/或运动到眼睛时延的整体减少。此外,当不对预渲染的媒体内容进行压缩时,第一装置(接收方)可以输出音频/视频而无需进行解码或渲染。这将导致接收方处的计算复杂性降低,因为不需要执行解码和/或在发送方侧已经完成了渲染。因此,所提出的方法允许减少运动到耳朵时延和/或运动到眼睛时延,并且进一步允许降低接收方侧的计算复杂性。在一些实施例中,媒体内容可以包括音频内容,并且经渲染的媒体内容可以包括经渲染的音频内容。可替代地或另外地,媒体内容可以包括视频内容,并且经渲染的媒体内容可以包括经渲染的视频内容。在一些实施例中,媒体内容可以包括音频内容,并且经渲染的媒体内容可以包括经渲染的音频内容。然后,所述方法可以进一步包括生成经渲染的音频内容的听觉(例如,声学)表示。生成听觉表示可以在第一装置处执行。例如,在音频内容的情况下,可以经由第一装置的两个或更多个扬声器来执行所述生成。在一些实施例中,音频内容可以是基于一阶高保真度立体声响复制(FOA)的音频内容、基于更高阶高保真度立体声响复制(HOA)的音频内容、基于对象的音频内容、或基于声道的音频内容中的一种,或者是基于FOA的音频内容、基于HOA的音频内容、基于对象的音频内容、或基于声道的音频内容中的两种或更多种的组合。在一些实施例中,经渲染的音频内容可以是双耳音频内容、FOA音频内容、HOA音频内容、或基于声道的音频内容中的一种,或者是双耳音频内容、FOA音频内容、HOA音频内容、或基于声道的音频内容中的两种或更多种的组合。在一些实施例中,渲染可以涉及基于姿势信息并且进一步基于先前姿势信息和/或一个或多个一阶导数和/或二阶导数来获得预测的姿势信息。预测的姿势信息可以是未来定时的姿势信息。先前姿势信息可以是在先前定时已经在第一装置处获得或从第一装置接收的姿势信息。预测可以在第二装置处执行。可替代地,预测可以在第一装置处执行。在后一种情况下,第一装置可以将预测的姿势信息传输到第二装置。渲染可以进一步涉及基于预测的姿势信息来渲染媒体内容以获得经渲染的媒体内容。通过考虑预测的姿势信息,可以解决可能由对经渲染的媒体内容进行编码/解码和/或将经渲染的媒体内容传输到第一装置而导致的延迟。换言之,对于适当预测的姿势信息,可以隐藏所述延迟,使得用户不会意识到该延迟并且可能不会察觉到音频、视频与移动之间的任何不匹配。在一些实施例中,所述方法可以进一步包括将预测的姿势信息与经渲染的媒体内容一起传输到第一装置。这使得第一装置能够检查预测的姿势信息(即,在这种情况下是已经用于渲染媒体内容的姿势信息)是本文档来自技高网
...

【技术保护点】
1.一种处理媒体内容以供第一装置再现的方法,所述方法包括:获得指示用户的位置和/或取向的姿势信息;将所述姿势信息传输到提供所述媒体内容的第二装置;基于所述姿势信息来渲染所述媒体内容以获得经渲染的媒体内容;以及将所述经渲染的媒体内容传输到所述第一装置以进行再现。

【技术特征摘要】
【国外来华专利技术】2017.06.15 EP 17176248.7;2017.06.15 US 62/519,952;1.一种处理媒体内容以供第一装置再现的方法,所述方法包括:获得指示用户的位置和/或取向的姿势信息;将所述姿势信息传输到提供所述媒体内容的第二装置;基于所述姿势信息来渲染所述媒体内容以获得经渲染的媒体内容;以及将所述经渲染的媒体内容传输到所述第一装置以进行再现。2.根据权利要求1所述的方法,其中,所述媒体内容包括音频内容,并且所述经渲染的媒体内容包括经渲染的音频内容;和/或所述媒体内容包括视频内容,并且所述经渲染的媒体内容包括经渲染的视频内容。3.根据权利要求1所述的方法,其中,所述媒体内容包括音频内容,并且所述经渲染的媒体内容包括经渲染的音频内容;并且所述方法进一步包括生成所述经渲染的音频内容的听觉表示。4.根据权利要求2所述的方法,其中,所述音频内容是基于一阶高保真度立体声响复制FOA的音频内容、基于更高阶高保真度立体声响复制HOA的音频内容、基于对象的音频内容、或基于声道的音频内容中的一种,或者是基于FOA的音频内容、基于HOA的音频内容、基于对象的音频内容、或基于声道的音频内容中的两种或更多种的组合。5.根据权利要求2所述的方法,其中,所述经渲染的音频内容是双耳音频内容、FOA音频内容、HOA音频内容、或基于声道的音频内容中的一种,或者是双耳音频内容、FOA音频内容、HOA音频内容、或基于声道的音频内容中的两种或更多种的组合。6.根据权利要求1所述的方法,其中,所述渲染涉及:基于所述姿势信息和先前姿势信息获得预测的姿势信息;以及基于所述预测的姿势信息来渲染所述媒体内容以获得所述经渲染的媒体内容。7.根据权利要求6所述的方法,进一步包括:将所述预测的姿势信息与所述经渲染的媒体内容一起传输到所述第一装置。8.根据权利要求7所述的方法,进一步包括:将所述预测的姿势信息与实际姿势信息进行比较;以及基于所述比较的结果更新所述经渲染的媒体内容。9.根据权利要求8所述的方法,其中,所述预测的姿势信息被预测来对预期要由所述第一装置处理所述经渲染的媒体内容以进行再现的定时进行估计;并且所述实际姿势信息是在所述第一装置实际处理所述经渲染的媒体内容以进行再现的定时获得的姿势信息。10.根据权利要求1所述的方法,其中,以未压缩的形式将所述经渲染的媒体内容传输到所述第一装置。11.根据权利要求1所述的方法,进一步包括:在向所述第一装置传输之前对所述经渲染的媒体内容进行编码;以及在所述第一装置处接收到经编码的所述经渲染的媒体内容之后,对经编码的所述经渲染的媒体内容进行解码。12.根据权利要求9所述的方法,其中,对预期要由所述第一装置处理所述经渲染的媒体内容以进行再现的定时的所述估计包括:对编码和解码所述经渲染的音频内容所需的时间的估计和/或对将所述经渲染的媒体内容传输到所述第一装置所需的时间的估计。13.根据权利要求6所述的方法,其中,所述预测的姿势信息是进一步基于对编码和解码所述经渲染的媒体内容所需的时间的估计和/或对将所述经渲染的媒体内容传输到所述第一装置所需的时间的估计来获得的。14.根据权利要求1所述的方法,进一步包括:将已经用于渲染所述媒体内容的所述姿势信息与当前姿势信息进行比较;以及基于所述比较的结果更新所述经渲染的媒体内容。15.根据权利要求1所述的方法,进一步包括:在所述第二装置处确定指示所述经渲染的媒体内容如何响应于所述姿势信息的变化而变化的梯度信息;将所述梯度信息与所述经渲染的媒体内容一起传输到所述第一装置;在所述第一装置处将已经用于渲染所述媒体内容的所述姿势信息与当前姿势信息进行比较;以及基于所述梯度信息和所述比较的结果更新所述经渲染的媒体内容。16.根据权利要求1所述的方法,其中,所述媒体内容包括音频内容,并且所述经渲染的媒体内容包括经渲染的音频内容;所述方法进一步包括:将指示所述第一装置所处的环境的声学特性的环境信息传输到所述第二装置;并且所述渲染所述媒体内容进一步基于所述环境信息。17.根据权利要求1所述的方法,其中,所述媒体内容包括音频内容,并且所述经渲染的媒体内容包括经渲染的音频内容;所述方法进一步包括:将指示所述用户或所述用户的一部分的形貌的形貌信息传输到所述第二装置;并且所述渲染所述媒体内容进一步基于所述形貌信息。18.一种系统,包括用于再现媒体内容的第一装置和存储所述媒体内容的第二装置,其中,所述第一装置适用于:-获得指示用户的位置和/或取向的姿势信息;以及-将所述姿势信息传输到所述第二装置;并且所述第二装置适用于:-基于所述姿势信息来渲染所述媒体内容以获得经渲染的媒体内容;以及-将所述经渲染的媒体内容传输到所述第一装置以进行再现。19.根据权利要求18所述的系统,其中,所述媒体内容包括音频内容,并且所述经渲染的媒体内容包括经渲染的音频内容;和/或所述媒体内容包括视频内容,并且所述经渲染的媒体内容包括经渲染的视频内容。20.根据权利要求18所述的系统,其中,所述媒体内容包括音频内容,并且所述经渲染的媒体内容包括经渲染的音频内容;并且所述第一装置进一步适用于生成所述经渲染的音频内容的听觉表示。21.根据权利要求19所述的系统,其中,所述音频内容是基于一阶高保真度立体声响复制FOA的音频内容、基于更高阶高保真度立体声响复制HOA的音频内容、基于对象的音频内容、或基于声道的音频内容中的一种,或者是基于FOA的音频内容、基于HOA的音频内容、基于对象的音频内容、或基于声道的音频内容中的两种或更多种的组合。22.根据权利要求19所述的系统,其中,所述经渲染的音频内容是双耳音频内容、FOA音频内容、HOA音频内容、或基于声道的音频内容中的一种,或者是双耳音频内容、FOA音频内容、HOA音频内容、或基于声道的音频内容中的两种或更多种的组合。23.根据权利要求18所述的系统,其中,所述第二装置进一步适用于:基于所述姿势信息和先前姿势信息获得预测的姿势信息;以及基于所述预测的姿势信息来渲染所述媒体内容以获得所述经渲染的媒体内容。24.根据权利要求23所述的系统,其中,所述第二装置进一步适用于:将所述预测的姿势信息与所述经渲染的媒体内容一起传输到所述第一装置。25.根据权利要求24所述的系统,其中,所述第一装置进一步适用于:将所述预测的姿势信息与实际姿势信息进行比较;以及基于所述比较的结果更新所述经渲染的媒体内容。26.根据权利要求25所述的系统,其中,所述预测的姿势信息被预测来对预期要由所述第一装置处理所述经渲染的媒体内容以进行再现的定时进行估计;并且所述实际姿势信息是在所述第一装置实际处理所述经渲染的媒体内容以进行再现的定时获得的姿势信息。27.根据权利要求18所述的系统,其中,以未压缩的形式将所述经渲染的媒体内容传输到所述第一装置。28.根据权利要求18所述的系统,其中,所述第二装置进一步适用于在向所述第一装置传输之前对所述经渲染的媒体内容进行编码;并且所述第一装置进一步适用于在所述第一装置处接收到经编码的所述经渲染的媒体内容之后,对经编码的所述经渲染的媒体内容进行解码。29.根据权利要求26所述的系统,其中,对预期要由所述第一装置处理所述经渲染的媒体内容以进行再现的定时的所述估计包括:对编码和解码所述经渲染的音频内容所需的时间的估计和/或对将所述经渲染的媒体内容传输到所述第一装置所需的时间的估计。30.根据权利要求23所述的系统,其中,所述预测的姿势信息是进一步基于对编码和解码所述经渲染的媒体内容所需的时间的估计和/或对将所述经渲染的媒体内容传输到所述第一装置所需的时间的估计来获得的。31.根据权利要求18所述的系统,其中,所述第一装置进一步适用于:将已经用于渲染所述媒体内容的所述姿势信息与当前姿势信息进行比较;以及基于所述比较的结果更新所述经渲染的媒体内容。32.根据权利要求18所述的系统,其中,所述第二装置进一步适用于:确定指示所述经渲染的媒体内容如何响应于所述姿势信息的变化而变化的梯度信息;以及将所述梯度信息与所述...

【专利技术属性】
技术研发人员:C·费尔施N·R·廷哥斯
申请(专利权)人:杜比国际公司杜比实验室特许公司
类型:发明
国别省市:荷兰,NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1