在计算机介导的现实应用中优化发送方与接收方之间的通信的方法、装置和系统制造方法及图纸

技术编号：22269267 阅读：28 留言：0更新日期：2019-10-10 18:11

本发明专利技术涉及用于处理媒体内容以供第一装置再现的系统、方法和装置。所述方法包括获得指示用户的位置和/或取向的姿势信息。将所述姿势信息传输到提供所述媒体内容的第二装置。基于所述姿势信息来渲染所述媒体内容以获得经渲染的媒体内容。将所述经渲染的媒体内容传输到所述第一装置以进行再现。本发明专利技术可以包括用于再现媒体内容的第一装置和存储所述媒体内容的第二装置。所述第一装置被配置为获得姿势信息指示并将所述姿势信息传输到所述第二装置；并且所述第二装置适用于：基于所述姿势信息来渲染所述媒体内容以获得经渲染的媒体内容；将所述经渲染的媒体内容传输到所述第一装置以进行再现。

Methods, devices and systems for optimizing communication between sender and receiver in computer-mediated practical applications

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】在计算机介导的现实应用中优化发送方与接收方之间的通信的方法、装置和系统相关申请的交叉引用本申请要求2018年6月5日提交的美国临时申请号62/680,678、均于2017年6月15日提交的美国临时申请号62/519,952和欧洲专利申请号17176248.7的优先权，所有这些申请都通过引用以其全文并入本文。
本公开涉及计算机介导的现实应用，例如虚拟现实(VR)应用、增强现实(AR)应用和混合现实(MR)应用。这些应用可以包括但不限于客户端/接收方双耳化和非双耳化的音频应用和视频应用。
技术介绍
计算机介导的现实空间(例如，VR、AR和MR空间)中的应用和产品正在快速发展而包括声源和场景的越来越精细的声学模型。并非刻意进行限制，将在本文档的其余部分中提及VR、AR和MR。为了优化计算机介导的现实体验，优选的是使用户移动(例如，头部移动)与对适应于该移动的声音(经渲染的声音)的感知之间的延迟最小化。这种延迟也被称为运动到声音时延或运动到耳朵迟延。另外，还希望最小化对公共接收方设备(如智能电话)的声音进行解码和渲染所需的指令的数量，其中，重要的是优化计算复杂性和功耗。例如对于非通信情况，当传输整个音频场景时，重点在于接收方的渲染时延。例如，线性应用(例如，电影)不会动态地对用户的动作作出反应。然而，对于交互式内容，将必须解决所有累积的往返时延(例如，如果用户触发需要发送回服务器进行渲染的事件)。在消耗内容之前，应该以足够的前置时间对动态变化的内容进行编码，使得用户不会识别到运动与运动产生的效果之间的时延，并且内容的音频与视频之间不存在未校准。在线性应用的情况下，...

【技术保护点】
1.一种处理媒体内容以供第一装置再现的方法，所述方法包括：获得指示用户的位置和/或取向的姿势信息；将所述姿势信息传输到提供所述媒体内容的第二装置；基于所述姿势信息来渲染所述媒体内容以获得经渲染的媒体内容；以及将所述经渲染的媒体内容传输到所述第一装置以进行再现。

【技术特征摘要】
【国外来华专利技术】2017.06.15 EP 17176248.7;2017.06.15 US 62/519,952;1.一种处理媒体内容以供第一装置再现的方法，所述方法包括：获得指示用户的位置和/或取向的姿势信息；将所述姿势信息传输到提供所述媒体内容的第二装置；基于所述姿势信息来渲染所述媒体内容以获得经渲染的媒体内容；以及将所述经渲染的媒体内容传输到所述第一装置以进行再现。2.根据权利要求1所述的方法，其中，所述媒体内容包括音频内容，并且所述经渲染的媒体内容包括经渲染的音频内容；和/或所述媒体内容包括视频内容，并且所述经渲染的媒体内容包括经渲染的视频内容。3.根据权利要求1所述的方法，其中，所述媒体内容包括音频内容，并且所述经渲染的媒体内容包括经渲染的音频内容；并且所述方法进一步包括生成所述经渲染的音频内容的听觉表示。4.根据权利要求2所述的方法，其中，所述音频内容是基于一阶高保真度立体声响复制FOA的音频内容、基于更高阶高保真度立体声响复制HOA的音频内容、基于对象的音频内容、或基于声道的音频内容中的一种，或者是基于FOA的音频内容、基于HOA的音频内容、基于对象的音频内容、或基于声道的音频内容中的两种或更多种的组合。5.根据权利要求2所述的方法，其中，所述经渲染的音频内容是双耳音频内容、FOA音频内容、HOA音频内容、或基于声道的音频内容中的一种，或者是双耳音频内容、FOA音频内容、HOA音频内容、或基于声道的音频内容中的两种或更多种的组合。6.根据权利要求1所述的方法，其中，所述渲染涉及：基于所述姿势信息和先前姿势信息获得预测的姿势信息；以及基于所述预测的姿势信息来渲染所述媒体内容以获得所述经渲染的媒体内容。7.根据权利要求6所述的方法，进一步包括：将所述预测的姿势信息与所述经渲染的媒体内容一起传输到所述第一装置。8.根据权利要求7所述的方法，进一步包括：将所述预测的姿势信息与实际姿势信息进行比较；以及基于所述比较的结果更新所述经渲染的媒体内容。9.根据权利要求8所述的方法，其中，所述预测的姿势信息被预测来对预期要由所述第一装置处理所述经渲染的媒体内容以进行再现的定时进行估计；并且所述实际姿势信息是在所述第一装置实际处理所述经渲染的媒体内容以进行再现的定时获得的姿势信息。10.根据权利要求1所述的方法，其中，以未压缩的形式将所述经渲染的媒体内容传输到所述第一装置。11.根据权利要求1所述的方法，进一步包括：在向所述第一装置传输之前对所述经渲染的媒体内容进行编码；以及在所述第一装置处接收到经编码的所述经渲染的媒体内容之后，对经编码的所述经渲染的媒体内容进行解码。12.根据权利要求9所述的方法，其中，对预期要由所述第一装置处理所述经渲染的媒体内容以进行再现的定时的所述估计包括：对编码和解码所述经渲染的音频内容所需的时间的估计和/或对将所述经渲染的媒体内容传输到所述第一装置所需的时间的估计。13.根据权利要求6所述的方法，其中，所述预测的姿势信息是进一步基于对编码和解码所述经渲染的媒体内容所需的时间的估计和/或对将所述经渲染的媒体内容传输到所述第一装置所需的时间的估计来获得的。14.根据权利要求1所述的方法，进一步包括：将已经用于渲染所述媒体内容的所述姿势信息与当前姿势信息进行比较；以及基于所述比较的结果更新所述经渲染的媒体内容。15.根据权利要求1所述的方法，进一步包括：在所述第二装置处确定指示所述经渲染的媒体内容如何响应于所述姿势信息的变化而变化的梯度信息；将所述梯度信息与所述经渲染的媒体内容一起传输到所述第一装置；在所述第一装置处将已经用于渲染所述媒体内容的所述姿势信息与当前姿势信息进行比较；以及基于所述梯度信息和所述比较的结果更新所述经渲染的媒体内容。16.根据权利要求1所述的方法，其中，所述媒体内容包括音频内容，并且所述经渲染的媒体内容包括经渲染的音频内容；所述方法进一步包括：将指示所述第一装置所处的环境的声学特性的环境信息传输到所述第二装置；并且所述渲染所述媒体内容进一步基于所述环境信息。17.根据权利要求1所述的方法，其中，所述媒体内容包括音频内容，并且所述经渲染的媒体内容包括经渲染的音频内容；所述方法进一步包括：将指示所述用户或所述用户的一部分的形貌的形貌信息传输到所述第二装置；并且所述渲染所述媒体内容进一步基于所述形貌信息。18.一种系统，包括用于再现媒体内容的第一装置和存储所述媒体内容的第二装置，其中，所述第一装置适用于：-获得指示用户的位置和/或取向的姿势信息；以及-将所述姿势信息传输到所述第二装置；并且所述第二装置适用于：-基于所述姿势信息来渲染所述媒体内容以获得经渲染的媒体内容；以及-将所述经渲染的媒体内容传输到所述第一装置以进行再现。19.根据权利要求18所述的系统，其中，所述媒体内容包括音频内容，并且所述经渲染的媒体内容包括经渲染的音频内容；和/或所述媒体内容包括视频内容，并且所述经渲染的媒体内容包括经渲染的视频内容。20.根据权利要求18所述的系统，其中，所述媒体内容包括音频内容，并且所述经渲染的媒体内容包括经渲染的音频内容；并且所述第一装置进一步适用于生成所述经渲染的音频内容的听觉表示。21.根据权利要求19所述的系统，其中，所述音频内容是基于一阶高保真度立体声响复制FOA的音频内容、基于更高阶高保真度立体声响复制HOA的音频内容、基于对象的音频内容、或基于声道的音频内容中的一种，或者是基于FOA的音频内容、基于HOA的音频内容、基于对象的音频内容、或基于声道的音频内容中的两种或更多种的组合。22.根据权利要求19所述的系统，其中，所述经渲染的音频内容是双耳音频内容、FOA音频内容、HOA音频内容、或基于声道的音频内容中的一种，或者是双耳音频内容、FOA音频内容、HOA音频内容、或基于声道的音频内容中的两种或更多种的组合。23.根据权利要求18所述的系统，其中，所述第二装置进一步适用于：基于所述姿势信息和先前姿势信息获得预测的姿势信息；以及基于所述预测的姿势信息来渲染所述媒体内容以获得所述经渲染的媒体内容。24.根据权利要求23所述的系统，其中，所述第二装置进一步适用于：将所述预测的姿势信息与所述经渲染的媒体内容一起传输到所述第一装置。25.根据权利要求24所述的系统，其中，所述第一装置进一步适用于：将所述预测的姿势信息与实际姿势信息进行比较；以及基于所述比较的结果更新所述经渲染的媒体内容。26.根据权利要求25所述的系统，其中，所述预测的姿势信息被预测来对预期要由所述第一装置处理所述经渲染的媒体内容以进行再现的定时进行估计；并且所述实际姿势信息是在所述第一装置实际处理所述经渲染的媒体内容以进行再现的定时获得的姿势信息。27.根据权利要求18所述的系统，其中，以未压缩的形式将所述经渲染的媒体内容传输到所述第一装置。28.根据权利要求18所述的系统，其中，所述第二装置进一步适用于在向所述第一装置传输之前对所述经渲染的媒体内容进行编码；并且所述第一装置进一步适用于在所述第一装置处接收到经编码的所述经渲染的媒体内容之后，对经编码的所述经渲染的媒体内容进行解码。29.根据权利要求26所述的系统，其中，对预期要由所述第一装置处理所述经渲染的媒体内容以进行再现的定时的所述估计包括：对编码和解码所述经渲染的音频内容所需的时间的估计和/或对将所述经渲染的媒体内容传输到所述第一装置所需的时间的估计。30.根据权利要求23所述的系统，其中，所述预测的姿势信息是进一步基于对编码和解码所述经渲染的媒体内容所需的时间的估计和/或对将所述经渲染的媒体内容传输到所述第一装置所需的时间的估计来获得的。31.根据权利要求18所述的系统，其中，所述第一装置进一步适用于：将已经用于渲染所述媒体内容的所述姿势信息与当前姿势信息进行比较；以及基于所述比较的结果更新所述经渲染的媒体内容。32.根据权利要求18所述的系统，其中，所述第二装置进一步适用于：确定指示所述经渲染的媒体内容如何响应于所述姿势信息的变化而变化的梯度信息；以及将所述梯度信息与所述...

【专利技术属性】
技术研发人员：C·费尔施，N·R·廷哥斯，
申请(专利权)人：杜比国际公司，杜比实验室特许公司，
类型：发明
国别省市：荷兰,NL

全部详细技术资料下载我是这个专利的主人