动态应用的渲染配置的渐进计算和应用制造技术

技术编号:38997629 阅读:19 留言:0更新日期:2023-10-07 10:28
一些示例涉及通过以下操作来渲染接收到的音频数据:根据与第一组扬声器激活相对应的第一渲染配置确定环境中的一组扩音器的第一相对激活;接收指示从第一渲染配置到第二渲染配置的转变的第一渲染转变指示;以及确定与第二渲染配置的简化版本相对应的第二组扬声器激活。一些示例涉及:执行从第一组扬声器激活到第二组扬声器激活的第一转变;确定与第二渲染配置的完整版本相对应的第三组扬声器激活;以及执行到第三组扬声器激活的第二转变而无需完成第一转变。需完成第一转变。需完成第一转变。

【技术实现步骤摘要】
【国外来华专利技术】动态应用的渲染配置的渐进计算和应用
[0001]专利技术人:Joshua B.Lando和Alan J.Seefeldt
[0002]相关申请的交叉引用
[0003]本申请要求以下申请的优先权:于2020年12月3日提交的美国临时申请63/121,108以及于2021年5月21日提交的美国临时申请63/202,003,这些申请中的每一个通过援引以其全文并入本文。


[0004]本公开涉及用于渲染音频以供一组扬声器中的一些或所有扬声器(例如,每个激活的扬声器)回放的系统和方法。

技术介绍

[0005]音频设备,包括但不限于智能音频设备,已经被广泛部署并且正在成为许多家庭的共同特征。尽管用于控制音频设备的现有系统和方法提供了益处,但改进的系统和方法将仍是期望的。
[0006]符号和术语
[0007]贯穿本公开,包括在权利要求书中,术语“扬声器(speaker)”、“扩音器(loudspeaker)”和“音频再现换能器”同义地用于表示任何发声换能器(或一组换能器)。典型的耳机组包括两个扬声器。扬声器可以被实施为包括多个换能器(例如,低音扬声器和高音扬声器),换能器可以由单个公共扬声器馈送或多个扬声器馈送驱动。在一些示例中,(多个)扬声器馈送可以在耦接到不同换能器的不同电路分支中经历不同处理。
[0008]贯穿本公开,包括在权利要求中,在广义上使用“对”信号或数据执行操作的表达(例如,对信号或数据进行滤波、缩放、变换或应用增益)来表示直接对信号或数据执行操作或对信号或数据的已处理版本(例如,在对其执行操作之前已经历了初步滤波或预处理的信号版本)执行操作。
[0009]贯穿本公开,包括在权利要求中,在广义上使用表达“系统”来表示设备、系统或子系统。例如,实施解码器的子系统可以被称为解码器系统,并且包括这样的子系统的系统(例如,响应于多个输入而生成X个输出信号的系统,其中,子系统生成M个输入,而其他X

M个输入是从外部源接收的)也可以被称为解码器系统。
[0010]贯穿本公开,包括在权利要求中,在广义上使用术语“处理器”来表示可编程或以其他方式可配置(例如,用软件或固件)为对数据(例如,音频、视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式被配置成对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程通用处理器或计算机、以及可编程微处理器芯片或芯片组。
[0011]贯穿本公开,包括在权利要求中,术语“耦接(couples)”或“耦接(coupled)”用于意指直接或间接连接。因此,如果第一设备耦接到第二设备,则连接可以通过直接连接或者通过经由其他设备和连接的间接连接实现。
[0012]如本文所使用的,“智能设备”是可以在某种程度上交互地和/或自主地操作的电子设备,其通常被配置用于经由比如蓝牙、Zigbee、近场通信、Wi

Fi、光保真(Li

Fi)、3G、4G、5G等各种无线协议与一个或多个其他设备(或网络)进行通信。若干种值得注意的智能设备类型是智能电话、智能汽车、智能恒温器、智能门铃、智能锁、智能冰箱、平板手机和平板计算机、智能手表、智能手环、智能钥匙链和智能音频设备。术语“智能设备”还可以是指展现出比如人工智能等普适计算的一些性质的设备。
[0013]在本文中,使用表达“智能音频设备”来表示智能设备,其是单一用途音频设备或多用途音频设备(例如,实施虚拟助理功能的至少一些方面的音频设备)。单一用途音频设备是包括或耦接到至少一个麦克风(并且可选地还包括或耦接到至少一个扬声器和/或至少一个相机)并且很大程度上或主要被设计为实现单一用途的设备(例如,电视(TV))。例如,尽管TV通常可以播放(并且被认为能够播放)来自节目素材的音频,但在大多数实例中,现代TV运行某种操作系统,应用程序(包括看电视的应用程序)在操作系统上本地运行。从这个意义上说,具有(多个)扬声器和(多个)麦克风的单一用途音频设备通常被配置成运行本地应用程序和/或服务以直接使用(多个)扬声器和(多个)麦克风。一些单一用途音频设备可以被配置成组合在一起以实现在一定区或用户配置区域上播放音频。
[0014]一种常见类型的多用途音频设备是实施虚拟助理功能的至少一些方面的音频设备,尽管虚拟助理功能的其他方面可以由比如一个或多个服务器等一个或多个其他设备来实施,多用途音频设备被配置用于与一个或多个服务器通信。这样的多用途音频设备在本文中可以被称为“虚拟助理”。虚拟助理是包括或耦接到至少一个麦克风(并且可选地还包括或耦接到至少一个扬声器和/或至少一个相机)的设备(例如,智能扬声器或语音助理集成设备)。在一些示例中,虚拟助理可以提供将多个设备(不同于虚拟助理)用于某种意义上支持云的应用程序或以其他方式未在虚拟助理本身中或之上完全实施的应用程序的能力。换句话说,虚拟助理功能的至少一些方面(例如,言语识别功能)可以(至少部分地)由一个或多个服务器或其他设备实施,虚拟助理可以经由网络(比如互联网)与一个或多个服务器或其他设备通信。虚拟助理有时可以一起工作,例如,以离散和有条件地定义的方式。例如,两个或更多个虚拟助理可以在其中之一(例如,最确信已经听到唤醒词的虚拟助理)对唤醒词做出响应的意义上一起工作。在一些实施方式中,连接的虚拟助理可以形成一种星座,星座可以由一个主应用程序管理,主应用程序可以是(或实施)虚拟助理。
[0015]在本文中,“唤醒词”在广义上用于表示任何声音(例如,人类说出的词或其他声音),其中智能音频设备被配置成响应于检测到(“听到”)声音(使用包括在智能音频设备中或耦接到智能音频设备的至少一个麦克风,或至少一个其他麦克风)而唤醒。在该上下文中,“唤醒”表示设备进入等待(换句话说,正在收听)声音命令的状态。在一些实例中,本文中所谓的“唤醒词”可以包括超过一个词,例如,短语。
[0016]在本文中,表达“唤醒词检测器”表示被配置成连续搜索实时声音(例如,言语)特征与训练模型之间的对齐的设备(或表示包括用于将设备配置成连续搜索实时声音特征与训练模型之间的对齐的指令的软件)。通常,每当唤醒词检测器确定检测到唤醒词的概率超过预定义阈值,就会触发唤醒词事件。例如,阈值可以是被调整以在错误接受率与错误拒绝率之间给出合理折衷的预定阈值。在唤醒词事件之后,设备可能会进入一种状态(可以被称为“唤醒”状态或“注意力”状态),在状态下设备会收听命令并且将接收到的命令传递给更
大、计算更密集的识别器。
[0017]如本文所使用的,术语“节目流”和“内容流”是指一个或多个音频信号的集合,并且在一些实例中是指视频信号的集合,信号集合的至少部分是旨在要一起听到的。示例包括音乐、电影声轨、电影、电视节目、电视节目的音频部分、播客、实时语音通话、来自智能助理的合成语音响应等的选择。在一些实例中,内容流可以包括音频信号的至少一部分的多个版本,例如,多于一种语言的相同对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种音频处理方法,包括:由控制系统并且经由接口系统接收音频数据,所述音频数据包括一个或多个音频信号和相关联的空间数据,所述空间数据指示与音频信号相对应的预期感知空间位置;由所述控制系统渲染所述音频数据以经由环境的一组扩音器再现,从而产生第一经渲染的音频信号,其中,渲染所述音频数据以供再现涉及根据第一渲染配置确定所述环境中的一组扩音器的第一相对激活,所述第一渲染配置对应于第一组扬声器激活;经由所述接口系统向所述环境的所述一组扩音器中的至少一些扩音器提供所述第一经渲染的音频信号;由所述控制系统并且经由所述接口系统接收第一渲染转变指示,所述第一渲染转变指示指示从所述第一渲染配置到第二渲染配置的转变;由所述控制系统确定与所述第二渲染配置的简化版本相对应的第二组扬声器激活;由所述控制系统执行从所述第一组扬声器激活到所述第二组扬声器激活的第一转变;由所述控制系统确定与所述第二渲染配置的完整版本相对应的第三组扬声器激活;以及由所述控制系统执行到所述第三组扬声器激活的第二转变,而无需完成所述第一转变。2.如权利要求1所述的方法,其中,所述第一组扬声器激活、所述第二组扬声器激活和所述第三组扬声器激活是频率相关的扬声器激活。3.如权利要求2所述的方法,其中,所述频率相关的扬声器激活涉及在至少第一频带中应用感知空间位置的模型,所述模型产生与收听者的左耳和右耳处的音频对象位置相对应的双耳响应。4.如权利要求3所述的方法,其中,所述频率相关的扬声器激活涉及在至少第二频带中应用感知空间位置模型,所述模型将从一组扩音器播放的音频信号的感知空间位置置于由所述扩音器的相关联的激活增益加权的所述一组扩音器的位置的质心处。5.如权利要求1至4中任一项所述的方法,其中,所述第一组扬声器激活、所述第二组扬声器激活或所述第三组扬声器激活中的至少一者是优化成本的结果,所述成本是以下各项的函数:当在所述环境中的所述一组扩音器上回放时播放的音频信号的感知空间位置的模型;所述音频信号的预期感知空间位置与所述一组扩音器中的每个扩音器的位置的接近度的度量;以及一个或多个附加动态可配置功能,其中,所述一个或多个附加动态可配置功能基于以下各项中的一项或多项:扩音器与一个或多个收听者的接近度;扩音器与吸引力位置的接近度,其中,吸引力是有利于更接近所述吸引力位置的相对更高的扩音器激活的因素;扩音器与推斥力位置的接近度,其中,推斥力是有利于更接近所述推斥力位置的相对更低的扩音器激活的因素;每个扩音器相对于所述环境中的其他扩音器的能力;所述扩音器关于其他扩音器的同步;唤醒词性能;或回声消除器性能。6.如权利要求1至5中任一项所述的方法,进一步包括:由所述控制系统并且经由所述接口系统接收第二渲染转变指示,所述第二渲染转变指示指示到第三渲染配置的转变;
由所述控制系统确定与所述第三渲染配置相对应的第四组扬声器激活;以及由所述控制系统执行到所述第四组扬声器激活的第三转变,而无需完成所述第一转变或所述第二转变。7.如权利要求6所述的方法,进一步包括:由所述控制系统并且经由所述接口系统接收第三渲染转变指示,所述第三渲染转变指示指示到第四渲染配置的转变;由所述控制系统确定与所述第四渲染配置相对应的第五组扬声器激活;以及由所述控制系统执行到所述第五组扬声器激活的第四转变,而无需完成所述第一转变、所述第二转变或所述第三转变。8.如权利要求1至5中任一项所述的方法,进一步包括:由所述控制系统并且经由所述接口系统顺序地接收第二至第(N)渲染转变指示;由所述控制系统确定与所述第二至第(N)渲染转变指示相对应的第四至第(N+2)组扬声器激活;由所述控制系统顺序地执行从所述第四组扬声器激活到第(N+1)组扬声器激活的第三至第(N)转变;以及由所述控制系统执行到所述第(N+2)组扬声器激活的第(N+1)转变,而无需完成所述第一至第(N)转变中的任一项。9.如权利要求1至5中任...

【专利技术属性】
技术研发人员:J
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1