基于噪声指标和语音可懂度指标来调整音频和非音频特征制造技术

技术编号:34317239 阅读:19 留言:0更新日期:2022-07-30 23:22
一些实施方式涉及确定噪声指标和/或语音可懂度指标以及确定与噪声指标和/或语音可懂度指标相对应的补偿过程。补偿过程可以涉及更改对音频数据的处理和/或应用基于非音频的补偿方法。在一些示例中,更改对音频数据的处理不涉及将宽带增益增加应用于音频信号。一些示例涉及在音频环境中应用补偿过程。其他示例涉及确定与补偿过程相对应的补偿元数据以及将包括经编码补偿元数据、经编码视频数据和经编码音频数据的经编码内容流从第一设备传输到一个或多个其他设备。一个或多个其他设备。一个或多个其他设备。

【技术实现步骤摘要】
【国外来华专利技术】基于噪声指标和语音可懂度指标来调整音频和非音频特征
[0001]相关申请的交叉引用
[0002]本申请要求2019年12月9日提交的美国临时专利申请62/945,299、2020年9月30日提交的美国临时专利申请63/198,158以及2020年9月30日提交的美国临时专利申请63/198,160的优先级,这些美国临时专利申请中的所有通过引用以其全文并入本文。


[0003]本公开涉及用于调整内容流的音频特征和/或非音频特征的系统和方法。

技术介绍

[0004]音频和视频设备(包括但不限于电视和相关联的音频设备)被广泛部署。尽管用于控制音频和视频设备的现有系统和方法提供了益处,但改进的系统和方法将仍是期望的。
[0005]符号和术语
[0006]贯穿本公开,包括在权利要求中,术语“扬声器”、“扩音器”和“音频再现换能器”同义地用于表示由单个扬声器馈送驱动的任何发声换能器(或换能器组)。一套典型的耳机包括两个扬声器。扬声器可以被实施为包括多个换能器(例如,低音扬声器和高音扬声器),该换能器可以由单个公共扬声器馈送或多个扬声器馈送来驱动。在一些示例中,一个或多个扬声器馈送可以在耦接到不同换能器的不同电路分支中经历不同处理。
[0007]贯穿本公开,包括在权利要求中,在广义上使用“对”信号或数据执行操作(例如,对信号或数据进行滤波、缩放、变换或应用增益)的表达来表示直接对信号或数据执行操作或对信号或数据的经处理版本(例如,在对其执行操作之前已经历了初步滤波或预处理的信号的版本)执行操作
[0008]贯穿本公开,包括在权利要求中,在广义上使用表达“系统”来表示设备、系统或子系统。例如,实施解码器的子系统可以被称为解码器系统,并且包括这样的子系统的系统(例如,响应于多个输入而生成X个输出信号的系统,其中,子系统生成输入中的M个输入,而其他X

M个输入是从外部源接收的)也可以被称为解码器系统。
[0009]贯穿本公开,包括在权利要求中,在广义上使用术语“处理器”来表示可编程或以其他方式可配置(例如,利用软件或固件)为对数据(例如,音频或视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式被配置成对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程通用处理器或计算机以及可编程微处理器芯片或芯片组。
[0010]贯穿本公开,包括在权利要求中,术语“耦接”或“被耦接”用于意指直接或间接连接。因此,如果第一设备耦接到第二设备,则该连接可以通过直接连接或者通过经由其他设备和连接的间接连接实现。
[0011]如本文所使用的,“智能设备”是可以在某种程度上交互地和/或自主地操作的电子设备,其通常被配置用于经由如蓝牙、Zigbee、近场通信、Wi

Fi、光保真(Li

Fi)、3G、4G、5G等各种无线协议与一个或多个其他设备(或网络)进行通信。多种值得注意的智能设备类
型是智能电话、智能汽车、智能恒温器、智能门铃、智能锁、智能冰箱、平板手机和平板计算机、智能手表、智能手环、智能钥匙链和智能音频设备。术语“智能设备”还可以指展现出诸如人工智能的普适计算的一些性质的设备。
[0012]在本文中,使用表达“智能音频设备”来表示是单一用途音频设备或多用途音频设备(例如,实施虚拟助理功能的至少一些方面的音频设备)的智能设备。单一用途音频设备是包括或耦接到至少一个麦克风(并且任选地还包括或耦接到至少一个扬声器和/或至少一个相机)并且很大程度上或主要被设计为实现单一用途的设备(例如,电视(TV))。例如,虽然TV通常可以播放(并且被认为能够播放)来自节目素材的音频,但在大多数情况下,现代TV运行某种操作系统,应用程序(包括看电视的应用程序)在该操作系统上本地运行。从这个意义上说,具有一个或多个扬声器和一个或多个麦克风的单一用途音频设备通常被配置成运行本地应用程序和/或服务以直接使用该一个或多个扬声器和一个或多个麦克风。一些单一用途音频设备可以被配置成组合在一起以实现在一定区或用户配置的区域上播放音频。
[0013]一种常见类型的多用途音频设备是实施虚拟助理功能的至少一些方面的音频设备,尽管虚拟助理功能的其他方面可以由一个或多个其他设备(例如,多用途音频设备被配置用于与其进行通信的一个或多个服务器)来实施。这样的多用途音频设备在本文中可以被称为“虚拟助理”。虚拟助理是包括或耦接到至少一个麦克风(并且任选地还包括或耦接到至少一个扬声器和/或至少一个相机)的设备(例如,智能扬声器或话音助理集成设备)。在一些示例中,虚拟助理可以提供将多个设备(不同于虚拟助理)用于在某种意义上支持云的应用程序或者以其他方式未在虚拟助理本身中或之上完全实施的应用程序的能力。换句话说,虚拟助理功能的至少一些方面(例如,语音辨识功能)可以(至少部分地)由一个或多个服务器或其他设备实施,虚拟助理可以经由网络(如互联网)与该一个或多个服务器或其他设备通信。虚拟助理有时可以一起工作,例如,以离散和有条件地定义的方式。例如,两个或更多个虚拟助理可以就其中之一(例如,最确信已经听到唤醒词的虚拟助理)对唤醒词作出响应的意义而言一起工作。在一些实施方式中,连接的虚拟助理可以形成可以由一个主应用程序管理的一种群集,该主应用程序可以是(或实施)虚拟助理。
[0014]在本文中,“唤醒词”在广义上用于表示任何声音(例如,人类说出的词或其他声音),其中,智能音频设备被配置成响应于检测到(“听到”)声音(使用被包括在智能音频设备中或耦接到智能音频设备的至少一个麦克风、或至少一个其他麦克风)而唤醒。在该上下文中,“唤醒”表示设备进入等待(换句话说,正在收听)声音命令的状态。在一些实例中,本文中可以被称为“唤醒词”的内容可以包括多于一个词,例如,短语。
[0015]在本文中,表达“唤醒词检测器”表示被配置成连续搜索实时声音(例如,语音)特征与训练模型之间的对齐的设备(或包括用于将设备配置成连续搜索实时声音特征与训练模型之间的对齐的指令的软件)。通常,每当唤醒词检测器确定已经检测到唤醒词的概率超过预定义阈值,就会触发唤醒词事件。例如,该阈值可以是被调谐以在错误接受率与错误拒绝率之间给出合理折中的预定阈值。在唤醒词事件之后,设备可以进入收听命令并且将接收到的命令传递给更大、计算更密集的识别器的状态(可以被称为“唤醒”状态或“专注”状态)。
[0016]如本文所使用的,术语“节目流”和“内容流”是指一个或多个音频信号的集合,并
且在一些实例中是指一个或多个视频信号的集合,该音频信号和视频信号的至少部分意在作为整体被一起听到。示例包括音乐选集、电影原声、电影、电视节目、电视节目的音频部分、播客、现场话音通话、来自智能助理的合成话音响应等。在一些实例中,内容流可以包括音频信号的至少一部分的多个版本,例如,多于一种语言的同一对话。在这样的实例中,一次旨在再现音频数据或其部分的仅一个版本(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种内容流处理方法,包括:由第一控制系统并且经由第一接口系统接收包括视频数据和与所述视频数据相对应的音频数据的内容流;由所述第一控制系统确定噪声指标或语音可懂度指标中的至少一个;由所述第一控制系统响应于所述噪声指标或所述语音可懂度指标中的至少一个来确定要执行的补偿过程,其中,执行所述补偿过程涉及以下中的一个或多个:更改对所述音频数据的处理,其中,更改对所述音频数据的处理不涉及将宽带增益增加应用于音频信号;或者应用基于非音频的补偿方法;由所述第一控制系统确定与所述补偿过程相对应的补偿元数据;通过由所述第一控制系统对所述补偿元数据进行编码来产生经编码补偿元数据;通过由所述第一控制系统对所述视频数据进行编码来产生经编码视频数据;通过由所述第一控制系统对所述音频数据进行编码来产生经编码音频数据;以及将包括所述经编码补偿元数据、所述经编码视频数据和所述经编码音频数据的经编码内容流从第一设备传输到至少第二设备。2.如权利要求1所述的方法,其中,所述音频数据包括语音数据以及音乐和效果(M&E)数据,所述内容流处理方法进一步包括:由所述第一控制系统将所述语音数据与所述M&E数据区分开;由所述第一控制系统确定允许从所述音频数据提取所述语音数据的语音元数据;以及通过由所述第一控制系统对所述语音元数据进行编码来产生经编码语音元数据,其中,传输所述经编码内容流包括将所述经编码语音元数据传输到至少所述第二设备。3.如权利要求1或权利要求2所述的方法,其中,所述第二设备包括被配置用于对所述经编码内容流进行解码的第二控制系统。4.如权利要求3所述的方法,其中,所述第二设备是已向其传输所述经编码音频数据的多个设备之一。5.如权利要求4所述的方法,其中,已至少部分地基于针对用户类别的语音可懂度来选择所述多个设备。6.如权利要求5所述的方法,其中,通过以下中的一个或多个来定义所述用户类别:已知或估计的听力能力、已知或估计的语言水平、已知或估计的口音理解水平、已知或估计的视敏度或者已知或估计的阅读理解力。7.如权利要求3或权利要求4所述的方法,其中,所述补偿元数据包括能够由所述第二设备或由所述第二设备的用户选择的多个选项。8.如权利要求7所述的方法,其中,所述多个选项中的两个或更多个选项与所述第二设备所处的环境中能够出现的噪声水平相对应。9.如权利要求7所述的方法,其中,所述多个选项中的两个或更多个选项与语音可懂度指标相对应。10.如权利要求9所述的方法,其中,所述经编码内容流包括语音可懂度元数据,所述内容流处理方法进一步包括由所述第二控制系统并且至少部分地基于所述语音可懂度元数据来选择所述两个或更多个选项中的一个选项。
11.如权利要求7所述的方法,其中,所述多个选项中的每个选项与所述第二设备的所述用户的以下中的一个或多个相对应:已知或估计的听力能力、已知或估计的语言水平、已知或估计的口音理解水平、已知或估计的视敏度或者已知或估计的阅读理解力。12.如权利要求7所述的方法,其中,所述多个选项中的每个选项与语音增强水平相对应。13.如权利要求1至3或7至12中任一项所述的方法,其中,所述第二设备与特定回放设备相对应。14.如权利要求13所述的方法,其中,所述特定回放设备是特定电视。15.如权利要求13或权利要求14所述的方法,进一步包括:由所述第一控制系统并且经由所述第一接口系统从所述第二设备接收所述噪声指标或所述语音可懂度指标中的至少一个。16.如权利要求15所述的方法,其中,所述补偿元数据与所述噪声指标或所述语音可懂度指标中的至少一个相对应。17.如权利要求15或权利要求16所述的方法,进一步包括:由所述第一控制系统并且至少部分地基于所述噪声指标或所述语音可懂度指标来确定所述经编码音频数据将与所有接收到的音频数据相对应还是仅与所述接收...

【专利技术属性】
技术研发人员:T
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1