编排声学直接序列扩频信号以估计声学场景度量制造技术

技术编号:38457499 阅读:16 留言:0更新日期:2023-08-11 14:35
一些方法可以涉及接收包括第一音频信号的第一内容流,渲染第一音频信号以产生第一音频回放信号,生成第一直接序列扩频(DSSS)信号,通过将第一DSSS信号插入第一音频回放信号来产生第一修改音频回放信号,以及使扩音器系统回放第一修改音频回放信号,以生成第一音频设备回放声音。该(多个)方法可以涉及接收对应于至少第一音频设备回放声音和第二至第N音频设备回放声音的麦克风信号,第二至第N音频设备回放声音对应于由第二至第N音频设备回放的第二至第N修改音频回放信号(包括第二至第NDSSS信号),从麦克风信号中提取第二至第N DSSS信号,以及至少部分地基于第二至第N DSSS信号来估计至少一个声学场景度量。信号来估计至少一个声学场景度量。信号来估计至少一个声学场景度量。

【技术实现步骤摘要】
【国外来华专利技术】编排声学直接序列扩频信号以估计声学场景度量
[0001]相关申请的交叉引用
[0002]本申请要求2020年12月3日提交的美国临时专利申请No.63/121,085;2021年9月7日提交的美国临时专利申请No.63/260,954;2020年12月3日提交的美国临时专利申请No.63/120,887;以及2021年5月4日提交的美国临时专利申请No.63/201,561的优先权权益,其内容通过引用并入本文。


[0003]本公开涉及音频处理系统和方法。

技术介绍

[0004]音频设备和系统被广泛部署。尽管用于估计声学场景度量(例如,音频设备可听度)的现有系统和方法是已知的,但是改进的系统和方法是期望的。
[0005]符号和命名法
[0006]贯穿本公开,包括在权利要求中,术语“扬声器”、“扩音器”和“音频再现换能器”被同义地使用以表示任何发出声音的换能器(或换能器组)。典型的耳机组包括两个扬声器。扬声器可以被实现为包括多个换能器(例如,低音扬声器和高音扬声器),它们可以由单个公共扬声器馈送或多个扬声器馈送驱动。在一些示例中,(多个)扬声器馈送可以在耦合到不同换能器的不同电路分支中经历不同处理。
[0007]贯穿本公开,包括在权利要求中,表述“对”信号或数据执行操作(例如,对信号或数据进行滤波、缩放、变换或应用增益)在广义上用于表示直接对信号或数据执行操作,或对信号或数据的经处理版本(例如,对其执行操作之前已经历初步滤波或预处理的信号版本)执行操作。
[0008]贯穿本公开,包括在权利要求中,表述“系统”在广义上用于表示设备、系统或子系统。例如,实现解码器的子系统可以称为解码器系统,而包括这种子系统的系统(例如,响应于多个输入生成X个输出信号的系统,其中子系统生成M个输入,而其他X

M个输入是从外部源接收的)也可以称为解码器系统。
[0009]贯穿本公开,包括在权利要求中,术语“处理器”在广义上用于表示可编程或以其他方式可配置(例如,使用软件或固件)以对数据(例如,音频或视频或其他图像数据)执行操作。处理器的示例包括现场可编程门阵列(或其他可配置的集成电路或芯片组)、被编程和/或以其他方式配置为对音频或其他声音数据执行流水线处理的数字信号处理器、可编程通用处理器或计算机、和可编程微处理器芯片或芯片组。
[0010]贯穿本公开,包括在权利要求中,术语“耦合”或“耦合到”用于表示直接或间接连接。因此,如果第一设备耦合到第二设备,则该连接可以是通过直接连接,或通过经由其他设备和连接的间接连接。
[0011]如本文所使用的,“智能设备”是一种电子设备,通常被配置用于经由可以在某种程度上交互和/或自主运行的各种无线协议(例如是蓝牙、Zigbee、近场通信、Wi

Fi、光保真
(Li

Fi)、3G、4G、5G等)与一个或多个其他设备(或网络)通信。几种值得注意的智能设备类型是智能手机、智能汽车、智能恒温器、智能门铃、智能锁、智能冰箱、平板手机和平板电脑、智能手表、智能手环、智能钥匙链和智能音频设备。术语“智能设备”还可以指代展现诸如人工智能之类的普适计算的某些性质的设备。
[0012]在此,我们使用表述“智能音频设备”来表示如下智能设备:它可以是单一用途的音频设备,也可以是多用途的音频设备(例如,至少实现虚拟助手功能的某些方面的音频设备)。单一用途音频设备是包括或耦合到至少一个麦克风(并且可选地还包括或耦合到至少一个扬声器和/或至少一个相机)的设备(例如,电视(TV)),并且它是大体或主要为实现单一目的而设计的。例如,尽管电视通常可以播放(并且被认为能够播放)节目素材中的音频,但在大多数情况下,现代电视运行某种操作系统,应用在该操作系统上本地运行,包括看电视的应用。从这个意义上讲,具有(多个)扩音器和(多个)麦克风的单一用途音频设备通常被配置为运行本地应用和/或服务,以直接使用(多个)扬声器和(多个)麦克风。一些单一用途的音频设备可以被配置为分组在一起以实现在地区或用户配置的区域上播放音频。
[0013]一种常见类型的多用途音频设备是实现虚拟助手功能的至少一些方面的音频设备,尽管虚拟助手功能的其他方面可以由一个或多个其他设备实现,例如一个或多个服务器,其中多用途音频设备被配置用于通信。这样的多用途音频设备在本文中可以被称为“虚拟助手”。虚拟助手是包括或耦合到至少一个麦克风(并且可选地还包括或耦合到至少一个扬声器和/或至少一个相机)的设备(例如,智能扬声器或语音助手集成设备)。在一些示例中,虚拟助手可以提供将多个设备(不同于虚拟助手)用于在某种意义上是支持云的或以其他方式未完全在虚拟助手自身之中或之上实现的应用的能力。换言之,虚拟助手功能的至少一些方面,例如语音识别功能,可以(至少部分地)由一个或多个服务器或虚拟助手可以经由网络(例如互联网)与之通信的其他设备来实现。虚拟助手有时可以一起工作,例如,以离散和有条件定义的方式。例如,两个或更多虚拟助手可以在其中一个(例如,最有信心听到唤醒词的那个)响应唤醒词的意义上一起工作。在一些实现中,所连接的虚拟助手可以形成一种星座,其可以由可以是(或实现)虚拟助手的一个主应用管理。
[0014]在此,“唤醒词”在广义上用于表示任何声音(例如,人说出的词,或一些其他声音),其中智能音频设备被配置为响应于检测到(“听到”)声音(使用包括在智能音频设备中或耦合到智能音频设备的至少一个麦克风,或至少一个其他麦克风)而唤醒。在此上下文中,“唤醒”表示设备进入等待(换言之,正在收听)声音命令的状态。在一些情况下,本文中可称为“唤醒词”的内容可以包括多于一个词,例如短语。
[0015]在此,表述“唤醒词检测器”表示被配置为连续搜索实时声音(例如,语音)特征与训练模型之间的对准的设备(或包括用于配置设备的指令的软件)。通常,无论何时唤醒词检测器确定检测到唤醒词的概率超过预定义的阈值,就会触发唤醒词事件。例如,阈值可以是预先确定的阈值,其被调整以在错误接受率和错误拒绝率之间给出合理的折衷。在唤醒词事件之后,设备可能会进入如下状态(可以称为“唤醒”状态或“专注”状态):在该状态下它会收听命令并将接收到的命令传递给更大、更计算密集型的识别器。
[0016]如本文所使用的,术语“节目流”和“内容流”指的是一个或多个音频信号的集合,并且在一些情况下是视频信号,其中的至少一部分旨在被一起听到。示例包括音乐、电影配乐、电影、电视节目、电视节目的音频部分、播客、实时语音呼叫、来自智能助手的合成语音
响应等的选集。在一些情况下,内容流可以包括音频信号的至少一部分的多个版本,例如,多于一种语言的相同对话。在这种情况下,旨在一个时间再现音频数据或其一部分的仅一个版本(例如,对应于一种语言的版本)。

技术实现思路

[0017]本公开的至少一些方面可以经由一个或多个音频处理方法来实现。在一些情况下,(多个)方法可以至少部分地由控制系统和/或经由存储在一个或多个非瞬态本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种装置,包括:扩音器系统,包括至少一个扩音器;麦克风系统,包括至少一个麦克风;以及控制系统,被配置为:接收第一内容流,第一内容流包括第一音频信号;渲染第一音频信号以产生第一音频回放信号;生成第一直接序列扩频(DSSS)信号;将第一DSSS信号插入到第一音频回放信号中以生成第一修改音频回放信号;以及使扩音器系统回放第一修改音频回放信号,以生成第一音频设备回放声音。2.如权利要求1所述的装置,其中控制系统包括:DSSS信号生成器,被配置成生成DSSS信号;DSSS信号调制器,被配置为调制由DSSS信号生成器生成的DSSS信号,以产生第一DSSS信号;以及DSSS信号注入器,被配置为将第一DSSS信号插入到第一音频回放信号中以生成第一修改音频回放信号。3.如权利要求1或权利要求2所述的装置,其中控制系统还被配置为:从麦克风系统接收对应于至少第一音频设备回放声音和第二音频设备回放声音的麦克风信号,第二音频设备回放声音对应于由第二音频设备回放的第二修改音频回放信号,第二修改音频回放信号包括第二DSSS信号;以及从麦克风信号中提取至少第二DSSS信号。4.如权利要求1或权利要求2所述的装置,其中控制系统还被配置为:从麦克风系统接收对应于至少第一音频设备回放声音和对应于第二至第N音频设备回放声音的麦克风信号,第二至第N音频设备回放声音对应于由第二至第N音频设备回放的第二至第N修改音频回放信号,第二至第N修改音频回放信号包括第二至第N DSSS信号;以及从麦克风信号中提取至少第二至第N DSSS信号。5.如权利要求4所述的装置,其中控制系统还被配置为至少部分地基于第二至第N DSSS信号来估计至少一个声学场景度量。6.如权利要求5所述的装置,其中所述至少一个声学场景度量包括以下中的一个或多个:飞行时间、到达时间、距离、音频设备可听度、音频设备脉冲响应、音频设备之间的角度、音频设备位置、音频环境噪声或信噪比。7.如权利要求5或权利要求6所述的装置,其中控制系统还被配置为至少部分地基于所述至少一个声学场景度量、至少一个音频设备特性、或者所述至少一个声学场景度量和至少一个音频设备特性这两者控制音频设备回放的一个或多个方面。8.如权利要求1

7中任一项所述的装置,其中第一音频设备回放声音的第一内容流分量导致第一音频设备回放声音的第一DSSS信号分量的感知掩蔽。9.如权利要求1

8中任一项所述的装置,其中控制系统被配置为:为音频环境中的多个音频设备中的每个音频设备确定一个或多个DSSS参数,所述一个或多个DSSS参数能用于DSSS信号的生成;以及向所述多个音频设备中的每个音频设备提供所述一个或多个DSSS参数。
DSSS信号涉及向麦克风信号或向麦克风信号的预处理版本应用匹配滤波器,以产生第二至第N延迟波形,所述第二至第N延迟波形对应于第二至第N DSSS信号中的每一个。23.如权利要求22所述的装置,其中控制系统还被配置为向第二至第N延迟波形中的每一个应用低通滤波器。24.如权利要求22或权利要求23所述的装置,其中:控制系统被配置为实现解调器;应用匹配滤波器是由解调器执行的解调过程的一部分;并且解调过程的输出是解调相干基带信号。25.如权利要求24所述的装置,其中控制系统还被配置为估计体延迟并向解调器提供体延迟估计。26.如权利要求24或权利要求25所述的装置,其中控制系统还被配置为实现被配置用于所述解调相干基带信号的基带处理的基带处理器,并且其中所述基带处理器被配置为输出至少一个估计的声学场景度量。27.如权利要求26所述的装置,其中所述基带处理涉及基于在非相干积分周期中接收的解调相干基带信号来产生非相干积分延迟波形。28.如权利要求27所述的装置,其中产生所述非相干积分延迟波形涉及对在非相干积分周期中接收的所述解调相干基带信号进行平方,以产生平方解调基带信号,并且对所述平方解调基带信号进行积分。29.如权利要求27或权利要求28所述的装置,其中所述基带处理涉及向所述非相干积分延迟波形应用前沿估计过程、受控响应功率估计过程或信噪比估计过程中的一个或多个。30.如权利要求26

29中任一项所述的装置,其中控制系统还被配置为估计体延迟并向所述基带处理器提供体延迟估计。31.如权利要求22

30中任一项所述的装置,其中控制系统还被配置为基于第二至第N延迟波形来估计第二至第N音频设备位置处的第二至第N噪声功率级别。32.如权利要求31所述的装置,其中控制系统还被配置为至少部分地基于第二至第N噪声功率级别来产生音频环境的分布式噪声估计。33.如权利要求1

32中任一项所述的装置,其中控制系统还被配置为执行用于消除两个异步音频设备之间的未知时钟偏差的异步双向测距过程,所述异步双向测距过程基于由所述两个异步音频设备中的每一个传输的DSSS信号。34.如权利要求33所述的装置,其中控制系统还被配置为在音频环境的多个音频设备中的每一个之间执行所述异步双向测距过程。35.如权利要求1

32中任一项所述的装置,其中控制系统还被配置为:执行用于确定两个异步音频设备之间的估计时钟偏差的时钟偏差估计过程,所述时钟偏差估计过程基于由所述两个异步音频设备中的每一个传输的DSSS信号;以及针对所述估计...

【专利技术属性】
技术研发人员:B
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1