使用自适应网络来对全景声系数进行变换制造技术

技术编号:35549242 阅读:12 留言:0更新日期:2022-11-12 15:28
一种设备包括存储器,其被配置为存储在不同时间段处的未经变换的全景声系数。该设备还包括一个或多个处理器,其被配置为:获得在不同时间段处的未经变换的全景声系数,其中,在不同时间段处的未经变换的全景声系数表示在不同时间段处的声场。一个或多个处理器还被配置为:基于约束来将一个自适应网络应用于在不同时间段处的未经变换的全景声系数,以生成在不同时间段处的经变换的全景声系数,其中,在不同时间段处的经变换的全景声系数表示基于约束而修改的、在不同时间段处的经修改的声场。场。场。

【技术实现步骤摘要】
【国外来华专利技术】使用自适应网络来对全景声系数进行变换
[0001]依据35U.S.C.
§
119要求优先权
[0002]本专利申请要求享受于2021年3月23日递交的、名称为“TRANSFORM AMBISONIC COEFFICIENTS USING AN ADAPTIVE NETWORK”的非临时申请No.17/210,357的优先权,其要求享受于2020年3月24日递交的、名称为“TRANSFORM AMBISONIC COEFFICIENTS USING AN ADAPTIVE NETWORK BASED ON OTHER FORM FACTORS THAN IDEAL MICROPHONE ARRAYS”的临时申请No.62/994,158、以及于2020年3月24日递交的、名称为“TRANSFORM AMBISONIC COEFFICIENTS USING AN ADAPTIVE NETWORK”的临时申请No.62/994,147的优先权,上述申请被转让给本申请的受让人并且据此通过引用的方式被明确地并入本文中。


[0003]概括而言,下文涉及全景声(ambisonic)系数生成,并且更具体地,下文涉及使用自适应网络来对全景声系数进行变换。

技术介绍

[0004]技术的进步已经导致更小且更强大的计算设备。例如,目前存在各种各样的便携式个人计算设备,包括小型、轻量级以及容易由用户携带的无线电话(诸如移动和智能电话、平板设备和膝上型计算机)。这些设备可以在无线网络上传送语音和数据分组。此外,许多这样的设备并入了额外的功能,诸如数字照相机、数字摄像机、数字记录器和音频文件播放器。此外,这样的设备可以处理可执行指令,包括可以用以接入互联网的软件应用(诸如网页浏览器应用)。照此,这些设备可以包括关键的计算能力。
[0005]计算能力包括处理全景声系数。由全景声系数表示的全景声信号是声场的三维表示。全景声信号或全景声信号的全景声系数表示可以以独立于用于回放从全景声信号渲染的多声道音频信号的本地扬声器几何结构的方式来表示声场。

技术实现思路

[0006]一种设备包括存储器,其被配置为存储在不同时间段处的未经变换的全景声系数。所述设备还包括一个或多个处理器,其被配置为:获得在所述不同时间段处的所述未经变换的全景声系数,其中,在所述不同时间段处的所述未经变换的全景声系数表示在所述不同时间段处的声场。所述一个或多个处理器还被配置为:基于约束来将一个自适应网络应用于在所述不同时间段处的所述未经变换的全景声系数,以生成在所述不同时间段处的经变换的全景声系数,其中,在所述不同时间段处的所述经变换的全景声系数表示基于所述约束而修改的、在所述不同时间段处的经修改的声场。
[0007]在阅读整个申请(包括以下章节:附图说明、具体实施方式和权利要求书)之后,本公开内容的方面、优势和特征将变得显而易见。
附图说明
[0008]图1示出了根据本公开内容的一些示例的示例性全景声系数集合和可以用于捕获由全景声系数表示的声场的不同的示例性设备。
[0009]图2A是根据本公开内容的一些示例的可操作以利用约束和目标全景声系数来执行对自适应网络的权重的自适应学习的系统的特定说明性示例的图。
[0010]图2B是根据本公开内容的一些示例的可操作以利用约束和目标全景声系数来执行对自适应网络的权重的推断和/或自适应学习的系统的特定说明性示例的图,其中,约束包括使用方向。
[0011]图2C是根据本公开内容的一些示例的可操作以利用约束和目标全景声系数来执行对自适应网络的权重的推断和/或自适应学习的系统的特定说明性示例的图,其中,约束包括使用缩放值。
[0012]图2D是根据本公开内容的一些示例的可操作以利用多个约束和目标全景声系数来执行自适应网络的推断和/或进行推断的系统的特定说明性示例的示意图,其中,多个约束包括使用多个方向。
[0013]图2E是根据本公开内容的一些示例的可操作以利用约束和目标全景声系数来执行对自适应网络的权重的推断和/或进行推断和/或自适应学习的系统的特定说明性示例的图,其中,约束包括以下各项中的至少一项:理想麦克风类型、目标阶数、形状因子麦克风位置、模型/形状因子。
[0014]图3A是根据本公开内容的一些示例的可操作以结合一个或多个音频应用、使用所学习的权重来执行自适应网络的推断的系统的特定说明性方面的框图。
[0015]图3B是根据本公开内容的一些示例的可操作以结合一个或多个音频应用、使用所学习的权重来执行自适应网络的推断的系统的特定说明性方面的框图。
[0016]图4A是根据本公开内容的一些示例的可操作以结合音频应用、使用所学习的权重来执行自适应网络的推断的系统的特定说明性方面的框图,其中,音频应用使用编码器和存储器。
[0017]图4B是根据本公开内容的一些示例的可操作以结合音频应用、使用所学习的权重来执行自适应网络的推断的系统的特定说明性方面的框图,其中,音频应用包括使用编码器、存储器和解码器。
[0018]图4C是根据本公开内容的一些示例的可操作以结合音频应用、使用所学习的权重来执行自适应网络的推断的系统的特定说明性方面的框图,其中,音频应用包括使用渲染器、关键字检测器和设备控制器。
[0019]图4D是根据本公开内容的一些示例的可操作以结合音频应用、使用所学习的权重来执行自适应网络的推断的系统的特定说明性方面的框图,其中,音频应用包括使用渲染器、方向检测器和设备控制器。
[0020]图4E是根据本公开内容的一些示例的可操作以结合音频应用、使用所学习的权重来执行自适应网络的推断的系统的特定说明性方面的框图,其中,音频应用包括使用渲染器。
[0021]图4F是根据本公开内容的一些示例的可操作以结合音频应用、使用所学习的权重来执行自适应网络的推断的系统的特定说明性方面的框图,其中,音频应用包括使用在图
4C、图4D和图4E中描述的应用。
[0022]图5A是根据本公开内容的一些示例的可操作以执行自适应网络的推断的虚拟现实或增强现实眼镜的图。
[0023]图5B是根据本公开内容的一些示例的可操作以执行自适应网络的推断的虚拟现实或增强现实耳机的图。
[0024]图5C是根据本公开内容的一些示例的可操作以执行自适应网络的推断的车辆的图。
[0025]图5D是根据本公开内容的一些示例的可操作以执行自适应网络的推断的手持机的图。
[0026]图6A是根据本公开内容的一些示例的可操作以执行自适应网络225的推断的设备的图,其中,该设备在不同的方向上渲染两个音频流。
[0027]图6B是根据本公开内容的一些示例的可操作以执行自适应网络225的推断的设备的图,其中,该设备能够捕获在讲话者区域中的语音。
[0028]图6C是根据本公开内容的一些示例的可操作以执行自适应网络225的推断的设备的图,其中,该设备能够渲染在隐私区域中的音频。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种设备,包括:存储器,其被配置为存储在不同时间段处的未经变换的全景声系数;以及一个或多个处理器,其被配置为:获得在所述不同时间段处的所述未经变换的全景声系数,其中,在所述不同时间段处的所述未经变换的全景声系数表示在所述不同时间段处的声场;并且基于约束来将一个自适应网络应用于在所述不同时间段处的所述未经变换的全景声系数,以生成在所述不同时间段处的经变换的全景声系数,其中,在所述不同时间段处的所述经变换的全景声系数表示基于所述约束而修改的、在所述不同时间段处的经修改的声场。2.根据权利要求1所述的设备,其中,所述约束包括保留在所述不同时间段处的所述声场中的一个或多个音频源的空间方向,并且在所述不同时间段处的所述经变换的全景声系数表示在所述不同时间段处的经修改的声场,在所述不同时间段处的所述经修改的声场包括具有所保留的空间方向的所述一个或多个音频源。3.根据权利要求2所述的设备,还包括被配置为压缩所述经变换的全景声系数的编码器,并且还包括被配置在发送链路上发送经压缩的经变换全景声系数的发射机。4.根据权利要求2所述的设备,还包括被配置为接收经压缩的经变换全景声系数的接收机,并且还包括被配置为解压缩所述经变换的全景声系数的解码器。5.根据权利要求2所述的设备,还包括麦克风阵列,其被配置为:捕获被转换为所述未经变换的全景声系数的麦克风信号,并且所述约束包括保留在所述声场中来自车辆中的扬声器区域的一个或多个音频源的所述空间方向。6.根据权利要求2所述的设备,还包括额外的自适应网络、以及被输入到所述额外的自适应网络的额外约束,所述额外的自适应网络被配置为输出额外的经变换的全景声系数,其中,所述额外约束包括保留与所述约束不同的空间方向。7.根据权利要求6所述的设备,还包括组合器,其中,所述组合器被配置为将所述额外的经变换的全景声系数和所述经变换的全景声系数线性地相加。8.根据权利要求7所述的设备,还包括渲染器,其被配置为:在第一空间方向上渲染所述经变换的全景声系数,以及在不同空间方向上渲染所述额外的经变换的全景声系数。9.根据权利要求8所述的设备,其中,在所述第一空间方向上的所述经变换的全景声系数被渲染以在隐私区域中产生声音。10.根据权利要求9所述的设备,其中,在所述不同的空间方向上的所述额外的经变换的全景声系数表示掩码信号,并且被渲染以在所述隐私区域外部产生声音。11.根据权利要求9所述的设备,其中,在所述隐私区域中的所述声音比在所述隐私区域外部产生的声音要大声。12.根据权利要求9所述的设备,其中,隐私区域模式是响应于传入或传出的电话呼叫而被激活的。13.根据权利要求1所述的设备,其中,所述约束包括通过缩放因子来缩放在所述不同时间段处的所述声场,其中,所述缩放因子的应用将在由在所述不同时间段处的所述未经变换的全景声系数表示的所述声场中的至少第一音频源放大,其中,在所述不同时间段处的所述经变换的全景声系数表示在所述不同时间段处的经修改的声场,在所述不同时间段
处的所述经修改的声场包括被放大的所述至少第一音频源。14.根据权利要求1所述的设备,其中,所述约束包括通过缩放因子来缩放...

【专利技术属性】
技术研发人员:金莱轩S
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1