用于言语增强的数据扩充制造技术

技术编号：40555122 阅读：10 留言：0更新日期：2024-03-05 19:15

提供了一种用于对音频信号进行去混响的方法。在一些实施方式中，所述方法涉及：获得真实声脉冲响应(AIR)；识别所述真实AIR的与直达声的早期反射相对应的第一部分和所述真实AIR的与所述直达声的晚期反射相对应的第二部分；通过修改所述真实AIR的第一部分和/或所述真实AIR的第二部分来生成一个或多个合成AIR；以及使用所述真实AIR和所述一个或多个合成AIR来生成多个训练样本，每个训练样本包括输入音频信号和混响音频信号，其中，所述混响音频信号是基于所述输入音频信号以及所述真实AIR或所述一个或多个合成AIR之一中的至少一者来生成的，所述多个训练样本被用于训练机器学习模型。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及用于经由衰减失真进行言语增强的系统、方法和介质。

技术介绍

1、音频设备，如耳机、扬声器等被广泛部署。人们经常收听到可能包括如混响和/或噪声等失真的音频内容(例如，播客、广播节目、电视节目、音乐视频、用户生成内容、短视频、视频会议、电话会议、小组讨论、采访等)。另外，音频内容可以包括远场音频内容，比如背景噪声。可以对这种音频内容执行增强，比如去混响和/或噪声抑制。然而，增强技术可能会引入不必要的感知失真，比如响度或音色的变化。

2、符号和术语

3、在整个本公开中，包括在权利要求书中，术语“扬声器(speaker)”、“扩音器(loudspeaker)”和“音频再现换能器”同义地用于表示任何发声换能器(或一组换能器)。一套典型的耳机包括两个扬声器。扬声器可以被实施为包括多个换能器(例如，低音扬声器和高音扬声器)，所述换能器可以由单个公共扬声器馈送或多个扬声器馈送驱动。在一些示例中，(多个)扬声器馈送可以在耦接到不同换能器的不同电路分支中经历不同处理。

4、在整个本公开中，包括在权利要求中，在广义上使用“对”信号或数据执行操作的表达(例如，对信号或数据进行滤波、缩放、变换或应用增益)来表示直接对信号或数据执行操作或对信号或数据的已处理版本(例如，在对其执行操作之前已经历了初步滤波或预处理的信号版本)执行操作。

5、在整个本公开中，包括在权利要求中，在广义上使用表达“系统”来表示设备、系统或子系统。例如，实施解码器的子系统可以被称为解码器系统，并且包括这样的子系统的系统(例如，

6、在整个本公开中，包括在权利要求中，在广义上使用术语“处理器”来表示可编程或以其他方式可配置(例如，用软件或固件)成对数据(例如，音频或视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式被配置成对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程通用处理器或计算机、以及可编程微处理器芯片或芯片组。

技术实现思路

1、本公开的至少一些方面可以经由方法来实施。一些方法可以涉及由控制系统获得真实声脉冲响应(air)。一些方法可以涉及由控制系统识别真实air的与直达声的早期反射相对应的第一部分和真实air的与直达声的晚期反射相对应的第二部分。一些方法可以涉及由控制系统通过修改真实air的第一部分和/或真实air的第二部分来生成一个或多个合成air。一些方法可以涉及由控制系统使用真实air和一个或多个合成air来生成多个训练样本，每个训练样本包括输入音频信号和混响音频信号，其中，混响音频信号是至少部分地基于输入音频信号以及真实air或一个或多个合成air之一中的一者来生成的，其中，所述多个训练样本被用于训练机器学习模型，所述机器学习模型将具有混响的测试音频信号作为输入并生成去混响音频信号作为输出。

2、在一些示例中，识别真实air的与早期反射相对应的第一部分和真实air的与晚期反射相对应的第二部分包括选择预定范围内的随机时间值，其中，第一部分包括真实air的在随机时间值之前的部分，并且其中，第二部分包括真实air的在随机时间值之后的部分。在一些示例中，预定范围为约20毫秒至约80毫秒。

3、在一些示例中，修改真实air的第二部分包括在从晚期反射持续时间的预定范围中随机选择的持续时间之后截断真实air的第二部分。

4、在一些示例中，修改真实air的第二部分包括修改包括在真实air的第二部分中的一个或多个响应的幅度。在一些示例中，修改包括在真实air的第二部分中的一个或多个响应的幅度包括：确定与所述真实air的第二部分相关联的目标衰减函数；以及根据所述目标衰减函数修改包括在所述真实air的第二部分中的一个或多个响应的幅度。

5、在一些示例中，混响音频信号是通过将输入音频信号与真实air或一个或多个合成air之一中的一者进行卷积而生成的。

6、在一些示例中，方法可以进一步涉及将噪声添加到输入音频信号与真实air或一个或多个合成air之一中的一者的卷积中，以生成混响音频信号。

7、在一些示例中，方法可以进一步涉及通过以下方式来生成附加的合成air：识别所述真实air的更新的第一部分和所述真实air的更新的第二部分；以及修改所述真实air的更新的第一部分和/或所述真实air的更新的第二部分。

8、在一些示例中，方法可以进一步涉及将多个训练样本提供给机器学习模型以生成经训练的机器学习模型，所述经训练的机器学习模型将具有混响的测试音频信号作为输入并生成去混响音频信号作为输出。在一些示例中，测试音频信号是现场捕获的音频信号。

9、在一些示例中，真实air是在物理房间中测量的测得的air。

10、在一些示例中，真实air是使用房间声学模型生成的。

11、在一些示例中，输入音频信号与特定音频内容类型相关联。在一些示例中，特定音频内容类型包括远场噪声。在一些示例中，特定音频内容类型包括在室内环境中捕获的音频内容。在一些示例中，方法可以进一步涉及在生成多个训练样本之前获得多个输入音频信号的训练集，每个输入音频信号与特定音频内容类型相关联。

12、本文描述的一些或所有操作、功能和/或方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来执行。这种非暂态介质可以包括比如本文所描述的那些存储器设备，包括但不限于随机存取存储器(ram)设备、只读存储器(rom)设备等。因此，可以经由其上存储有软件的一种或多种非暂态介质来实施本公开内容中描述的主题的一些创新方面。

13、本公开的至少一些方面可以经由装置来实施。例如，一个或多个设备可以能够至少部分地执行本文公开的方法。在一些实施方式中，装置是或包括具有接口系统和控制系统的音频处理系统。控制系统可以包括一个或多个通用单芯片或多芯片处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其他可编程逻辑设备、离散门或晶体管逻辑、离散硬件部件或其组合。

14、在以下附图和说明中阐述了本说明书中所描述的主题的一个或多个实施方式的细节。从说明书、附图和权利要求中，其他特征、方面和优点将变得显而易见。注意，以下附图的相对尺寸可能不是按比例来绘制的。

本文档来自技高网...

【技术保护点】

1.一种用于对音频信号进行去混响的方法，所述方法包括：

2.如权利要求1所述的方法，其中，识别所述真实AIR的与早期反射相对应的所述第一部分和所述真实AIR的与晚期反射相对应的所述第二部分包括选择预定范围内的随机时间值，其中，所述第一部分包括所述真实AIR的在所述随机时间值之前的部分，并且其中，所述第二部分包括所述真实AIR的在所述随机时间值之后的部分。

3.如权利要求2所述的方法，其中，所述预定范围为约20毫秒至约80毫秒。

4.如权利要求1至3中任一项所述的方法，其中，修改所述真实AIR的所述第一部分包括使包括在所述真实AIR的所述第一部分中的响应的时间点随机化。

5.如权利要求1至4中任一项所述的方法，其中，修改所述真实AIR的所述第二部分包括在从晚期反射持续时间的预定范围中随机选择的持续时间之后截断所述真实AIR的所述第二部分。

6.如权利要求1至5中任一项所述的方法，其中，修改所述真实AIR的所述第二部分包括修改包括在所述真实AIR的所述第二部分中的一个或多个响应的幅度。

7.如权利要求6所述的方法

8.如权利要求1至7中任一项所述的方法，其中，所述混响音频信号是通过将所述输入音频信号与所述真实AIR或所述一个或多个合成AIR之一中的一者进行卷积而生成的。

9.如权利要求1至8中任一项所述的方法，进一步包括将噪声添加到所述输入音频信号与所述真实AIR或所述一个或多个合成AIR之一中的一者的卷积中，以生成所述混响音频信号。

10.如权利要求1至9中任一项所述的方法，进一步包括通过以下方式来生成附加的合成AIR：

11.如权利要求1至10中任一项所述的方法，进一步包括将所述多个训练样本提供给所述机器学习模型以生成经训练的机器学习模型，所述经训练的机器学习模型将所述具有混响的所述测试音频信号作为所述输入并生成所述去混响音频信号作为所述输出。

12.如权利要求11所述的方法，其中，所述测试音频信号是现场捕获的音频信号。

13.如权利要求1至12中任一项所述的方法，其中，所述真实AIR是在物理房间中测量的测得的AIR。

14.如权利要求1至13中任一项所述的方法，其中，所述真实AIR是使用房间声学模型生成的。

15.如权利要求1至14中任一项所述的方法，其中，所述输入音频信号与特定音频内容类型相关联。

16.如权利要求15所述的方法，其中，所述特定音频内容类型包括远场噪声。

17.如权利要求15或16中任一项所述的方法，其中，所述特定音频内容类型包括在室内环境中捕获的音频内容。

18.如权利要求15至17中任一项所述的方法，进一步包括在生成所述多个训练样本之前获得多个输入音频信号的训练集，每个输入音频信号与所述特定音频内容类型相关联。

19.一种装置，其被配置用于实施如权利要求1至18中任一项所述的方法。

20.一个或多个非暂态介质，其上存储有软件，所述软件包括用于控制一个或多个设备执行如权利要求1至18中任一项所述的方法的指令。

...

【技术特征摘要】
【国外来华专利技术】

1.一种用于对音频信号进行去混响的方法，所述方法包括：

2.如权利要求1所述的方法，其中，识别所述真实air的与早期反射相对应的所述第一部分和所述真实air的与晚期反射相对应的所述第二部分包括选择预定范围内的随机时间值，其中，所述第一部分包括所述真实air的在所述随机时间值之前的部分，并且其中，所述第二部分包括所述真实air的在所述随机时间值之后的部分。

3.如权利要求2所述的方法，其中，所述预定范围为约20毫秒至约80毫秒。

4.如权利要求1至3中任一项所述的方法，其中，修改所述真实air的所述第一部分包括使包括在所述真实air的所述第一部分中的响应的时间点随机化。

5.如权利要求1至4中任一项所述的方法，其中，修改所述真实air的所述第二部分包括在从晚期反射持续时间的预定范围中随机选择的持续时间之后截断所述真实air的所述第二部分。

6.如权利要求1至5中任一项所述的方法，其中，修改所述真实air的所述第二部分包括修改包括在所述真实air的所述第二部分中的一个或多个响应的幅度。

7.如权利要求6所述的方法，其中，修改包括在所述真实air的所述第二部分中的所述一个或多个响应的所述幅度包括：

8.如权利要求1至7中任一项所述的方法，其中，所述混响音频信号是通过将所述输入音频信号与所述真实air或所述一个或多个合成air之一中的一者进行卷积而生成的。

9.如权利要求1至8中任一项所述的方法，进一步包括将噪声添加到所述输入音频信号与所述真实air或所述一个或多个合成air之一中的一...

【专利技术属性】
技术研发人员：戴佳，李凯，刘晓宇，R·J·卡特怀特，杨少凡，
申请(专利权)人：杜比实验室特许公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人