用于基于神经网络的音频处理的放宽实例频率归一化制造技术

技术编号：41330336 阅读：39 留言：0更新日期：2024-05-13 15:09

用于训练神经网络以将音频分类到多个类别中的一个类别以及使用此类所训练的神经网络的技术和装置。一种示例方法一般包括接收包括多个音频样本的数据集。通过对该多个音频样本中的每个音频样本进行归一化来生成放宽特征归一化数据集。对神经网络进行训练以基于该放宽特征归一化数据集将音频分类到多个类别中的一个类别，并且部署所训练的神经网络。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

技术介绍

技术实现思路

【技术保护点】

1.一种处理器实现的方法，所述方法包括：

2.根据权利要求1所述的方法，其中生成所述音频输入的所述放宽频率归一化型式包括：

3.根据权利要求2所述的方法，其中所述多个特征维度包括批量维度、信道维度、频率维度和时间维度。

4.根据权利要求2所述的方法，其中所述一个或多个统计量度包括：

5.根据权利要求2所述的方法，其中生成所接收的音频输入的所述放宽频率归一化型式还包括使用在所接收的音频输入的多个部分中的每个部分上生成的一个或多个统计量度，基于层归一化对所接收的音频输入进行归一化。

6.根据权利要求5所述的方法，其中对所接收的音频输入进行归一化还基于要应用于所归一化的接收音频输入的与放宽程度相关联的放宽因子。

7.根据权利要求5所述的方法，其中对所接收的音频输入进行归一化包括：

8.根据权利要求2所述的方法，其中生成所接收的音频输入的所述放宽频率归一化型式包括：

9.根据权利要求1所述的方法，其中所述神经网络包括多个层和一个或多个放宽频率归一化模块。

10.根据权利要求1所述的

11.根据权利要求1所述的方法，其中所述神经网络包括用于将所述音频输入分类到与针对计算系统中的任务所定义的关键词相关联的所述多个类别中的一个类别的模型。

12.根据权利要求1所述的方法，其中所述神经网络包括用于标识记录在所述音频输入中的说话者的模型。

13.根据权利要求1所述的方法，其中所述神经网络包括二维卷积神经网络。

14.一种处理器实现的方法，所述方法包括：

15.根据权利要求14所述的方法，其中生成所述放宽频率归一化数据集包括：

16.根据权利要求15所述的方法，其中所述多个特征维度包括批量维度、信道维度、频率维度和时间维度。

17.根据权利要求15所述的方法，其中所述一个或多个统计量度包括：

18.根据权利要求15所述的方法，其中生成所述放宽频率归一化数据集还包括使用在所接收的数据集上生成的一个或多个统计量度，基于层归一化进一步对所述多个音频样本中的每个音频样本进行归一化。

19.根据权利要求18所述的方法，其中进一步对所述多个音频样本中的每个音频样本进行归一化还基于要应用于所述多个音频样本中的每个音频样本的每个实例频率归一化型式的与放宽程度相关联的放宽因子。

20.根据权利要求18所述的方法，其中进一步对所述多个音频样本中的每个音频样本进行归一化包括：

21.根据权利要求15所述的方法，其中生成所述放宽频率归一化数据集还包括：

22.一种处理系统，所述处理系统包括：

23.一种处理系统，所述处理系统包括：

24.根据权利要求23所述的系统，其中生成所述音频输入的所述放宽频率归一化型式包括：

25.根据权利要求24所述的系统，其中所述多个特征维度包括批量维度、信道维度、频率维度和时间维度。

26.根据权利要求24所述的系统，其中所述一个或多个统计量度包括：

27.根据权利要求24所述的系统，其中生成所接收的音频输入的所述放宽频率归一化型式还包括使用在所接收的音频输入的多个部分中的每个部分上生成的一个或多个统计量度，基于层归一化进一步对所接收的音频输入进行归一化。

28.根据权利要求24所述的系统，其中进一步对所接收的音频输入进行归一化还基于要应用于所归一化的接收音频输入的与放宽程度相关联的放宽因子。

29.根据权利要求24所述的系统，其中生成所接收的音频输入的所述放宽频率归一化型式包括：

30.根据权利要求24所述的系统，其中所述神经网络包括多个层和一个或多个放宽频率归一化模块。

...

【技术特征摘要】
【国外来华专利技术】