零样本音频分类模型训练方法、零样本音频分类方法技术

技术编号：40578800 阅读：23 留言：0更新日期：2024-03-06 17:21

本申请公开一种零样本音频分类模型训练方法，包括：获取样本音频所属声音类别对应的声音属性描述；根据所述声音属性描述确定对应于所述样本音频的属性描述文本；根据所述样本音频和所述属性描述文本之间的相似度进行零样本音频分类模型训练。本申请根据声音属性描述确定对应于所述样本音频的属性描述文本，使得本申请中的描述文本侧重多样化的声音属性，声音属性更能代表声音的内在特征，从而提升了训练得到的零样本音频分类模型的识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种零样本音频分类模型训练方法、零样本音频分类方法、电子设备及存储介质。

技术介绍

1、监督学习在许多领域都大有可为。然而，它仅限于在训练过程中包含的预定义类别。在音频分类中，目前的数据集只包含日常常听到的声音，而很少包含特定领域的罕见声音。因此，有监督的音频分类需要对未见过的声音进行耗时耗力的注释，阻碍了其在现实世界中的应用。

2、为了克服对训练数据详尽标注的依赖，近年来零样本音频分类备受关注。零样本音频分类旨在识别和分类在训练模型过程中从未见过的声音类别。大多数研究都是学习音频特征与类别语义特征之间的相关性。相关技术中使用双线性模型计算给定音频和类别嵌入的音频-类别相似度。文本标签为维基百科中的类别和定义，例如，乌鸦类别的文本标签为“与中型到大型鸟类corvus相关的声音”。相关技术中添加了同义词、语义扩展和拟声词作为辅助信息。然而，标签和辅助信息往往不足以区分声音，尤其是相似的声音。由于定义的是发声对象而非听觉属性，它们无法反映近似类别(如机枪和手枪)之间的差异。

>技术实现思路...

【技术保护点】

1.一种零样本音频分类模型训练方法，包括：

2.根据权利要求1所述的方法，其特征在于，获取样本音频所属声音类别对应的声音属性描述，包括：

3.根据权利要求1所述的方法，其特征在于，其特征在于，所述声音属性描述包括多个属性的描述信息，

4.根据权利要求1所述的方法，其特征在于，根据所述样本音频和所述属性描述文本之间的相似度进行零样本音频分类模型训练，包括：

5.根据权利要求4所述的方法，其特征在于，

6.根据权利要求5所述的方法，其特征在于，所述零样本音频分类模型包括文本编码器和音频编码器，

7.根据权利要求1-6中任...

【技术特征摘要】

1.一种零样本音频分类模型训练方法，包括：

2.根据权利要求1所述的方法，其特征在于，获取样本音频所属声音类别对应的声音属性描述，包括：

3.根据权利要求1所述的方法，其特征在于，其特征在于，所述声音属性描述包括多个属性的描述信息，

4.根据权利要求1所述的方法，其特征在于，根据所述样本音频和所述属性描述文本之间的相似度进行零样本音频分类模型训练，包括：

5.根据权利要求4所述的方法，其特征在于，

6.根据权利要求5所述的方法，其特征在于，所述零样本音频分类模型包括文本编码器和音频编码器，

7.根据权利要求1-6中任一项所述的方法，其特...

【专利技术属性】
技术研发人员：俞凯，吴梦玥，徐薛楠，张平越，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人