一种音频标记的生成方法及装置制造方法及图纸

技术编号：46081981 阅读：5 留言：0更新日期：2025-08-12 18:05

本申请提供了一种音频标记的生成方法及装置，所述生成方法包括：获取待处理音频数据的音轨信息；其中，所述音轨信息包括是否已进行音轨分离处理、音轨分离处理后的多个待处理音轨数据、以及各待处理音轨数据间的关联关系；根据所述音轨信息和预设生成模型匹配规则，从候选的至少一个音频标记生成模型中确定目标音频标记生成模型；其中，所述目标音频标记生成模型基于音频数据生成离散音频标记；将所述待处理音频数据或所述多个待处理音轨数据输入目标音频标记生成模型，得到目标音频标记。这样，通过本申请的技术方案，可得到适用于生成多层次音乐的音乐标记，从而提升后续音乐模型的训练效果，可提高输出的音乐质量。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及音频处理，尤其是涉及一种音频标记的生成方法及装置。

技术介绍

1、现有的音频标记生成模型训练步骤中，通常需要基于编码器和vq(vectorquantization，向量量化层)将训练数据之中的连续音频处理为离散的音频标记表示(token)，从而在之后的训练步骤之中，语言模型或音乐模型可以基于音频离散token进行建模。现有音频标记的具体训练过程可参阅图1，图1为现有音频token生成模型的训练过程原理示意图，如图1，现有的音频token生成模型中将原始音频数据输入至编码器，由编码器将处理后生成的连续向量输入至vq中，以生成离散的音频token，再将生成的离散token表示输入至解码器中得到预测音频，最后基于原始音频和预测音频间的损失函数值调整模型参数，以完成音频标记生成模型的训练。

2、然而，通过以上架构训练得到的音频token生成模型，由于在训练编码器和vq时将所有的音乐特征合并训练，导致编码器、vq在处理多层次的训练数据时容易将各层次的所有音频特征糅杂在一起或各层次的音频特征相互干扰，例如，将人声与伴奏混杂、多...

【技术保护点】

1.一种音频标记的生成方法，其特征在于，所述生成方法包括：

2.根据权利要求1所述的生成方法，其特征在于，所述目标音频特征生成模型通过以下步骤训练得到：

3.根据权利要求2所述的生成方法，其特征在于，损失计算包括：

4.根据权利要求1所述的生成方法，其特征在于，初始音频标记生成模型中包括至少两个编码器、向量量化层以及解码器，编码器、向量量化层以及解码器的数量相同，通过以下步骤确定目标音频标记生成模型：

5.根据权利要求1所述的生成方法，其特征在于，初始音频标记生成模型中包括编码器组、至少两个向量量化层及解码器，通过以下步骤确定目标音频标记生...

【技术特征摘要】

1.一种音频标记的生成方法，其特征在于，所述生成方法包括：

2.根据权利要求1所述的生成方法，其特征在于，所述目标音频特征生成模型通过以下步骤训练得到：

3.根据权利要求2所述的生成方法，其特征在于，损失计算包括：

5.根据权利要求1所述的生成方法，其特征在于，初始音频标记生成模型中包括编码器组、至少两个向量量化层及解码器，通过以下步骤确定目标音频标记生成模型：

6.根据权利...

【专利技术属性】
技术研发人员：张浩哲，杨明祺，
申请(专利权)人：上海稀宇极智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人