【技术实现步骤摘要】
本申请涉及音频处理,尤其是涉及一种音频标记的生成方法及装置。
技术介绍
1、现有的音频标记生成模型训练步骤中,通常需要基于编码器和vq(vectorquantization,向量量化层)将训练数据之中的连续音频处理为离散的音频标记表示(token),从而在之后的训练步骤之中,语言模型或音乐模型可以基于音频离散token进行建模。现有音频标记的具体训练过程可参阅图1,图1为现有音频token生成模型的训练过程原理示意图,如图1,现有的音频token生成模型中将原始音频数据输入至编码器,由编码器将处理后生成的连续向量输入至vq中,以生成离散的音频token,再将生成的离散token表示输入至解码器中得到预测音频,最后基于原始音频和预测音频间的损失函数值调整模型参数,以完成音频标记生成模型的训练。
2、然而,通过以上架构训练得到的音频token生成模型,由于在训练编码器和vq时将所有的音乐特征合并训练,导致编码器、vq在处理多层次的训练数据时容易将各层次的所有音频特征糅杂在一起或各层次的音频特征相互干扰,例如,将人声与伴奏混杂、多
...【技术保护点】
1.一种音频标记的生成方法,其特征在于,所述生成方法包括:
2.根据权利要求1所述的生成方法,其特征在于,所述目标音频特征生成模型通过以下步骤训练得到:
3.根据权利要求2所述的生成方法,其特征在于,损失计算包括:
4.根据权利要求1所述的生成方法,其特征在于,初始音频标记生成模型中包括至少两个编码器、向量量化层以及解码器,编码器、向量量化层以及解码器的数量相同,通过以下步骤确定目标音频标记生成模型:
5.根据权利要求1所述的生成方法,其特征在于,初始音频标记生成模型中包括编码器组、至少两个向量量化层及解码器,通过以下步
...【技术特征摘要】
1.一种音频标记的生成方法,其特征在于,所述生成方法包括:
2.根据权利要求1所述的生成方法,其特征在于,所述目标音频特征生成模型通过以下步骤训练得到:
3.根据权利要求2所述的生成方法,其特征在于,损失计算包括:
4.根据权利要求1所述的生成方法,其特征在于,初始音频标记生成模型中包括至少两个编码器、向量量化层以及解码器,编码器、向量量化层以及解码器的数量相同,通过以下步骤确定目标音频标记生成模型:
5.根据权利要求1所述的生成方法,其特征在于,初始音频标记生成模型中包括编码器组、至少两个向量量化层及解码器,通过以下步骤确定目标音频标记生成模型:
6.根据权利...
【专利技术属性】
技术研发人员:张浩哲,杨明祺,
申请(专利权)人:上海稀宇极智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。