说唱音频生成方法、装置、设备和可读存储介质制造方法及图纸

技术编号：37378935 阅读：17 留言：0更新日期：2023-04-27 07:21

本申请公开了一种说唱音频生成方法、装置、设备和可读存储介质，方法包括：获取用户录制音频以及说唱模板；对说唱模板进行参数校验，并利用ASR模型提取说唱模板的语义PPG特征；利用GE2E模型提取用户录制音频的声纹特征，GE2E模型通过GE2E损失函数进行声纹识别任务训练得到；结合PPG语义特征和GE2E模型提取的声纹特征，转换为用户音色的梅尔普特征；利用HIFIGAN模型将用户音色的梅尔普特征转换为波形，生成说唱音频。本申请利用ASR模型提取说唱模板的语义PPG特征，并使用GE2E模型提取用户录制音频的声纹特征，使用声纹特征按照说唱模板进行替换，即可生成带有用户音色的说唱音频，优化说唱音频合成效果，提升说唱音频表现力和自然度，并且不会出现机械音情况。并且不会出现机械音情况。并且不会出现机械音情况。

全部详细技术资料下载

【技术实现步骤摘要】
说唱音频生成方法、装置、设备和可读存储介质

[0001]本申请涉及音频分析领域，更具体地说，涉及说唱音频生成方法、装置、设备和可读存储介质。

技术介绍

[0002]随着说唱类节目的播出，说唱文化在年轻人中流行，因此在泛娱乐社交平台的离线功能场景中，存在满足用户需求生成属于自己的个性化说唱歌曲得到需求。按产品逻辑设定，用户根据歌词进行朗读，结束朗读后点击生成带有用户音色的说唱歌曲，生成的说唱歌曲带有良好的节奏，发音和情感。其中对于生成说唱歌曲就用到说唱音频转换生成算法。
[0003]目前常用的声音转换生成算法在训练阶段分别在说话人和目标人音频语料提取声学特征，之后使用如动态时间规划(DTW)的帧之间对齐算法对声学特征进行对齐，利用高斯混合模型(GMM)或者人工神经网络ANN等模型学习输入声学特征到目标声学特征的映射关系。也就是说，目前常用的声音转换生成算法需要平行的说话人到目标人的音频语料。
[0004]但是现有技术训练模型实现平行的说话人与目标人语料的数据价格高昂，难以收集，并且合成效果容易出现不自然，存在机械音的情况，在长时音频合成中会出现发音不清晰等情况，这样的合成效果会大幅降低玩法的推广和用户体验。
[0005]基于上述实际情况，本申请提出了一种说唱音频生成方案，以解决上述弊端。

技术实现思路

[0006]有鉴于此，本申请提供了一种说唱音频生成方法、装置、设备和可读存储介质，通过提取语义PPG特征和声纹特征转换为用户音色的梅尔普特征，最终转换为带有用户音色的说唱音频，优化...

【技术保护点】

【技术特征摘要】
1.一种说唱音频生成方法，其特征在于，包括：获取用户录制音频以及说唱模板；对所述说唱模板进行参数校验，并利用ASR模型提取所述说唱模板的语义PPG特征；利用GE2E模型提取所述用户录制音频的声纹特征，所述GE2E模型通过GE2E损失函数进行声纹识别任务训练得到；结合所述PPG语义特征和所述GE2E模型提取的声纹特征，转换为用户音色的梅尔普特征；利用HIFIGAN模型将所述用户音色的梅尔普特征转换为波形，生成说唱音频。2.根据权利要求1所述的方法，其特征在于，对所述说唱模板进行参数校验，包括：对所述说唱模板的采样率、通道数以及量化位宽进行参数校验。3.根据权利要求1所述的方法，其特征在于，结合所述PPG语义特征和所述GE2E模型提取的声纹特征，转换为用户音色的梅尔普特征，包括：提取所述用户录制音频的基频特征；基于所述PPG语义特征和所述基频特征，得到初始扩展特征；按时间维度对所述GE2E模型提取的声纹特征以及所述初始扩展特征进行拼接，生成目标拓展特征；对所述目标拓展特征进行分块相对位置注意力解码，得到所述用户音色的梅尔普特征。4.根据权利要求3所述的方法，其特征在于，基于所述PPG语义特征和所述基频特征，得到初始扩展特征，包括：利用PPG处理网络对所述PPG语义特征进行卷积特征提取，得到第一特征；利用基频处理网络对所述基频特征进行卷积特征提取，得到第二特征；将所述第一特征和所述第二特征进行相加，得到初始扩展特征。5.根据权利要求1所述的方法，其特征在于，所述HIFIGAN模型包括HIFIGAN声码器和卷积残差结构；所述HIFIGAN声码器包括多尺度判别器和多周期判别器，用于基于所述用户音色的梅尔普特征生成说唱音频；所述卷积残差结构，通过交替使用带洞卷积和普通卷积增大感受野，用于保证所述说唱音频的合成音质，提高推理速度。6.根据权利要求3所述的方法，其特征在于，对所述目标拓展特征进行分块相对位置注意力解码，得到所述...

【专利技术属性】
技术研发人员：黄祥康，马金龙，盘子圣，焦南凯，熊佳，徐志坚，谢睿，陈光尧，
申请(专利权)人：广州趣丸网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人