智能转谱模型训练方法、转谱方法、设备及介质技术

技术编号：40417872 阅读：7 留言：0更新日期：2024-02-20 22:35

本申请公开了一种智能转谱模型训练方法、转谱方法、设备及介质，涉及智能转谱技术领域，包括：将样本音频中的第一干声音频的第一频谱特征输入至目标语音识别模型，得到第一干声音频的第一语义特征；将第一频谱特征和第一语义特征调整至相同的特征维度；将第一频谱特征和第一语义特征输入至待训练智能转谱模型，得到若干个概率矩阵，并基于若干个概率矩阵计算训练损失；当训练损失不满足损失条件时，返回至将第一频谱特征和第一语义特征输入至待训练智能转谱模型的步骤，得到训练损失满损失条件的目标智能转谱模型。本申请通过融合音频的语义信息和频谱信息，使得目标智能转谱模型能够更好地识别音符的边界点，从而提升了智能转谱的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智能转谱，特别涉及一种智能转谱模型训练方法、转谱方法、设备及介质。

技术介绍

1、智能转谱技术是指通过分离出歌曲中的人声，并识别人声中的音高和音符的边界。智能转谱技术有着广泛的应用，尤其在aigc(artificial intelligence generatedcontent，人工智能生成内容)盛行的当下，智能转谱技术可以为歌声合成提供曲谱，减少人工转谱的成本。除此以外，智能转谱技术还能为k歌类游戏提供音高打分的依据。

2、现有的智能转谱算法直接通过频谱特征预测音高和音符边界信息，这种方式对于音符边界点的识别存在较大的优化空间。

3、为此，亟待一种智能转谱方法，以提高智能转谱过程中音符边界点识别的准确性。

技术实现思路

1、有鉴于此，本专利技术的目的在于提供一种智能转谱模型训练方法、转谱方法、设备及介质，能够提高智能转谱的准确性，其具体方案如下：

2、第一方面，本申请公开了一种智能转谱模型训练方法，包括：

3、从样本音频中提取第一干声音频，并从所述第一干声音频中提取第一频谱特征，将所述第一频谱特征输入至预先训练完的目标语音识别模型，以通过所述目标语音识别模型输出所述第一干声音频的第一语义特征；

4、若所述第一频谱特征的第一特征维度与所述第一语义特征的第二特征维度不一致，则将所述第一特征维度和所述第二特征维度调整至相同的第一目标特征维度；

5、将所述第一频谱特征和所述第一语义特征输入至待训练智能转

6、当所述训练损失不满足预设损失条件时，返回至所述将所述第一频谱特征和所述第一语义特征输入至待训练智能转谱模型的步骤，直至得到所述训练损失满足所述预设损失条件的目标智能转谱模型。

7、可选的，所述将所述第一频谱特征和所述第一语义特征输入至待训练智能转谱模型，以通过所述待训练智能转谱模型输出与若干个目标维度对应的若干个概率矩阵，包括：

8、将所述第一频谱特征和所述第一语义特征输入至所述待训练智能转谱模型，以通过所述待训练智能转谱模型中的卷积循环神经网络分别输出与所述第一频谱特征对应的第一输出特征以及与所述第一语义特征对应的第二输出特征；

9、对所述第一输出特征和所述第二输出特征进行拼接得到拼接后特征，并将所述拼接后特征输入至所述待训练智能转谱模型中的全连接层，以通过所述全连接层输出与若干个目标维度对应的若干个概率矩阵。

10、可选的，所述将所述第一频谱特征和所述第一语义特征输入至待训练智能转谱模型，以通过所述待训练智能转谱模型输出与若干个目标维度对应的若干个概率矩阵，包括：

11、将所述第一频谱特征和所述第一语义特征输入至待训练智能转谱模型，以通过所述待训练智能转谱模型输出与四个维度对应的四个概率矩阵；

12、其中，所述四个概率矩阵分别包括若干帧所述第一干声音频在所述四个维度上的分类结果，第一个维度上的分类结果为每一帧所述第一干声音频是否为音符起始点或音符结束点的二分类结果，第二个维度上的分类结果为每一帧所述第一干声音频是否包含人声的二分类结果，第三个维度上的分类结果为人声八度的五分类结果，第四个维度上的分类结果为人声音高的十二分类结果。

13、可选的，所述将所述第一频谱特征和所述第一语义特征输入至待训练智能转谱模型，以通过所述待训练智能转谱模型输出与若干个目标维度对应的若干个概率矩阵，包括：

14、将所述第一频谱特征和所述第一语义特征输入至待训练智能转谱模型，以通过所述待训练智能转谱模型输出与三个维度对应的三个概率矩阵；

15、其中，所述三个概率矩阵分别包括若干帧所述第一干声音频在所述三个维度上的分类结果，第一个维度上的分类结果为每一帧所述第一干声音频是否为音符起始点或音符结束点的二分类结果，第二个维度上的分类结果为人声八度的六分类结果，第三个维度上的分类结果为人声音高的十三分类结果；所述六分类结果中的其中一个分类结果以及所述十三分类结果中的其中一个分类结果为每一帧所述第一干声音频中是否包含人声的分类结果。

16、可选的，所述第一频谱特征包括梅尔频谱特征或cqt频谱特征。

17、第二方面，本申请公开一种转谱方法，基于前述所述的智能转谱模型训练方法训练得到的目标智能转谱模型，包括：

18、从待转谱音频中提取第二干声音频，并从所述第二干声音频中提取第二频谱特征，将所述第二频谱特征输入至预先训练完的目标语音识别模型，以通过所述目标语音识别模型输出所述第二干声音频的第二语义特征；

19、若所述第二频谱特征的第三特征维度与所述第二语义特征的第四特征维度不一致，则将所述第三特征维度和所述第四特征维度调整至相同的第二目标特征维度；

20、将所述第二频谱特征和所述第二语义特征输入至所述目标智能转谱模型，以通过所述目标智能转谱模型输出的与若干个目标维度对应的若干个概率矩阵完成对所述待转谱音频的智能转谱。

21、可选的，所述将所述第二频谱特征和所述第二语义特征输入至所述目标智能转谱模型，以通过所述目标智能转谱模型输出的与若干个目标维度对应的若干个概率矩阵完成对所述待转谱音频的智能转谱，包括：

22、将所述第二频谱特征和所述第二语义特征输入至所述目标智能转谱模型，以通过所述目标智能转谱模型输出的与第一个维度对应的第一个概率矩阵确定每一帧所述第二干声音频为音符起始点或音符结束点的概率；

23、将符合第一目标判别规则的第一目标帧所述第二干声音频确定为所述音符起始点或所述音符结束点；

24、其中，所述第一目标判别规则包括：所述第一目标帧的前若干帧所述第二干声音频以及所述第一目标帧的后若干帧所述第二干声音频为所述音符起始点或所述音符结束点的概率小于所述第一目标帧为所述音符起始点或所述音符结束点的概率，并且所述第一目标帧为所述音符起始点或所述音符结束点的概率大于第一预设概率。

25、可选的，所述将所述第二频谱特征和所述第二语义特征输入至所述目标智能转谱模型，以通过所述目标智能转谱模型输出的与若干个目标维度对应的若干个概率矩阵完成对所述待转谱音频的智能转谱，包括：

26、将所述第二频谱特征和所述第二语义特征输入至所述目标智能转谱模型，以通过所述目标智能转谱模型输出的与第二个维度对应的第二个概率矩阵确定所述音符起始点与所述音符结束点之间的每一帧所述第二干声音频中包含人声的概率；

27、将符合第二目标判别规则的第二目标帧所述第二干声音频确定为包含人声的所述第二干声音频；其中，所述第二目标判别规则包括：所述第二目标帧所述第二干声音频中包含人声的概率大于第二预设概率。

28、第三方面，本申请公开了一种智能转谱模型训练装置，包括：

29、样本音频特征提取模块，本文档来自技高网...

【技术保护点】

1.一种智能转谱模型训练方法，其特征在于，包括：

2.根据权利要求1所述的智能转谱模型训练方法，其特征在于，所述将所述第一频谱特征和所述第一语义特征输入至待训练智能转谱模型，以通过所述待训练智能转谱模型输出与若干个目标维度对应的若干个概率矩阵，包括：

3.根据权利要求1所述的智能转谱模型训练方法，其特征在于，所述将所述第一频谱特征和所述第一语义特征输入至待训练智能转谱模型，以通过所述待训练智能转谱模型输出与若干个目标维度对应的若干个概率矩阵，包括：

4.根据权利要求1所述的智能转谱模型训练方法，其特征在于，所述将所述第一频谱特征和所述第一语义特征输入至待训练智能转谱模型，以通过所述待训练智能转谱模型输出与若干个目标维度对应的若干个概率矩阵，包括：

5.根据权利要求1至4任一项所述的智能转谱模型训练方法，其特征在于，所述第一频谱特征包括梅尔频谱特征或CQT频谱特征。

6.一种转谱方法，其特征在于，基于如权利要求1至5任一项所述的智能转谱模型训练方法训练得到的目标智能转谱模型，包括：

7.根据权利要求6所述的转谱

8.根据权利要求7所述的转谱方法，其特征在于，所述将所述第二频谱特征和所述第二语义特征输入至所述目标智能转谱模型，以通过所述目标智能转谱模型输出的与若干个目标维度对应的若干个概率矩阵完成对所述待转谱音频的智能转谱，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。

...

【技术特征摘要】

1.一种智能转谱模型训练方法，其特征在于，包括：

5.根据权利要求1至4任一项所述的智能转谱模型训练方法，其特征在于，所述第一频谱特征包括梅尔频谱特征或cq...

【专利技术属性】
技术研发人员：王武城，赵伟峰，孔令城，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人