音频识别模型的训练、音频识别方法、装置和计算机设备制造方法及图纸

技术编号:35352279 阅读:36 留言:0更新日期:2022-10-26 12:22
本申请涉及一种音频识别模型的训练、音频识别方法、装置和计算机设备。音频识别模型包括歌声识别模型和旋律识别模型,方法包括:获取训练样本数据;训练样本数据包括各样本歌曲音频和对应的歌词文本;将样本歌曲音频中的人声音频输入至歌声识别模型,得到预测音素序列,以及,将样本歌曲音频输入至旋律识别模型,得到样本歌曲音频对应的旋律向量表示;基于歌词文本确定样本歌曲音频的实际音素序列,并根据实际音素序列与预测音素序列之间的差异,对歌声识别模型进行训练,以及,根据旋律向量表示与原型向量表示之间的差异,对旋律识别模型进行训练,直至满足预设的训练结束条件得到训练好的音频识别模型。采用本方法能够提高歌曲识别准确度。识别准确度。识别准确度。

【技术实现步骤摘要】
音频识别模型的训练、音频识别方法、装置和计算机设备


[0001]本申请涉及音频处理
,特别是涉及一种音频识别模型的训练、音频识别方法、装置和计算机设备。

技术介绍

[0002]翻唱识别技术是听歌识曲技术的重要分支,随着各种短视频平台的快速发展,许多优质的音乐作品从人群中脱颖而出,而这些作品很多来自于翻唱,优质的翻唱作品广泛传播,成为大众喜爱的音乐作品中的重要部分。
[0003]传统技术中的歌曲识别技术没有充分考虑其中的歌词理解,仅仅只是对歌曲的旋律特征进行提取并分类,得到基于旋律识别的识别结果,并通过歌词搜索技术,匹配歌词库内与识别结果相似的歌词,得到基于歌词识别的歌曲识别结果。由于上述两个识别任务独立并不互相关联,这使得容易造成因识别时的预测信息丢失导致预测错误的情况,不利于提高对歌曲音频的识别准确率。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高音频识别准确率的音频识别模型的训练、音频识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音频识别模型的训练方法,其特征在于,所述音频识别模型包括歌声识别模型和旋律识别模型,所述方法包括:获取训练样本数据;所述训练样本数据包括各样本歌曲音频和所述样本歌曲音频对应的歌词文本;将所述样本歌曲音频中的人声音频输入至所述歌声识别模型,得到预测音素序列,以及,将所述样本歌曲音频输入至所述旋律识别模型,得到所述样本歌曲音频对应的旋律向量表示;基于所述歌词文本确定所述样本歌曲音频的实际音素序列,并根据所述实际音素序列与所述预测音素序列之间的差异,对所述歌声识别模型进行迭代训练,以及,根据所述旋律向量表示与原型向量表示之间的差异,对所述旋律识别模型进行迭代训练,直至两个迭代训练满足预设的训练结束条件得到训练好的音频识别模型;其中,不同所述原型向量表示用于表征不同的旋律类别;所述训练好的音频识别模型用于输出待识别歌曲音频对应的歌曲识别结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述旋律向量表示与原型向量表示之间的差异,对所述旋律识别模型进行迭代训练,包括:对各所述旋律向量表示进行聚类,得到至少一个类别的聚类后向量表示;基于同一类别的所述聚类后向量表示之间的距离关系,确定各所述类别对应的原型向量表示;其中,所述原型向量表示与所述原型向量表示对应类别的各个聚类后向量表示间的距离满足预设条件;基于所述旋律向量表示与各类别对应的所述原型向量表示间的距离,对所述旋律识别模型进行迭代训练。3.根据权利要求1所述的方法,其特征在于,所述将所述样本歌曲音频中的人声音频输入至所述歌声识别模型,得到预测音素序列,包括:将所述样本歌曲音频输入至预训练的人声分离模型,得到所述样本歌曲音频中的人声音频;提取出所述人声音频中的第一频谱特征,并将所述第一频谱特征输入至所述歌声识别模型,得到所述人声音频对应的预测音素序列。4.根据权利要求3所述的方法,其特征在于,所述歌声识别模型包括第一卷积层、第一全连接层和第一分类层,所述将所述第一频谱特征输入至所述歌声识别模型,得到所述人声音频对应的预测音素序列,包括:将所述第一频谱特征输入至所述第一卷积层,以使所述第一卷积层提取出所述第一频谱特征对应的第一频谱卷积特征;将所述第一频谱卷积特征输入至所述第一全连接层,以使所述第一全连接层将所述第一频谱卷积特征的维度类型由空间特征变换为时序特征,得到降维后的频谱卷积特征;将所述降维后的频谱卷积特征输入至所述第一分类层,以使所述第一分类层对所述降维后的频谱卷积特征进行分类处理,得到所述人声音频对应的预测音素序列。5.根据权利要求1所述的方法,其特征在于,所述旋律识别模型包括第二卷积层和第二全连接层,所述将所述样本歌曲音频输入至所述旋律识别模型,得到所述样本歌曲音频对应的旋律向量表示,包括:
提取出...

【专利技术属性】
技术研发人员:王武城赵伟峰
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1