人声音符识别模型的训练方法、人声音符识别方法及设备技术

技术编号:37421799 阅读:83 留言:0更新日期:2023-04-30 09:44
一种人声音符识别模型的训练方法、人声音符识别方法及设备,涉及人工智能技术领域。上述方法包括:获取至少一个标注人声音频、各个标注人声音频分别对应的人声音符标注结果、至少一个纯人声音频以及至少一个伴奏音频;基于标注人声音频、伴奏音频和标注人声音频对应的人声音符标注结果,对第一网络进行训练,得到训练后的第一网络;基于训练后的第一网络、纯人声音频和伴奏音频,对第二网络进行训练,得到人声音符识别模型。得到的人声音符识别模型,无需调用人声伴奏分离算法,降低了人声音符识别的计算复杂度。符识别的计算复杂度。符识别的计算复杂度。

【技术实现步骤摘要】
【国外来华专利技术】人声音符识别模型的训练方法、人声音符识别方法及设备


[0001]本申请实施例涉及人工智能
,特别涉及一种人声音符识别模型的训练方法、人声音符识别方法及设备。

技术介绍

[0002]歌曲的人声音符识别是指根据带伴奏的歌曲,得到该歌曲的人声音符序列。
[0003]歌曲里除了包含人声之外,通常还包含各种乐器演奏组成的伴奏,有些现场歌曲里还包含有各种背景噪声或混响,这给歌曲人声音符识别带来了较大的挑战。相关技术中,通过人声伴奏分离算法将歌曲中的人声音频分离出来,再通过人声音符识别模型对人声音频进行处理,得到歌曲的人声音符序列。
[0004]然而,上述方法需要在人声伴奏分离算法的基础上进行人声音符识别,计算复杂度较高。

技术实现思路

[0005]本申请实施例提供了一种人声音符识别模型的训练方法、人声音符识别方法及设备。所述技术方案如下:
[0006]根据本申请实施例的一个方面,提供了一种人声音符识别模型的训练方法,所述方法包括:
[0007]获取至少一个标注人声音频、各个所述标注人声音频分别对应的人声本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种人声音符识别模型的训练方法,其特征在于,所述方法包括:获取至少一个标注人声音频、各个所述标注人声音频分别对应的人声音符标注结果、至少一个纯人声音频以及至少一个伴奏音频;基于所述标注人声音频、所述伴奏音频和所述标注人声音频对应的人声音符标注结果,对第一网络进行训练,得到训练后的第一网络;所述第一网络用于根据所述标注人声音频和所述伴奏音频的合成音频,输出所述标注人声音频对应的人声音符识别结果;基于所述训练后的第一网络、所述纯人声音频和所述伴奏音频,对第二网络进行训练,得到人声音符识别模型;所述第二网络用于根据所述纯人声音频和所述伴奏音频的合成音频,输出所述纯人声音频对应的人声音符识别结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述标注人声音频、所述伴奏音频和所述标注人声音频对应的人声音符标注结果,对第一网络进行训练,得到训练后的第一网络,包括:采用所述伴奏音频与所述标注人声音频进行合成,得到所述标注人声音频对应的合成音频;基于所述标注人声音频对应的合成音频以及所述标注人声音频对应的人声音符标注结果,对所述第一网络进行训练,得到所述训练后的第一网络。3.根据权利要求2所述的方法,其特征在于,所述采用所述伴奏音频与所述标注人声音频进行合成,得到所述标注人声音频对应的合成音频,包括:从所述至少一个伴奏音频中随机选择伴奏音频作为目标伴奏音频;对所述标注人声音频进行数据增强处理,得到处理后的标注人声音频;其中,所述数据增强处理包括以下至少之一:添加混响、改变基频;将所述目标伴奏音频与所述处理后的标注人声音频进行合成,得到所述标注人声音频对应的合成音频。4.根据权利要求2所述的方法,其特征在于,所述基于所述标注人声音频对应的合成音频以及所述标注人声音频对应的人声音符标注结果,对所述第一网络进行训练,得到所述训练后的第一网络,包括:通过所述第一网络对所述标注人声音频对应的合成音频进行处理,得到所述标注人声音频对应的人声音符识别结果,作为人声音符第一识别结果;根据所述人声音符第一识别结果和所述人声音符标注结果,确定所述第一网络的损失函数值;根据所述第一网络的损失函数值,对所述第一网络的参数进行调整,得到所述训练后的第一网络。5.根据权利要求1所述的方法,其特征在于,所述基于所述训练后的第一网络、所述纯人声音频和所述伴奏音频,对第二网络进行训练,得到人声音符识别模型,包括:通过所述训练后的第一网络对所述纯人声音频进行处理,得到所述纯人声音频对应的人声音符识别结果,作为人声音符第二识别结果;将所述人声音符第二识别结果确定为所述纯人声音频对应的伪标签信息;采用所述伴奏音频与所述纯人声音频进行合成,得到所述纯人声音频对应的合成音频;
通过所述第二网络对所述纯人声音频对应的合成音频进行处理,得到所述纯人声音频对应的人声音符识别结果,作为人声音符第三识别结果;根据所述人声音符第三识别结果和所述伪标签信息,对所述第二网络进行训练,得到人声音符识别模型。6.根据权利要求5所述的方法,其特征在于,所述将所述人声音符第二识别结果确定为所述纯人声音频对应的伪标签信息,包括:提取所述纯人声音频的基频;根据所述纯人声音频的基频,对所述人声音符第二识别结果进行修正,得到所述纯人声音频对应的伪标签信息。7.根据权利要求6所述的方法,其特征在于,所述根据所述纯人声音频的基频,对所述人声音符第二识别结果进行修正,得到所述纯人声音频对应的伪标签信息,包括:对于所述人声音符第二识别结果中包含的每一个音符,计算所述音符与所述音符对应的发音位置的基频之间的音高差;若所述音高差大于第一阈值,则将所述音符的音高修正为所述音符对应的发音位置的基频的音高;若所述音高差小于或等于所述第一阈值,则保持所述音符的音高不变;将音高调整后的所述人声音符第二识别结果,确定为所述纯人声音频对应的伪标签信息。8.根据权利要求5所述的方法,其特征在于,所述根据所述人声音符第三识别结果和所述伪标签信息,对所述第二网络进行训练,得到人声音符识别模型,包括:根据所述人声音符第三识别结果和所述伪标签信息,确定所述第二网络的损失函数值;根据所述第二网络的损失函数值,对所述第二网络的参数进行调整,得到所述人声音符识别模型。9.根据权利要求1所述的方法,其特征在于,所述方法还包括:在所述第二网络未满足停止训练条件的情况下,将训练后的第二网络确定为所述训练后的第一网络,并再次从所述基于所述训练后的第一网络、所述纯人声音频和所述伴奏音频,对第二网络进行训练的步骤开始执行。10.根据权利要求1所述的方法,其特征在于,所述获取至少一个标注人声音频、各个所述标注人声音频分别对应的人声音符标注结果、至少一个纯人声音频以及至少一个伴奏音频,包括:获取至少一个无伴奏的清唱音频、各个所述清唱音频分别对应的人声音符标注结果,以及至少一个带伴奏的歌曲音频;根据所述清唱音频以及所述清唱音频对应的人声音符标注结果,生成所述标注人声音频以及所述标注人声音频对应的人声音符标注结果;对所述歌曲音频进行人声分离操作,得到人声音频和所述伴奏音频;根据所述人声音频,生成所述纯人声音频。11.根据权利要求10所述的方法,其特征在于,所述根据所述清唱音频以及所述清唱音频对应的人声音符标注结果,生成所述标注人声音频以及所述标注人声音频对应的人声音
符标注结果,包括:对所述清唱音频进行检测,得到所述清唱音频中的静音部分和清音部分;将所述清唱音频确定为所述标注人声音频;从所述清唱音频对应的人声音符标注结果中,删除所述静音部分对应的人声音符标注结果和所述清音部分对应的人声音符标注结果,生...

【专利技术属性】
技术研发人员:罗程方万景轩陈传艺
申请(专利权)人:广州酷狗计算机科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1