【技术实现步骤摘要】
歌曲音频标注与对齐模型训练方法、设备及存储介质
[0001]本申请涉及音频处理
,尤其涉及一种歌曲音频标注与对其模型训练方法、设备及存储介质。
技术介绍
[0002]歌曲合成作为语音合成的一个分支,具有较为广阔的发展前景。歌曲合成采用的算法模型在训练时需要大量的标注数据。对于歌曲标注来说,需要标注歌曲的歌词信息,也需要标注歌曲中的每个发音的音素时长信息。
[0003]歌曲中的音素时长不固定,基频范围广,与说话语音的差异是歌曲标注的难题。目前,针对歌曲的标注一般采用人工标注,标注效率低,耗费大量的成本。
技术实现思路
[0004]本申请提供一种歌曲音频标注与对齐模型训练方法、设备及存储介质,对歌曲音频进行自动化标注,标注效率高,成本较低。本申请的技术方案如下:
[0005]本申请实施例提供一种歌曲音频标注方法,包括:
[0006]获取待标注歌曲数据,其中,待标注歌曲数据包括唱歌音频和与歌词文本,所述唱歌音频包含人声和与所述人声重叠的伴奏声,所述歌词文本对应所述唱歌音频中的人声所歌唱 ...
【技术保护点】
【技术特征摘要】
1.一种歌曲音频标注方法,其特征在于,包括:获取待标注歌曲数据,其中,待标注歌曲数据包括唱歌音频和与歌词文本,所述唱歌音频包含人声和与所述人声重叠的伴奏声,所述歌词文本对应所述唱歌音频中的人声所歌唱的内容,所述歌词文本包括多个已切分好的歌词片段,每个所述歌词片段包括一个开始时间戳;对所述唱歌音频中的所述人声和伴奏声进行分离,得到人声音频;根据每个所述歌词片段的开始时间戳和所述人声音频的能量信息,确定所述人声音频的切分点;根据所述切分点对所述人声音频进行切分,得到至少一个人声音频片段,其中,每个所述人声音频片段对应一个所述歌词片段;将每个所述人声音频片段和对应的歌词片段输入到预设的对齐模型中,得到与每个所述人声音频片段对应的标注结果,其中,每个所述标注结果包括所述人声音频片段中每个音素以及与每个音素对应的时间信息。2.根据权利要求1所述的方法,其特征在于,所述根据每个所述歌词片段的开始时间戳和所述人声音频的能量信息,确定所述人声音频的切分点,包括:对于每个所述歌词片段,从所述人声音频中取与所述开始时间戳对应的时间节点的前和/或后预定时长的音频数据作为取样数据;计算每个所述取样数据中各个时间节点的音频能量;对于每个所述取样数据,将音频能量最小的时间节点作为当前所述取样数据的切分点。3.根据权利要求1所述的方法,其特征在于,每个所述歌词片段包括多个音节;在所述根据所述切分点对所述人声音频进行切分得到至少一个人声音频片段之后,还包括:对于每个所述歌词片段,在每两个相邻的音节之间增加一个静音音素,得到更新的歌词片段。4.根据权利要求3所述的方法,其特征在于,在得到与每个所述人声音频片段对应的标注结果之后,还包括:对每个所述人声音频片段提取基频;根据提取的基频和预设基频阈值对所述标注结果进行调整。5.根据权利要求4所述的方法,其特征在于,所述根据提取的基频和预设基频阈值对所述标注结果进行调整,包括:根据提取的基频和预设基频阈值,判断所述更新的音频歌词片段中的每个静音音素是否是真静音音素;如果是真静音音素,则保留所述静音音素对应的时间信息;如果不是真静音音素,则修改所述静音音素对应的时间信息。6.根据权利要求5所述的方法,其特征在于,所述对每个所述人声音频片段提取基频包括:根据预设时间长度将每个所述音频片段划分为多个音频帧;对每个所述音频片段,以帧为单位提取与每个音频帧对应的基频。7.根据权利要求6所述的方法,其特征在于,所述根据提取的基频和预设基频阈值,判
断所述更新的音频歌词片段中的每个静音音素是否是真静音音素,包括:如果与一个静音音素的时间信息对应的人声音频段中连续出现N个基频大于或等于预设基频阈值的音频帧,且所述N个音频帧的总体时间长度大于预设时间阈值,则确定所述静音音素为真静音音素,其中,N的取值范围为2或3。8.根据权利要求7所述的方法,其特征在于,如果一个静音音素不是真静音音素,则根据如下步骤修改所述静音音素对应的时间信息:如果与所述静音音素的时间信息对应的人声音频段中没有连续出现N个基频大于或等于预设基频阈值的音频帧,则在所述标注结果中删除所述静音音素,并将所述静音音素的时长划分到当前静音音素的前一个音素;如果与所述静音音素的时间信息对应的人声音频段中连续出现N个基频大于或等于预设基频阈值的音频帧,且所述N个音频帧的总体时间长度不大于预设时间阈值,则在所述标注结果中删除所述静音音素,并将所述静音音素的时长划分到当前静音音素的后一个音素。9.一种对齐模型训练方法,其特征在于,包括:收集音频样本数据和所述音频样本数据对应的文本样本数据;对所述音频样本数据和所述文本样本数据进行切分,得到所述音频样本数据包含的第一音频片段样本和所述第一音频片段样本对应的第一文本片段样本;对所述第一...
【专利技术属性】
技术研发人员:孙士茹,孟猛,吴洁,
申请(专利权)人:北京小米松果电子有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。