一种歌词时间戳的生成方法,生成装置以及存储介质制造方法及图纸

技术编号:37541904 阅读:14 留言:0更新日期:2023-05-12 16:10
本申请实施例公开了一种歌词时间戳的生成方法,生成装置以及存储介质,用于数据处理领域,包括:确定音素状态序列中相邻两帧音素状态之间的状态转移概率;根据第二分配概率以及状态转移概率,确定音素状态转移的最大概率以及最大概率对应的状态转移路径;根据状态转移路径中每帧音素状态对应的第一分配概率以及对应的状态转移概率,确定当前歌词文本对应的每帧音频中音素状态的目标概率;根据状态转移路径以及目标概率确定当前歌词文本中字时间戳的置信度,并根据字时间戳的置信度生成当前歌词文本的歌词时间戳;能够有效避免当前歌词文本中字时间戳的偏移,使生成的当前歌词文本的歌词时间戳更准确。本的歌词时间戳更准确。本的歌词时间戳更准确。

【技术实现步骤摘要】
一种歌词时间戳的生成方法,生成装置以及存储介质


[0001]本申请实施例涉及数据处理领域,尤其涉及一种歌词时间戳的生成方法,生成装置以及存储介质。

技术介绍

[0002]歌词时间戳,一般指歌词在歌曲音频中出现的时间,时间戳由起始时间和结束时间构成。发布者将创作的歌曲发布到音乐平台时,需要制作QRC文件,该QRC文件为歌曲的逐字歌词,包含每个字时间戳信息的歌词文件。因人工制作QRC文件时容易出现误差并需要较多的人工成本,现有的生成歌词时间戳技术一般采用DNN

HMM/GMM

HMM结构的自动对齐模型,其中DNN/GMM为声学模型,HMM为语言模型。
[0003]该自动对齐模型的工作过程为:声学模型识别歌曲音频特征在语言模型中的状态,语言模型计算状态之间的转移概率,得到最终的解码结果。将整首歌曲和歌词文本进行对齐,整首歌曲的特征在歌词文本空间内解码,解码结果为全局最优,全局最优指的是在进行对齐时,一般基于歌曲的起始时间段与结束时间段与歌词文本进行对齐,难以确定在两个时间段之间的局部是否对齐以及局部未对齐的具体位置;容易导致出现局部间的相互影响,导致局部效果变差,若情况严重,可能会出现整段时间戳出现偏移的情况。
[0004]可见,现有的生成歌词时间戳技术通过全局解码方式获得整首歌的最优解码结果,容易导致局部歌词为了全局最优而出现偏移的情况,如果情况严重,可能导致大段歌词偏移。如果不对偏移进行处理,将导致生成的歌词时间戳质量参差不齐。

技术实现思路

[0005]本申请实施例提供了一种歌词时间戳的生成方法,生成装置以及存储介质,能够有效避免当前歌词文本中字时间戳的偏移,生成更准确的歌词时间戳。
[0006]本申请实施例提供了一种歌词时间戳的生成方法,包括:
[0007]获取目标歌曲对应的歌词文本以及所述目标歌曲的目标干声音频;
[0008]根据所述歌词文本中每个字对应的音素,确定所述歌词文本对应的音素状态序列;所述音素状态序列中包括多个与所述目标干声音频的音频帧对应的音素状态;
[0009]确定所述音素状态序列中相邻两帧音素状态之间的状态转移概率;
[0010]将所述目标干声音频以及所述音素状态序列输入预先训练的声学模型,得到所述歌词文本对应的每帧音频分配到所述音素状态序列中的每一音素状态的第一分配概率,以及当前歌词文本对应的每帧音频分配到所述当前歌词文本对应的每一音素状态的第二分配概率;所述当前歌词文本为所述歌词文本中的一段文本;
[0011]根据所述第二分配概率以及所述状态转移概率,确定所述当前歌词文本对应的多帧音频中音素状态转移的最大概率以及所述最大概率对应的状态转移路径;
[0012]根据所述状态转移路径中每帧音素状态对应的第一分配概率以及对应的状态转移概率,确定所述当前歌词文本对应的每帧音素状态的目标概率;
[0013]根据所述状态转移路径以及所述目标概率确定所述当前歌词文本中字时间戳的置信度,并根据所述字时间戳的置信度生成所述当前歌词文本的歌词时间戳。
[0014]进一步的,所述获取所述目标歌曲对应的歌词文本,包括:
[0015]获取所述目标歌曲对应的初始歌词文本;
[0016]对所述初始歌词文本进行非歌词信息滤除处理,得到所述歌词文本。
[0017]进一步的,所述根据所述歌词文本中每个字对应的音素,确定所述歌词文本对应的音素状态序列包括:
[0018]获取所述目标干声音频中音频帧对应的音素,得到所述目标干声音频对应的音素序列;
[0019]将所述歌词文本中每个字对应的音素与所述音素序列输入预先设置的语言模型进行匹配,得到所述歌词文本中每个字在所述音素序列中对应的音素;
[0020]将所述歌词文本中每个字在所述音素序列中对应的音素转换为音素状态,得到所述歌词文本对应的音素状态序列。
[0021]进一步的,所述确定所述音素状态序列中相邻两帧音素状态之间的状态转移概率包括:
[0022]将相邻预设帧的多个音素状态作为多元音素状态组,确定所述音素状态序列中的音素状态总数以及所述多元音素状态组在所述音素状态序列中的出现次数;
[0023]将所述出现次数除以所述音素状态总数,得到所述多元音素状态组在所述音素状态序列中的出现概率;
[0024]将所述出现概率作为所述多元音素状态组中相邻两帧音素状态之间的状态转移概率。
[0025]进一步的,所述将所述目标干声音频以及所述音素状态序列输入预先训练的声学模型,得到所述第一分配概率以及所述第二分配概率包括:
[0026]提取所述目标干声音频的音频特征,将所述目标干声音频的音频特征以及所述音素状态序列中的音素状态输入所述预先训练的声学模型,得到所述第一分配概率;
[0027]提取所述当前歌词文本对应的干声音频的音频特征,将所述干声音频的音频特征以及所述当前歌词文本对应的音素状态输入所述预先训练的声学模型,得到所述第二分配概率。
[0028]进一步的,所述根据所述第二分配概率以及所述状态转移概率,确定所述当前歌词文本对应的多帧音频中音素状态转移的最大概率以及所述最大概率对应的状态转移路径包括:
[0029]在所述当前歌词文本对应的多帧音频中,计算当前帧的音素状态的第二分配概率与当前帧的音素状态转移到下一帧的音素状态的状态转移概率的乘积之和;
[0030]将所述乘积之和中的最大值作为所述音素状态转移的最大概率;
[0031]在所述最大概率中确定所述当前歌词文本对应的每一帧音频的目标音素状态,将多帧音频对应的多个目标音素状态作为所述最大概率对应的状态转移路径。
[0032]进一步的,所述根据所述状态转移路径中每帧音素状态对应的第一分配概率以及对应的状态转移概率,确定所述当前歌词文本对应的每帧音素状态的目标概率包括:
[0033]计算所述状态转移路径中每帧音素状态对应的第一分配概率与对应的状态转移
概率的乘积,得到所述当前歌词文本对应的每帧音素状态的目标概率。
[0034]进一步的,所述根据所述状态转移路径以及所述目标概率确定所述当前歌词文本中字时间戳的置信度包括:
[0035]将所述当前歌词文本中每帧音素状态的目标概率与所述状态转移路径中对应的音素状态的概率相除得到商,将商取对数并取负数,得到所述当前歌词文本中每一音频帧的发音质量分数;
[0036]对所述当前歌词文本中字对应的音频帧的发音质量分数取平均值,得到字的发音质量分数;
[0037]若目标字的发音质量分数大于预设阈值,则确定所述目标字的时间戳为高置信度的字时间戳;
[0038]若目标字的发音质量分数小于预设阈值,则确定所述目标字的时间戳为低置信度的字时间戳。
[0039]进一步的,所述根据所述字时间戳的置信度生成所述当前歌词文本的歌词时间戳包括:
[0040]确定所述低置信度的子时间戳的起始时间以及结束时间;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种歌词时间戳的生成方法,其特征在于,包括:获取目标歌曲对应的歌词文本以及所述目标歌曲的目标干声音频;根据所述歌词文本中每个字对应的音素,确定所述歌词文本对应的音素状态序列;所述音素状态序列中包括多个与所述目标干声音频的音频帧对应的音素状态;确定所述音素状态序列中相邻两帧音素状态之间的状态转移概率;将所述目标干声音频以及所述音素状态序列输入预先训练的声学模型,得到所述歌词文本对应的每帧音频分配到所述音素状态序列中的每一音素状态的第一分配概率,以及当前歌词文本对应的每帧音频分配到所述当前歌词文本对应的每一音素状态的第二分配概率;所述当前歌词文本为所述歌词文本中的一段文本;根据所述第二分配概率以及所述状态转移概率,确定所述当前歌词文本对应的多帧音频中音素状态转移的最大概率以及所述最大概率对应的状态转移路径;根据所述状态转移路径中每帧音素状态对应的第一分配概率以及对应的状态转移概率,确定所述当前歌词文本对应的每帧音素状态的目标概率;根据所述状态转移路径以及所述目标概率确定所述当前歌词文本中字时间戳的置信度,并根据所述字时间戳的置信度生成所述当前歌词文本的歌词时间戳。2.根据权利要求1所述的生成方法,其特征在于,所述获取所述目标歌曲对应的歌词文本,包括:获取所述目标歌曲对应的初始歌词文本;对所述初始歌词文本进行非歌词信息滤除处理,得到所述歌词文本。3.根据权利要求1所述的生成方法,其特征在于,所述根据所述歌词文本中每个字对应的音素,确定所述歌词文本对应的音素状态序列包括:获取所述目标干声音频中音频帧对应的音素,得到所述目标干声音频对应的音素序列;将所述歌词文本中每个字对应的音素与所述音素序列输入预先设置的语言模型进行匹配,得到所述歌词文本中每个字在所述音素序列中对应的音素;将所述歌词文本中每个字在所述音素序列中对应的音素转换为音素状态,得到所述歌词文本对应的音素状态序列。4.根据权利要求1所述的生成方法,其特征在于,所述确定所述音素状态序列中相邻两帧音素状态之间的状态转移概率包括:将相邻预设帧的多个音素状态作为多元音素状态组,确定所述音素状态序列中的音素状态总数以及所述多元音素状态组在所述音素状态序列中的出现次数;将所述出现次数除以所述音素状态总数,得到所述多元音素状态组在所述音素状态序列中的出现概率;将所述出现概率作为所述多元音素状态组中相邻两帧音素状态之间的状态转移概率。5.根据权利要求1所述的生成方法,其特征在于,所述将所述目标干声音频以及所述音素状态序列输入预先训练的声学模型,得到所述第一分配概率以及所述第二分配概率包括:提取所述目标干声音频的音频特征,将所述目标干声音频的音频特征以及所述音素状态序列中的音素状态输入所述预先训练的声学模型,得到所述第一分配概率;
提取所述当前歌词文本对应的干声音频的音频特征,将所述干声音频的音频特征以及...

【专利技术属性】
技术研发人员:王武城
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1