【技术实现步骤摘要】
谐音歌词模型的训练方法、谐音歌词的生成方法及装置
[0001]本申请实施例涉及歌词处理
,尤其涉及谐音歌词模型的训练方法
、
谐音歌词的生成方法及装置
。
技术介绍
[0002]现有的,空耳歌词为一种谐音翻译技术,可用以让不懂得其他语言的人通过中文发音来近似学习其他语言的发音
。
空耳是一种音乐翻唱的形式,指的是将一首歌曲中的歌词或旋律转化为另一种语言或旋律,使其听起来像是另一首歌曲
。
在猜歌游戏中常见,例如韩语中的“我爱你”为
“”
,可谐音翻译成中文“撒拉嘿呦”。
[0003]现有的空耳歌词的生成方法为歌声
ASR
技术,通过两种语言之间的发音的相似度,将预设语言的歌词转换为另一种语言的谐音歌词
。
然而,两种语言之间的发音可能存在相似度较低的情况,在通过发音的相似度进行匹配时,一连串的发音如果找不到近似的匹配结果,将被认为是低置信度的噪声而无法转换
。
可见,现有的空耳歌词的生成方法, ...
【技术保护点】
【技术特征摘要】
1.
一种谐音歌词模型的训练方法,其特征在于,包括:获取多个歌曲样本对应的歌词文本,并提取每一所述歌曲样本的目标干声音频;对于每一所述歌曲样本,基于第一发音词典将所述歌词文本转换为第一音素状态序列,基于第二发音词典将所述歌词文本转换为第二音素状态序列;其中,音素状态序列中包括多个与所述目标干声音频的音频帧对应的音素状态,所述第一发音词典与所述第二发音词典采用不同的音素转换规则;确定所述第一音素状态序列中相邻两帧音素状态之间的第一状态转移概率,以及所述第二音素状态序列中相邻两帧音素状态之间的第二状态转移概率;确定所述目标干声音频中每帧音频分配到所述第一音素状态序列中每一音素状态的第一分配概率,以及所述目标干声音频中每帧音频分配到所述第二音素状态序列中每一音素状态的第二分配概率;基于所述第一状态转移概率以及所述第一分配概率,得到所述歌词文本对应的第一音素序列;基于所述第二状态转移概率以及所述第二分配概率,得到所述歌词文本对应的第二音素序列;基于所述第一音素序列与所述第二音素序列,确定所述歌曲样本对应于所述第一发音词典与所述第二发音词典之间的初始音素映射关系;将多个所述歌曲样本对应的初始音素映射关系进行互相校验,得到目标音素映射关系,将所述目标音素映射关系作为谐音歌词模型
。2.
根据权利要求1所述的训练方法,其特征在于,所述基于第一发音词典将所述歌词文本转换为第一音素状态序列包括:基于所述第一发音词典将所述歌词文本转换为音素序列;基于所述音素序列中每一音素对应的音素状态,将所述音素序列转换为所述第一音素状态序列
。3.
根据权利要求1所述的训练方法,其特征在于,所述确定所述第一音素状态序列中相邻两帧音素状态之间的第一状态转移概率包括:将所述第一音素状态序列输入预先设置的语言模型,在所述语言模型中将相邻预设帧的多个音素状态作为多元音素状态组,确定所述第一音素状态序列中的音素状态总数以及所述多元音素状态组在所述第一音素状态序列中的出现次数;将所述出现次数除以所述音素状态总数,得到所述多元音素状态组在所述第一音素状态序列中的出现概率;将所述出现概率作为所述多元音素状态组中相邻两帧音素状态之间的第一状态转移概率
。4.
根据权利要求1所述的训练方法,其特征在于,所述确定所述目标干声音频中每帧音频分配到所述第一音素状态序列中每一音素状态的第一分配概率包括:获取所述第一发音词典对应的第一歌曲,所述第一歌曲对应的第一歌词文本以及所述第一歌曲的第一干声音频;基于所述第一干声音频的音频特征以及所述第一歌词文本对应的音素状态序列,训练声学模型;...
【专利技术属性】
技术研发人员:王武城,赵伟峰,孔令,彭卉,陈孜岚,刘淑怡,刘彦彬,刘成,朱舟阳,李蕾,
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。