【技术实现步骤摘要】
粤语语音合成方法、设备以及计算机可读存储介质
[0001]本申请实施例涉及粤语语音合成领域,更具体的,是粤语语音合成方法
、
粤语语音合成设备以及计算机可读存储介质
。
技术介绍
[0002]随着语音合成技术的发展,粤语语音合成方法越来越受大家的关注,比如合成粤语的
AI
有声书的方法
。
[0003]现有的粤语语音合成方法是,先获得待处理文本,然后对待处理文本输入预先训练的粤语语音合成模型,由粤语语音合成模型对待处理文本进行粤语音素特征的提取,并根据提取的粤语音素特征进行粤语语音合成后,得到粤语语音合成模型输出的粤语语音
。
[0004]但是,粤语音素特征虽然可以表征较为基础的粤语特征,但是粤语涉及特征的维度较多,现有的粤语语音合成方法,仅仅只是提取粤语音素特征,并根据粤语音素特征合成的粤语语音,提取的粤语特征不够全面,合成的粤语语音的自然度和表现力较低,合成的粤语语音效果较差
。
技术实现思路
[0005]本申请实施例提供了一种粤语语音合成方法
、
粤语语音合成设备以及计算机可读存储介质,能够在提高粤语语音效果的情况下,进行粤语语音合成
。
[0006]第一方面,本申请实施例提供了一种粤语语音合成方法,包括:
[0007]获得普通话文本;
[0008]将所述普通话文本输入预先训练的国粤文字翻译模型,由所述国粤文字翻译模型对所述普通话文本进行粤语的文字翻译后,得到所述国粤文 ...
【技术保护点】
【技术特征摘要】
1.
一种粤语语音合成方法,其特征在于,包括:获得普通话文本;将所述普通话文本输入预先训练的国粤文字翻译模型,由所述国粤文字翻译模型对所述普通话文本进行粤语的文字翻译后,得到所述国粤文字翻译模型输出的粤语文本;将所述粤语文本输入预先训练的粤语语音合成模型,由所述粤语语音合成模型对所述粤语文本进行粤语字词表达维度和
/
或粤语音调表达维度的特征的提取,并根据提取的特征进行粤语语音合成后,得到所述粤语语音合成模型输出的目标粤语语音
。2.
根据权利要求1所述的方法,其特征在于,所述粤语语音合成模型包括粤语文字特征提取模型
、
粤语频谱特征转化模型和粤语语音合成模型;所述由所述粤语语音合成模型对所述粤语文本进行粤语字词表达维度和
/
或粤语音调表达维度的特征的提取,并根据提取的特征进行粤语语音合成后,得到所述粤语语音合成模型输出的目标粤语语音,包括:由所述粤语文字特征提取模型对所述目标文本进行粤语字词表达维度和
/
或粤语音调表达维度的特征的提取,以得到粤语文本特征序列;由所述粤语频谱特征转化模型对所述粤语文本特征序列进行转化,以得到粤语频谱特征序列;由所述粤语语音合成模型对所述粤语频谱特征序列进行粤语语音合成,以得到所述目标粤语语音
。3.
根据权利要求2所述的方法,其特征在于,所述由所述粤语文字特征提取模型对所述目标文本进行粤语字词表达维度和
/
或粤语音调表达维度的特征的提取,以得到粤语文本特征序列,包括:确定目标粤语口音
ID
及所述目标粤语口音
ID
对应的目标粤语发音词典;由所述粤语文字特征提取模型基于所述目标粤语发音词典对所述粤语文本进行音素提取,得到粤语音素序列;所述粤语音素序列为所述粤语文本特征序列
。4.
根据权利要求2所述的方法,其特征在于,所述由所述粤语文字特征提取模型对所述目标文本进行粤语字词表达维度和
/
或粤语音调表达维度的特征的提取,以得到粤语文本特征序列之前,所述方法还包括:获得粤语文本样本;所述粤语文本样本标注有粤语音素序列和
/
或粤语分词序列和
/
或粤语韵律序列和
/
或粤语旁白对话标签序列和
/
或粤语重音序列和
/
或粤语语速序列;其中,所述粤语音素序列
、
所述粤语分词序列
、
所述粤语韵律序列和所述粤语旁白对话标签序列为粤语字词表达维度的特征,所述粤语重音序列和所述粤语语速序列为粤语音调表达维度的特征;将所述粤语文本样本输入粤语文字特征提取模型,得到所述粤语文字特征提取模型输出的预测粤语音素序列和
/
或预测粤语分词和粤语韵律序列和
/
或预测粤语旁白对话标签序列和
/
或预测粤语重音序列和
/
或预测粤语语速序列;根据回归损失函数分别计算所述预测粤语音素序列与标注的粤语音素序列之间的第一损失,和
/
或预测粤语分词及粤语韵律序列与标注的粤语分词及粤语韵律序列之间的第二损失,和
/
或预测粤语旁白对话标签序列与标注的粤语旁白对话标签序列之间的第三损失,和
/
或预测粤语重音序列与标注的粤语重音序列之间的第四损失,和
/
或预测粤语语速
序列与标注的粤语语速序列之...
【专利技术属性】
技术研发人员:徐东,杜嘉晨,
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。