粤语语音合成方法技术

技术编号:39828274 阅读:4 留言:0更新日期:2023-12-29 16:05
本申请实施例公开了一种粤语语音合成方法

【技术实现步骤摘要】
粤语语音合成方法、设备以及计算机可读存储介质


[0001]本申请实施例涉及粤语语音合成领域,更具体的,是粤语语音合成方法

粤语语音合成设备以及计算机可读存储介质


技术介绍

[0002]随着语音合成技术的发展,粤语语音合成方法越来越受大家的关注,比如合成粤语的
AI
有声书的方法

[0003]现有的粤语语音合成方法是,先获得待处理文本,然后对待处理文本输入预先训练的粤语语音合成模型,由粤语语音合成模型对待处理文本进行粤语音素特征的提取,并根据提取的粤语音素特征进行粤语语音合成后,得到粤语语音合成模型输出的粤语语音

[0004]但是,粤语音素特征虽然可以表征较为基础的粤语特征,但是粤语涉及特征的维度较多,现有的粤语语音合成方法,仅仅只是提取粤语音素特征,并根据粤语音素特征合成的粤语语音,提取的粤语特征不够全面,合成的粤语语音的自然度和表现力较低,合成的粤语语音效果较差


技术实现思路

[0005]本申请实施例提供了一种粤语语音合成方法

粤语语音合成设备以及计算机可读存储介质,能够在提高粤语语音效果的情况下,进行粤语语音合成

[0006]第一方面,本申请实施例提供了一种粤语语音合成方法,包括:
[0007]获得普通话文本;
[0008]将所述普通话文本输入预先训练的国粤文字翻译模型,由所述国粤文字翻译模型对所述普通话文本进行粤语的文字翻译后,得到所述国粤文字翻译模型输出的粤语文本;
[0009]将所述粤语文本输入预先训练的粤语语音合成模型,由所述粤语语音合成模型对所述粤语文本进行粤语字词表达维度和
/
或粤语音调表达维度的特征的提取,并根据提取的特征进行粤语语音合成后,得到所述粤语语音合成模型输出的目标粤语语音

[0010]可选的,所述粤语语音合成模型包括粤语文字特征提取模型

粤语频谱特征转化模型和粤语语音合成模型;
[0011]所述由所述粤语语音合成模型对所述粤语文本进行粤语字词表达维度和
/
或粤语音调表达维度的特征的提取,并根据提取的特征进行粤语语音合成后,得到所述粤语语音合成模型输出的目标粤语语音,包括:
[0012]由所述粤语文字特征提取模型对所述目标文本进行粤语字词表达维度和
/
或粤语音调表达维度的特征的提取,以得到粤语文本特征序列;
[0013]由所述粤语频谱特征转化模型对所述粤语文本特征序列进行转化,以得到粤语频谱特征序列;
[0014]由所述粤语语音合成模型对所述粤语频谱特征序列进行粤语语音合成,以得到所述目标粤语语音

[0015]可选的,所述由所述粤语文字特征提取模型对所述目标文本进行粤语字词表达维度和
/
或粤语音调表达维度的特征的提取,以得到粤语文本特征序列,包括:
[0016]确定目标粤语口音
ID
及所述目标粤语口音
ID
对应的目标粤语发音词典;
[0017]由所述粤语文字特征提取模型基于所述目标粤语发音词典对所述粤语文本进行音素提取,得到粤语音素序列;所述粤语音素序列为所述粤语文本特征序列

[0018]可选的,所述由所述粤语文字特征提取模型对所述目标文本进行粤语字词表达维度和
/
或粤语音调表达维度的特征的提取,以得到粤语文本特征序列之前,所述方法还包括:
[0019]获得粤语文本样本;所述粤语文本样本标注有粤语音素序列和
/
或粤语分词序列和
/
或粤语韵律序列和
/
或粤语旁白对话标签序列和
/
或粤语重音序列和
/
或粤语语速序列;其中,所述粤语音素序列

所述粤语分词序列

所述粤语韵律序列和所述粤语旁白对话标签序列为粤语字词表达维度的特征,所述粤语重音序列和所述粤语语速序列为粤语音调表达维度的特征;
[0020]将所述粤语文本样本输入粤语文字特征提取模型,得到所述粤语文字特征提取模型输出的预测粤语音素序列和
/
或预测粤语分词和粤语韵律序列和
/
或预测粤语旁白对话标签序列和
/
或预测粤语重音序列和
/
或预测粤语语速序列;
[0021]根据回归损失函数分别计算所述预测粤语音素序列与标注的粤语音素序列之间的第一损失,和
/
或预测粤语分词及粤语韵律序列与标注的粤语分词及粤语韵律序列之间的第二损失,和
/
或预测粤语旁白对话标签序列与标注的粤语旁白对话标签序列之间的第三损失,和
/
或预测粤语重音序列与标注的粤语重音序列之间的第四损失,和
/
或预测粤语语速序列与标注的粤语语速序列之间的第五损失;
[0022]当所述第一损失和
/
或所述第二损失和
/
或所述第三损失和
/
或所述第四损失和
/
或所述第五损失满足收敛条件时,得到训练完成的粤语文字特征提取模型

[0023]可选的,所述由所述粤语频谱特征转化模型对所述粤语文本特征序列进行转化,以得到粤语频谱特征序列之前,所述方法还包括:
[0024]确定目标粤语口音
ID
和目标粤语音色
ID

[0025]所述由所述粤语频谱特征转化模型对所述粤语文本特征序列进行转化,以得到粤语频谱特征序列,包括:
[0026]将所述粤语文本特征序列

所述目标粤语口音
ID
和所述目标粤语音色
ID
输入预先训练的粤语频谱特征转化模型,由所述粤语频谱特征转化模型对所述粤语文本特征序列进行目标粤语口音和目标粤语音色的粤语频谱特征转化,得到所述粤语频谱特征转化模型输出的所述粤语频谱特征序列

[0027]可选的,所述由由所述粤语频谱特征转化模型对所述粤语文本特征序列进行转化,以得到粤语频谱特征序列之前,所述方法还包括:
[0028]获得粤语文本特征序列样本;所述粤语文本特征序列样本标注有粤语频谱特征序列;
[0029]将所述粤语文本特征序列样本输入粤语频谱特征转化模型,得到所述粤语频谱特征转化模型输出的预测粤语频谱特征序列;
[0030]根据回归损失函数分别计算所述预测粤语频谱特征序列与标注的粤语频谱特征
序列之间的损失,当所述损失满足收敛条件时,得到训练完成的粤语频谱特征转化模型

[0031]可选的,所述由所述粤语语音合成模型对所述粤语频谱特征序列进行语音合成,以得到所述目标粤语语音之前,所述方法还包括:
[0032]获得粤语频谱特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种粤语语音合成方法,其特征在于,包括:获得普通话文本;将所述普通话文本输入预先训练的国粤文字翻译模型,由所述国粤文字翻译模型对所述普通话文本进行粤语的文字翻译后,得到所述国粤文字翻译模型输出的粤语文本;将所述粤语文本输入预先训练的粤语语音合成模型,由所述粤语语音合成模型对所述粤语文本进行粤语字词表达维度和
/
或粤语音调表达维度的特征的提取,并根据提取的特征进行粤语语音合成后,得到所述粤语语音合成模型输出的目标粤语语音
。2.
根据权利要求1所述的方法,其特征在于,所述粤语语音合成模型包括粤语文字特征提取模型

粤语频谱特征转化模型和粤语语音合成模型;所述由所述粤语语音合成模型对所述粤语文本进行粤语字词表达维度和
/
或粤语音调表达维度的特征的提取,并根据提取的特征进行粤语语音合成后,得到所述粤语语音合成模型输出的目标粤语语音,包括:由所述粤语文字特征提取模型对所述目标文本进行粤语字词表达维度和
/
或粤语音调表达维度的特征的提取,以得到粤语文本特征序列;由所述粤语频谱特征转化模型对所述粤语文本特征序列进行转化,以得到粤语频谱特征序列;由所述粤语语音合成模型对所述粤语频谱特征序列进行粤语语音合成,以得到所述目标粤语语音
。3.
根据权利要求2所述的方法,其特征在于,所述由所述粤语文字特征提取模型对所述目标文本进行粤语字词表达维度和
/
或粤语音调表达维度的特征的提取,以得到粤语文本特征序列,包括:确定目标粤语口音
ID
及所述目标粤语口音
ID
对应的目标粤语发音词典;由所述粤语文字特征提取模型基于所述目标粤语发音词典对所述粤语文本进行音素提取,得到粤语音素序列;所述粤语音素序列为所述粤语文本特征序列
。4.
根据权利要求2所述的方法,其特征在于,所述由所述粤语文字特征提取模型对所述目标文本进行粤语字词表达维度和
/
或粤语音调表达维度的特征的提取,以得到粤语文本特征序列之前,所述方法还包括:获得粤语文本样本;所述粤语文本样本标注有粤语音素序列和
/
或粤语分词序列和
/
或粤语韵律序列和
/
或粤语旁白对话标签序列和
/
或粤语重音序列和
/
或粤语语速序列;其中,所述粤语音素序列

所述粤语分词序列

所述粤语韵律序列和所述粤语旁白对话标签序列为粤语字词表达维度的特征,所述粤语重音序列和所述粤语语速序列为粤语音调表达维度的特征;将所述粤语文本样本输入粤语文字特征提取模型,得到所述粤语文字特征提取模型输出的预测粤语音素序列和
/
或预测粤语分词和粤语韵律序列和
/
或预测粤语旁白对话标签序列和
/
或预测粤语重音序列和
/
或预测粤语语速序列;根据回归损失函数分别计算所述预测粤语音素序列与标注的粤语音素序列之间的第一损失,和
/
或预测粤语分词及粤语韵律序列与标注的粤语分词及粤语韵律序列之间的第二损失,和
/
或预测粤语旁白对话标签序列与标注的粤语旁白对话标签序列之间的第三损失,和
/
或预测粤语重音序列与标注的粤语重音序列之间的第四损失,和
/
或预测粤语语速
序列与标注的粤语语速序列之...

【专利技术属性】
技术研发人员:徐东杜嘉晨
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1