基于人工智能的语音合成方法、装置、计算机设备和介质制造方法及图纸

技术编号:28562273 阅读:37 留言:0更新日期:2021-05-25 17:57
本申请涉及大数据技术领域,特别是涉及一种基于人工智能的语音合成方法、装置、计算机设备和存储介质。所述方法包括:接收语音合成请求,语音合成请求携带有待合成语音的文本数据;对文本数据进行编码处理,得到对应文本数据的文本特征;对文本特征进行预测处理,得到对应文本特征的对齐信息;基于对齐信息,构建对应文本特征的对齐矩阵;通过对齐矩阵,对文本特征进行对齐转换,得到对应语音合成请求的目标语音。采用本方法能够提升语音合成准确性。本申请还涉及区块链技术领域,语音合成请求、文本特征、对齐信息、对齐矩阵以及目标语音等均可以上传至区块链。

【技术实现步骤摘要】
基于人工智能的语音合成方法、装置、计算机设备和介质
本申请涉及大数据
,特别是涉及一种基于人工智能的语音合成方法、装置、计算机设备和介质。
技术介绍
随着神经网络模型的发展,基于神经网络的语音合成(TextToSpeech,TTS)技术已经越来越升入人们的生活中。在传统方式中,基于神经网络的语音合成系统分为两大类,即自回归和非自回归模型,自回归模型存在合成音频时间长以及效果差的问题,而非自回归模型受限于输入输出长度不一致,很难对齐,从而合成的语音效果较差,准确性低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提升语音合成准确性的基于人工智能的语音合成方法、装置、计算机设备和介质。一种基于人工智能的语音合成方法,所述方法包括:接收语音合成请求,语音合成请求携带有待合成语音的文本数据;对文本数据进行编码处理,得到对应文本数据的文本特征;对文本特征进行预测处理,得到对应文本特征的对齐信息;基于对齐信息,构建对应文本特征的对齐矩阵;通过对齐矩阵,对文本特征本文档来自技高网...

【技术保护点】
1.一种基于人工智能的语音合成方法,其特征在于,所述方法包括:/n接收语音合成请求,所述语音合成请求携带有待合成语音的文本数据;/n对所述文本数据进行编码处理,得到对应所述文本数据的文本特征;/n对所述文本特征进行预测处理,得到对应所述文本特征的对齐信息;/n基于所述对齐信息,构建对应所述文本特征的对齐矩阵;/n通过所述对齐矩阵,对所述文本特征进行对齐转换,得到对应所述语音合成请求的目标语音。/n

【技术特征摘要】
1.一种基于人工智能的语音合成方法,其特征在于,所述方法包括:
接收语音合成请求,所述语音合成请求携带有待合成语音的文本数据;
对所述文本数据进行编码处理,得到对应所述文本数据的文本特征;
对所述文本特征进行预测处理,得到对应所述文本特征的对齐信息;
基于所述对齐信息,构建对应所述文本特征的对齐矩阵;
通过所述对齐矩阵,对所述文本特征进行对齐转换,得到对应所述语音合成请求的目标语音。


2.根据权利要求1所述的方法,其特征在于,所述通过所述对齐矩阵,对所述文本特征进行对齐转换,得到对应所述语音合成请求的目标语音,包括:
通过所述对齐矩阵,对所述文本特征进行对齐转换,得到对应所述文本特征对齐后的语音特征;
对所述语音特征进行解码处理,生成对应所述语音合成请求的目标语音。


3.根据权利要求1所述的方法,其特征在于,所述对所述文本特征进行预测处理,得到对应所述文本特征的对齐信息为预先训练的预测模型预测的,所述预测模型的训练方式包括:
获取训练数据对,所述训练数据对包括配对的文本训练数据以及语音训练数据;
对所述文本训练数据以及所述语音训练数据分别进行编码处理,得到对应所述文本训练数据的文本特征以及对应所述语音训练数据的语音特征;
将所述文本特征输入初始预测模型中,对所述初始预测模型进行训练,并通过所述初始预测模型输出对应所述文本特征的预测结果;
根据所述文本特征以及所述语音特征,生成对应所述训练数据对的对齐矩阵;
根据所述对齐矩阵以及所述预测结果,确定所述初始预测模型的模型损失,并基于所述模型损失,对所述初始预测模型进行迭代训练,得到所述预测模型。


4.根据权利要求3所述的方法,其特征在于,所述根据所述文本特征以及所述语音特征,生成对应所述训练数据对的对齐矩阵,包括:
基于所述文本特征,确定对应所述文本特征的文本特征向量;
基于所述语音特征,确定对应所述语音特征的语音特征向量;
根据所述文本特征向量以及所述语音特征向量,生成对应所述训练数据对的对齐矩阵。

【专利技术属性】
技术研发人员:缪陈峰梁爽马骏王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1