一种语音信号合成方法技术

技术编号：39648836 阅读：8 留言：0更新日期：2023-12-09 11:17

本发明专利技术公开了一种语音信号合成方法

全部详细技术资料下载

【技术实现步骤摘要】
一种语音信号合成方法、装置、电子设备及存储介质

[0001]本专利技术实施例涉及语音处理
，尤其涉及一种语音信号合成方法
、
装置
、
电子设备及存储介质
。

技术介绍

[0002]随着社会信息化
、
智能化进程的推进，智能交互越来越成为一种必要性，智能语音交互是智能交互的主要交互方式之一，在汽车
、
家居
、
手机等产品上都有对智能语音交互的集成，特别在汽车领域，语音交互在汽车的应用已经变成不可或缺的功能，语音交互涉及语音识别
、
自然语言处理
、
语音信号合成等重要环境
。
目前业界进行语音信号合成的方法主要有基于规则
、
基于统计
、
基于深度学习和基于混合模型等几种方法，这些方法都存在以下缺陷：多个任务单独训练模型，需要大量的数据
、
计算资源和内存空间，易造成很大的资源浪费，导致语音信号合成的速率较低；多个任务单独训练模型，模型无法适应不同的任务，导致语音信号合成的精度不足
、
准确率低
。

技术实现思路

[0003]本专利技术提供了一种语音信号合成方法
、
装置
、
电子设备及存储介质，以实现准确且高效的语音信号合成
。
[0004]第一方面，本专利技术实施例提供了一种语音信号合成方法，包括：
[0005]对输入文本进行正则...

【技术保护点】

【技术特征摘要】
1.
一种语音信号合成方法，其特征在于，包括：对输入文本进行正则化处理；将所述输入文本输入至经过训练的多任务模型，以通过所述多任务模型基于指令集得到所述输入文本的韵律结构特征以及音素序列；通过声学模型，根据所述音素序列和所述韵律结构特征的拼接结果预测语音的声音成分；通过声码器基于所述声音成分合成语音信号
。2.
根据权利要求1所述的方法，其特征在于，还包括：构建多任务模型，所述多任务模型包括韵律结构特征预测部分以及文本转音素部分，且所述韵律结构特征预测部分以及所述文本转音素部分共享网络参数；基于指令数据集对所述多任务模型进行训练，以调整所述多任务模型的输出层和模型参数，其中，所述指令数据集包括包含韵律预测指令的训练数据以及包含音素预测指令的训练数据
。3.
根据权利要求2所述的方法，其特征在于，在基于指令数据集对所述多任务模型进行训练之前，还包括：收集音素文本数据和韵律结构文本数据；根据指令模板对所述音素文本数据的音素序列和所述韵律结构文本数据的韵律结构特征进行标注，得到所述指令数据集
。4.
根据权利要求2所述的方法，其特征在于，所述指令数据集还包括包含韵律预测指令和音素预测指令的验证数据以及包含韵律预测指令和音素预测指令的测试数据；所述方法还包括：基于指令数据集对所述多任务模型进行验证和测试
。5.
根据权利要求3所述的方法，其特征在于，根据指令模板对所述韵律结构文本数据进行标注，包括：根据指令模板对所述韵律结构文本数据中的字边界
、
词边界

【专利技术属性】
技术研发人员：梁小明，何金鑫，张毅，孙宇嘉，王紫烟，付振，王明月，
申请(专利权)人：一汽南京科技开发有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人