一种语音信号合成方法技术

技术编号:39648836 阅读:8 留言:0更新日期:2023-12-09 11:17
本发明专利技术公开了一种语音信号合成方法

【技术实现步骤摘要】
一种语音信号合成方法、装置、电子设备及存储介质


[0001]本专利技术实施例涉及语音处理
,尤其涉及一种语音信号合成方法

装置

电子设备及存储介质


技术介绍

[0002]随着社会信息化

智能化进程的推进,智能交互越来越成为一种必要性,智能语音交互是智能交互的主要交互方式之一,在汽车

家居

手机等产品上都有对智能语音交互的集成,特别在汽车领域,语音交互在汽车的应用已经变成不可或缺的功能,语音交互涉及语音识别

自然语言处理

语音信号合成等重要环境

目前业界进行语音信号合成的方法主要有基于规则

基于统计

基于深度学习和基于混合模型等几种方法,这些方法都存在以下缺陷:多个任务单独训练模型,需要大量的数据

计算资源和内存空间,易造成很大的资源浪费,导致语音信号合成的速率较低;多个任务单独训练模型,模型无法适应不同的任务,导致语音信号合成的精度不足

准确率低


技术实现思路

[0003]本专利技术提供了一种语音信号合成方法

装置

电子设备及存储介质,以实现准确且高效的语音信号合成

[0004]第一方面,本专利技术实施例提供了一种语音信号合成方法,包括:
[0005]对输入文本进行正则化处理;
[0006]将输入文本输入至经过训练的多任务模型,以通过多任务模型基于指令集得到输入文本的韵律结构特征以及音素序列;
[0007]通过声学模型,根据音素序列和韵律结构特征的拼接结果预测语音的声音成分;
[0008]通过声码器基于声音成分合成语音信号

[0009]第二方面,本专利技术实施例提供了一种语音信号合成装置,包括:
[0010]文本处理模块,用于对输入文本进行正则化处理;
[0011]音律特征获取模块,用于将输入文本输入至经过训练的多任务模型,以通过多任务模型基于指令集得到输入文本的韵律结构特征以及音素序列;
[0012]成分拼接模块,用于通过声学模型,根据音素序列和韵律结构特征的拼接结果预测语音的声音成分;
[0013]语音合成模块,用于通过声码器基于声音成分合成语音信号

[0014]第三方面,本专利技术实施例提供了一种电子设备,包括:
[0015]至少一个处理器;以及
[0016]与至少一个处理器通信连接的存储器;其中,
[0017]存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行如第一方面所述的语音信号合成方法

[0018]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机
程序,该程序被处理器执行时实现如第一方面所述的语音信号合成方法

[0019]本专利技术实施例提供了一种语音信号合成方法

装置

电子设备及存储介质,首先通过对输入文本进行正则化处理;再将输入文本输入至经过训练的多任务模型,以通过多任务模型基于指令集得到输入文本的韵律结构特征以及音素序列;再通过声学模型,根据音素序列和韵律结构特征的拼接结果预测语音的声音成分;最后通过声码器基于声音成分合成语音信号

上述技术方案,通过多任务模型基于指令集将输入文本转换为对应的韵律结构特征和音素序列,最后通过声学模型和声码器将音素序列和韵律结构特征合成语音信号,避免了为每个任务单独构建多任务模型,从而降低了多任务模型的复杂度,增强了文本转音素的精度和质量,提高了语音信号合成的处理效率和准确性,有助于在多语言场景中更加准确地预测出语音信号合成中的发音信息

[0020]应当理解,本部分所描述的内容并非旨在标识本专利技术实施例的关键或重要特征,也不用于限制本专利技术的范围

本专利技术的其他特征将通过以下的说明书而变得容易理解

附图说明
[0021]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征

优点及方面将变得更加明显

贯穿附图中,相同或相似的附图标记表示相同或相似的元素

应当理解附图是示意性的,原件和元素不一定按照比例绘制

[0022]图1为本专利技术实施例一提供的一种语音信号合成方法的流程图;
[0023]图2为本专利技术实施例一提供的一种语音信号合成流程的示意图;
[0024]图3为本专利技术实施例二提供的一种语音信号合成方法的流程图;
[0025]图4为本专利技术实施例二提供的一种语音信号合成前端的不同阶段工作内容的示意图;
[0026]图5为本专利技术实施例二提供的一种多任务模型的结构示意图;
[0027]图6为本专利技术实施例三提供的一种语音信号合成装置的结构示意图;
[0028]图7为本专利技术实施例四提供的一种电子设备的结构示意图

具体实施方式
[0029]下面结合附图和实施例对本专利技术作进一步的详细说明

可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定

此外,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合

另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构

[0030]在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法

虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地

并发地或者同时实施

此外,各步骤的顺序可以被重新安排

当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤

所述处理可以对应于方法

函数

规程

子例程

子程序等等

[0031]需要注意,本专利技术实施例中提及的“第一”、“第二”等概念仅用于对不同的装置

模块

单元或其他对象进行区分,并非用于限定这些装置

模块

单元或其他对象所执行的功能的顺序或者相互依存关系

[0032]实施例一
[0033]图1为本专利技术实施例一提供的一种语音信号合成方法的流程图,本实施例可适用于准确且高效地合成语音信号的情况

具体的,该语音信号合成方法可以由语音信号合成装置执行,该语音信号合成装置可以通过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种语音信号合成方法,其特征在于,包括:对输入文本进行正则化处理;将所述输入文本输入至经过训练的多任务模型,以通过所述多任务模型基于指令集得到所述输入文本的韵律结构特征以及音素序列;通过声学模型,根据所述音素序列和所述韵律结构特征的拼接结果预测语音的声音成分;通过声码器基于所述声音成分合成语音信号
。2.
根据权利要求1所述的方法,其特征在于,还包括:构建多任务模型,所述多任务模型包括韵律结构特征预测部分以及文本转音素部分,且所述韵律结构特征预测部分以及所述文本转音素部分共享网络参数;基于指令数据集对所述多任务模型进行训练,以调整所述多任务模型的输出层和模型参数,其中,所述指令数据集包括包含韵律预测指令的训练数据以及包含音素预测指令的训练数据
。3.
根据权利要求2所述的方法,其特征在于,在基于指令数据集对所述多任务模型进行训练之前,还包括:收集音素文本数据和韵律结构文本数据;根据指令模板对所述音素文本数据的音素序列和所述韵律结构文本数据的韵律结构特征进行标注,得到所述指令数据集
。4.
根据权利要求2所述的方法,其特征在于,所述指令数据集还包括包含韵律预测指令和音素预测指令的验证数据以及包含韵律预测指令和音素预测指令的测试数据;所述方法还包括:基于指令数据集对所述多任务模型进行验证和测试
。5.
根据权利要求3所述的方法,其特征在于,根据指令模板对所述韵律结构文本数据进行标注,包括:根据指令模板对所述韵律结构文本数据中的字边界

词边界

【专利技术属性】
技术研发人员:梁小明何金鑫张毅孙宇嘉王紫烟付振王明月
申请(专利权)人:一汽南京科技开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1