可扩展发音人的声学模型实现方法、装置制造方法及图纸

技术编号:40656578 阅读:19 留言:0更新日期:2024-03-13 21:33
本申请公开了一种可扩展发音人的声学模型实现方法、装置。包括:响应于多个目标新增发音人的语音合成请求,确定语音合成请求中各个目标新增发音人的目标发音人标识;预设的发音人索引表中确定与目标发音人标识对应的目标新增发音人的目标嵌入向量;基于多个目标新增发音人的目标嵌入向量确定目标声学模型内的目标适配器参数,并将目标适配器参数与目标声学模型进行重新组合,通过组合后的目标声学模型对多个目标发音人的语音合成请求进行响应。本申请解决了相关声学模型多个发音人批输入语音文本进行语音合成时,通过调用各个发音人的自适应模型参数依次对每个发音人的语音文本进行推理,导致推理处理效率较低的技术问题。

【技术实现步骤摘要】

本申请涉及语音合成,具体而言,涉及一种可扩展发音人的声学模型实现方法、装置


技术介绍

1、语音合成技术是赋予计算机(或各种终端设备)具有像人一样的说话能力。tts(text to speech,文语转换)技术隶属于语音合成,它是将计算机自己产生的或者外部输入的文字信息转换为可以听懂的、流程的口语输出的技术。而语音合成系统一般由文本分析模块、声学模型、声码器三大部分构成。

2、在语音合成系统的基础上,多发音人语音合成系统的模型可以通过混合多发音人数据训练一个声学模型,再利用少量目标发音人的语料对预训练的声学模型进行部分模型参数的微调,即“预训练+微调”来实现。近年来,基于adapter的自适应技术在nlp(naturallanguage processing,自然语言处理)大模型微调上成果显著,已有文献指出可以在原有语音合成声学系统的基础模型上仅添加少量adapter层的方式来学习新发音人的特征。但上述无论哪种方式,都会形成一部分共享的层和参数或者一部分每个发音人独有的层和参数。因此,目前多发音人语音合成模型的推理引擎在输入的发音人个数可以大于本文档来自技高网...

【技术保护点】

1.一种可扩展发音人的声学模型实现方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基准声学模型的训练过程包括:

3.根据权利要求2所述的方法,其特征在于,获取多个所述第一发音人的第一语音数据,包括:

4.根据权利要求2所述的方法,其特征在于,依据多个所述第一发音人的第一语音数据对所述深度学习模型进行迭代训练,得到所述基准声学模型,包括:

5.根据权利要求2所述的方法,其特征在于,利用所述新增发音人的第二语音数据对目标声学模型进行自适应训练所得的自适应嵌入向量,包括:

6.根据权利要求5所述的方法,其特征在...

【技术特征摘要】

1.一种可扩展发音人的声学模型实现方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基准声学模型的训练过程包括:

3.根据权利要求2所述的方法,其特征在于,获取多个所述第一发音人的第一语音数据,包括:

4.根据权利要求2所述的方法,其特征在于,依据多个所述第一发音人的第一语音数据对所述深度学习模型进行迭代训练,得到所述基准声学模型,包括:

5.根据权利要求2所述的方法,其特征在于,利用所述新增发音人的第二语音数据对目标声学模型进行自适应训练所得的自适应嵌入向量,包括:

6.根据权利要求5所述的方法,其特征在于,利用所述适配器对所述基准声学模型内的解码器进行改进,包括:

7.根据权利要求5所述的方法,其特征在于,对所述适配器进行初始化,包括:

【专利技术属性】
技术研发人员:王玉倩廉洁李杰
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1