【技术实现步骤摘要】
本申请涉及语音合成,具体而言,涉及一种可扩展发音人的声学模型实现方法、装置。
技术介绍
1、语音合成技术是赋予计算机(或各种终端设备)具有像人一样的说话能力。tts(text to speech,文语转换)技术隶属于语音合成,它是将计算机自己产生的或者外部输入的文字信息转换为可以听懂的、流程的口语输出的技术。而语音合成系统一般由文本分析模块、声学模型、声码器三大部分构成。
2、在语音合成系统的基础上,多发音人语音合成系统的模型可以通过混合多发音人数据训练一个声学模型,再利用少量目标发音人的语料对预训练的声学模型进行部分模型参数的微调,即“预训练+微调”来实现。近年来,基于adapter的自适应技术在nlp(naturallanguage processing,自然语言处理)大模型微调上成果显著,已有文献指出可以在原有语音合成声学系统的基础模型上仅添加少量adapter层的方式来学习新发音人的特征。但上述无论哪种方式,都会形成一部分共享的层和参数或者一部分每个发音人独有的层和参数。因此,目前多发音人语音合成模型的推理引擎在输入
...【技术保护点】
1.一种可扩展发音人的声学模型实现方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基准声学模型的训练过程包括:
3.根据权利要求2所述的方法,其特征在于,获取多个所述第一发音人的第一语音数据,包括:
4.根据权利要求2所述的方法,其特征在于,依据多个所述第一发音人的第一语音数据对所述深度学习模型进行迭代训练,得到所述基准声学模型,包括:
5.根据权利要求2所述的方法,其特征在于,利用所述新增发音人的第二语音数据对目标声学模型进行自适应训练所得的自适应嵌入向量,包括:
6.根据权利要求5
...【技术特征摘要】
1.一种可扩展发音人的声学模型实现方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基准声学模型的训练过程包括:
3.根据权利要求2所述的方法,其特征在于,获取多个所述第一发音人的第一语音数据,包括:
4.根据权利要求2所述的方法,其特征在于,依据多个所述第一发音人的第一语音数据对所述深度学习模型进行迭代训练,得到所述基准声学模型,包括:
5.根据权利要求2所述的方法,其特征在于,利用所述新增发音人的第二语音数据对目标声学模型进行自适应训练所得的自适应嵌入向量,包括:
6.根据权利要求5所述的方法,其特征在于,利用所述适配器对所述基准声学模型内的解码器进行改进,包括:
7.根据权利要求5所述的方法,其特征在于,对所述适配器进行初始化,包括:
【专利技术属性】
技术研发人员:王玉倩,廉洁,李杰,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。