【技术实现步骤摘要】
本专利技术涉及语音合成,尤其涉及一种语音生成模型训练方法、装置、设备及介质。
技术介绍
1、语音生成技术是指可以将文本转换为对应的语音的合成技术,在互联网、金融、医疗、教育等多个领域中具有广泛的应用。在金融场景和医疗场景中,为了解答用户的疑问,通常配置有人员与用户进行交流,由于金融业务和医疗业务复杂多样,大量的咨询业务等简单任务会降低业务人员的工作效率和工作质量,而采用基于语音合成的智能会话方式可以节省大量的人工成本,同时可以通过控制合成语音来提升对客户的服务质量。因此,语音合成技术在金融场景和医疗场景中起到重要的辅助作用。现有技术中,对于使用非自回归模型的系统(比如扩散模型),在训练时往往需要数百乃至上千个去噪步骤才能实现高质量的语音生成,极大限制了生成效率和准确率。
技术实现思路
1、本专利技术实施例提供一种语音生成模型训练方法、装置、设备及介质,以解决现有技术中使用非自回归模型的系统在训练时效率和准确率较低的问题。
2、一种语音生成模型训练方法,包括:
3、获
...【技术保护点】
1.一种语音生成模型训练方法,其特征在于,包括:
2.如权利要求1所述的语音生成模型训练方法,其特征在于,所述通过所述预设训练模型中的语义特征模块对所述样本文本和所述样本语音进行语义特征识别,得到与各所述样本文本对应的样本语义特征,包括:
3.如权利要求2所述的语音生成模型训练方法,其特征在于,所述通过所述语义特征模块中的语义编码器对所述样本语音进行语义编码,得到完整语义特征和掩码语义特征,包括:
4.如权利要求1所述的语音生成模型训练方法,其特征在于,所述通过所述预设训练模型中的声学特征模块对所述样本语音和所述语义特征进行声学特征
...【技术特征摘要】
1.一种语音生成模型训练方法,其特征在于,包括:
2.如权利要求1所述的语音生成模型训练方法,其特征在于,所述通过所述预设训练模型中的语义特征模块对所述样本文本和所述样本语音进行语义特征识别,得到与各所述样本文本对应的样本语义特征,包括:
3.如权利要求2所述的语音生成模型训练方法,其特征在于,所述通过所述语义特征模块中的语义编码器对所述样本语音进行语义编码,得到完整语义特征和掩码语义特征,包括:
4.如权利要求1所述的语音生成模型训练方法,其特征在于,所述通过所述预设训练模型中的声学特征模块对所述样本语音和所述语义特征进行声学特征识别,得到与各所述样本文本对应的样本声学特征,包括:
5.如权利要求4所述的语音生成模型训练方法,其特征在于,所述通过所述声学...
【专利技术属性】
技术研发人员:石岩,陈闽川,王少军,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。