一种基于大模型的多方言TTS生成方法技术

技术编号:45099251 阅读:13 留言:0更新日期:2025-04-25 18:38
本发明专利技术涉及一种基于大模型的多方言TTS生成方法,包括以下步骤:S1:收集各方言以及普通话的数据,形成数据集;S2:运用数据集,进行由粗到细逐步训练,使大模型具备精准的TTS生成能力;S3:采用带有方言文本与语音对的数据集训练大模型,以生成多方言TTS大模型;S4:采用transformer网络结构优化多方言TTS大模型;S5:采用层次化的强化学习增强多方言TTS大模型的表达能力。本发明专利技术可以生成特定地域的方言语音,提高用户体验。

【技术实现步骤摘要】

本专利技术涉及tts大模型,特别涉及一种基于大模型的多方言tts生成方法。


技术介绍

1、目前已有的技术仅为普通话的tts(textto speech的缩写,即“从文本到语音”)大模型,可以进行zero-shot,但针对于中国广大的方言语音合成鲜有涉猎,训练一个中文各方言语音合成大模型是一项极具挑战的任务。

2、因此有必要提供一种基于大模型的多方言tts生成方法,以生成特定地域的方言语音,提高用户体验。


技术实现思路

1、本专利技术的目的在于提供一种基于大模型的多方言tts生成方法,以生成特定地域的方言语音,提高用户体验。

2、为了解决现有技术中存在的问题,本专利技术提供了一种基于大模型的多方言tts生成方法,包括以下步骤:

3、s1:收集各方言以及普通话的数据,形成数据集;

4、s2:运用数据集,进行由粗到细逐步训练,使大模型具备精准的tts生成能力;

5、s3:采用带有方言文本与语音对的数据集训练大模型,以生成多方言tts大模型;

6本文档来自技高网...

【技术保护点】

1.一种基于大模型的多方言TTS生成方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于大模型的多方言TTS生成方法,其特征在于,收集各方言的数据的方式如下:

3.如权利要求2所述的基于大模型的多方言TTS生成方法,其特征在于,在大模型中,token是指文本数据在被大模型处理之前或过程中被分割成的最小单元。

4.如权利要求1所述的基于大模型的多方言TTS生成方法,其特征在于,进行由粗到细逐步训练,方式如下:

5.如权利要求4所述的基于大模型的多方言TTS生成方法,其特征在于,提前对数据进行标记,形成带精标的数据。

6.如...

【技术特征摘要】

1.一种基于大模型的多方言tts生成方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于大模型的多方言tts生成方法,其特征在于,收集各方言的数据的方式如下:

3.如权利要求2所述的基于大模型的多方言tts生成方法,其特征在于,在大模型中,token是指文本数据在被大模型处理之前或过程中被分割成的最小单元。

4.如权利要求1所述的基于大模型的多方言tts生成方法,其特征在于,进行由粗到细逐步训练,方式如下:

<...

【专利技术属性】
技术研发人员:陈子浩丁超凡
申请(专利权)人:巨人移动技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1