一种基于大模型的多方言TTS生成方法技术

技术编号：45099251 阅读：13 留言：0更新日期：2025-04-25 18:38

本发明专利技术涉及一种基于大模型的多方言TTS生成方法，包括以下步骤：S1：收集各方言以及普通话的数据，形成数据集；S2：运用数据集，进行由粗到细逐步训练，使大模型具备精准的TTS生成能力；S3：采用带有方言文本与语音对的数据集训练大模型，以生成多方言TTS大模型；S4：采用transformer网络结构优化多方言TTS大模型；S5：采用层次化的强化学习增强多方言TTS大模型的表达能力。本发明专利技术可以生成特定地域的方言语音，提高用户体验。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及tts大模型，特别涉及一种基于大模型的多方言tts生成方法。

技术介绍

1、目前已有的技术仅为普通话的tts(textto speech的缩写，即“从文本到语音”)大模型，可以进行zero-shot，但针对于中国广大的方言语音合成鲜有涉猎，训练一个中文各方言语音合成大模型是一项极具挑战的任务。

2、因此有必要提供一种基于大模型的多方言tts生成方法，以生成特定地域的方言语音，提高用户体验。

技术实现思路

1、本专利技术的目的在于提供一种基于大模型的多方言tts生成方法，以生成特定地域的方言语音，提高用户体验。

2、为了解决现有技术中存在的问题，本专利技术提供了一种基于大模型的多方言tts生成方法，包括以下步骤：

3、s1：收集各方言以及普通话的数据，形成数据集；

4、s2：运用数据集，进行由粗到细逐步训练，使大模型具备精准的tts生成能力；

5、s3：采用带有方言文本与语音对的数据集训练大模型，以生成多方言tts大模型；

6本文档来自技高网...

【技术保护点】

1.一种基于大模型的多方言TTS生成方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于大模型的多方言TTS生成方法，其特征在于，收集各方言的数据的方式如下：

3.如权利要求2所述的基于大模型的多方言TTS生成方法，其特征在于，在大模型中，token是指文本数据在被大模型处理之前或过程中被分割成的最小单元。

4.如权利要求1所述的基于大模型的多方言TTS生成方法，其特征在于，进行由粗到细逐步训练，方式如下：

5.如权利要求4所述的基于大模型的多方言TTS生成方法，其特征在于，提前对数据进行标记，形成带精标的数据。

6.如...

【技术特征摘要】

1.一种基于大模型的多方言tts生成方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于大模型的多方言tts生成方法，其特征在于，收集各方言的数据的方式如下：

3.如权利要求2所述的基于大模型的多方言tts生成方法，其特征在于，在大模型中，token是指文本数据在被大模型处理之前或过程中被分割成的最小单元。

4.如权利要求1所述的基于大模型的多方言tts生成方法，其特征在于，进行由粗到细逐步训练，方式如下：

<...

【专利技术属性】
技术研发人员：陈子浩，丁超凡，
申请(专利权)人：巨人移动技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人