一种基于大语言模型的个性化语音韵律调整方法及装置制造方法及图纸

技术编号：42366912 阅读：15 留言：0更新日期：2024-08-16 14:48

本发明专利技术涉及一种基于大语言模型的个性化语音韵律调整方法和装置，其中方法包括：获取用户与AI系统之间的对话历史以及用户和AI系统的个人特质信息；将所述对话历史、个人特质信息以及思维链引导信息输入至大语言模型，得到目标文本以及目标文本的韵律建议；将所述目标文本以及目标文本的韵律建议输入语音合成系统，实现对目标文本的语音韵律调整。本发明专利技术能够改善语音合成系统中的韵律调整能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音合成，特别是涉及一种基于大语言模型的个性化语音韵律调整方法及装置。

技术介绍

1、大型语言模型(llm)：llm在许多与语言相关的任务中是可行的少样本学习者。它们可以通过自然语言描述的目标任务进行查询，而无需进行任何微调或模型参数更新。llm已经在文本完成、回答问题、翻译等任务中得到应用。

2、基于参考音频的tts模型能够在给定相同目标文本的情况下生成不同的韵律演绎。它们利用了一个潜在的声学空间，在推断时进行采样，以产生声音与所选参考语音类似的语。

3、当前的对话系统的两阶段流水线包括文本生成模块和tts模块，它们工作独立，tts模块无法访问对话上下文中的信息。然而，这种流水线模式存在着几个缺陷：首先，tts模块对长文本的理解能力有限，因为它通常基于小型预训练语言模型，缺乏足够的文本窗口；其次，在语音合成过程中，tts模块无法直接访问对话上下文的信息，导致生成的语音响应受到严重限制。综上，这种两阶段的限制包括对长文本理解能力的限制以及生成语音响应的表现力和互动性受限。

技术实现思路

1、本专利技术所要解决的技术问题是提供一种基于大语言模型的个性化语音韵律调整方法及装置，能够改善语音合成系统中的韵律调整能力的。

2、本专利技术解决其技术问题所采用的技术方案是：提供一种基于大语言模型的个性化语音韵律调整方法，包括以下步骤：

3、获取用户与ai系统之间的对话历史以及用户和ai系统的个人特质信息；

4、将所述对话

5、将所述目标文本以及目标文本的韵律建议输入语音合成系统，实现对目标文本的语音韵律调整。

6、所述对话历史包括用户与ai系统之间的前序对话内容；所述对话历史中的最后一句由用户发出。

7、所述思维链引导信息的分析过程如下：

8、基于所述对话历史和个人特质信息生成针对所述对话历史中的最后一句进行回复的目标文本；

9、分析所述对话历史和个人特质信息，推断出用户发出最后一句时的情感信息；

10、基于个人特质信息从所述对话历史中找出与用户和ai系统的个人特质相关的关键词；

11、根据所述用户发出最后一句时的情感信息、关键词以及目标文本，推断ai系统回复时的情感色调；

12、根据所述情感色调、个人特质信息以及对话历史的上下文关系，推断出目标文本的韵律建议。

13、所述韵律建议包括整体情感、句子级持续时间、句子级能量、句子级音高、字级重音和字级时长。

14、所述将所述对话历史、个人特质信息以及思维链引导信息输入至大语言模型时，还将格式引导信息输入至大语言模型，所述大语言模型在输出目标文本的韵律建议时，根据格式引导信息输出目标文本的韵律建议。

15、本专利技术解决其技术问题所采用的技术方案是：提供一种基于大语言模型的个性化语音韵律调整方法，包括以下步骤：

16、获取用户与ai系统之间的对话历史以及用户和ai系统的个人特质信息；

17、将所述对话历史和个人特质信息输入至第一大语言模型，生成目标文本；

18、将所述对话历史、个人特质信息、目标文本以及思维链引导信息输入至第二大语言模型，得到目标文本的韵律建议；

19、将所述目标文本以及目标文本的韵律建议输入语音合成系统，实现对目标文本的语音韵律调整。

20、所述思维链引导信息的分析过程如下：

21、分析所述对话历史和个人特质信息，推断出用户发出最后一句时的情感信息；

22、基于个人特质信息从所述对话历史中找出与用户和ai系统的个人特质相关的关键词；

23、根据所述用户发出最后一句时的情感信息、关键词以及目标文本，推断ai系统回复时的情感色调；

24、根据所述情感色调、个人特质信息以及对话历史的上下文关系，推断出目标文本的韵律建议。

25、本专利技术解决其技术问题所采用的技术方案是：提供一种基于大语言模型的个性化语音韵律调整装置，包括：

26、获取模块，用于获取用户与ai系统之间的对话历史以及用户和ai系统的个人特质信息；

27、生成建议模块，用于将所述对话历史、个人特质信息以及思维链引导信息输入至大语言模型，得到目标文本以及目标文本的韵律建议；

28、调整模块，用于将所述目标文本以及目标文本的韵律建议输入语音合成系统，实现对目标文本的语音韵律调整。

29、本专利技术解决其技术问题所采用的技术方案是：提供一种基于大语言模型的个性化语音韵律调整装置，包括：

30、获取模块，用于获取用户与ai系统之间的对话历史以及用户和ai系统的个人特质信息；

31、生成模块，用于将所述对话历史和个人特质信息输入至第一大语言模型，生成目标文本；

32、建议模块，用于将所述对话历史、个人特质信息、目标文本以及思维链引导信息输入至第二大语言模型，得到目标文本的韵律建议；

33、调整模块，用于将所述目标文本以及目标文本的韵律建议输入语音合成系统，实现对目标文本的语音韵律调整。

34、有益效果

35、由于采用了上述的技术方案，本专利技术与现有技术相比，具有以下的优点和积极效果：本专利技术利用大语言模型推断用户所说内容的情感，并基于此结合用户和ai系统的个人特质，推断出ai系统回应的情感色调，并根据情感色调形成目标文本韵律建议，从而使得后续语音合成时能够对韵律进行调整，增强ai与用户之间的互动性。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的个性化语音韵律调整方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于大语言模型的个性化语音韵律调整方法，其特征在于，所述对话历史包括用户与AI系统之间的前序对话内容；所述对话历史中的最后一句由用户发出。

3.根据权利要求1所述的基于大语言模型的个性化语音韵律调整方法，其特征在于，所述思维链引导信息的分析过程如下：

4.根据权利要求1所述的基于大语言模型的个性化语音韵律调整方法，其特征在于，所述韵律建议包括整体情感、句子级持续时间、句子级能量、句子级音高、字级重音和字级时长。

5.根据权利要求1所述的基于大语言模型的个性化语音韵律调整方法，其特征在于，所述将所述对话历史、个人特质信息以及思维链引导信息输入至大语言模型时，还将格式引导信息输入至大语言模型，所述大语言模型在输出目标文本的韵律建议时，根据格式引导信息输出目标文本的韵律建议。

6.一种基于大语言模型的个性化语音韵律调整方法，其特征在于，包括以下步骤：

7.根据权利要求6所述的基于大语言模型的个性化语音韵律调整方法，其

8.一种基于大语言模型的个性化语音韵律调整装置，其特征在于，包括：

9.一种基于大语言模型的个性化语音韵律调整装置，其特征在于，包括：

...

【技术特征摘要】

1.一种基于大语言模型的个性化语音韵律调整方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于大语言模型的个性化语音韵律调整方法，其特征在于，所述对话历史包括用户与ai系统之间的前序对话内容；所述对话历史中的最后一句由用户发出。

3.根据权利要求1所述的基于大语言模型的个性化语音韵律调整方法，其特征在于，所述思维链引导信息的分析过程如下：

5.根据权利要求1所述的基于大语言模...

【专利技术属性】
技术研发人员：王天资，葛林顿，韦怡然，陆弘远，
申请(专利权)人：上海脸谱心智智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人