一种基于大语言模型的个性化语音韵律调整方法及装置制造方法及图纸

技术编号:42366912 阅读:27 留言:0更新日期:2024-08-16 14:48
本发明专利技术涉及一种基于大语言模型的个性化语音韵律调整方法和装置,其中方法包括:获取用户与AI系统之间的对话历史以及用户和AI系统的个人特质信息;将所述对话历史、个人特质信息以及思维链引导信息输入至大语言模型,得到目标文本以及目标文本的韵律建议;将所述目标文本以及目标文本的韵律建议输入语音合成系统,实现对目标文本的语音韵律调整。本发明专利技术能够改善语音合成系统中的韵律调整能力。

【技术实现步骤摘要】

本专利技术涉及语音合成,特别是涉及一种基于大语言模型的个性化语音韵律调整方法及装置


技术介绍

1、大型语言模型(llm):llm在许多与语言相关的任务中是可行的少样本学习者。它们可以通过自然语言描述的目标任务进行查询,而无需进行任何微调或模型参数更新。llm已经在文本完成、回答问题、翻译等任务中得到应用。

2、基于参考音频的tts模型能够在给定相同目标文本的情况下生成不同的韵律演绎。它们利用了一个潜在的声学空间,在推断时进行采样,以产生声音与所选参考语音类似的语。

3、当前的对话系统的两阶段流水线包括文本生成模块和tts模块,它们工作独立,tts模块无法访问对话上下文中的信息。然而,这种流水线模式存在着几个缺陷:首先,tts模块对长文本的理解能力有限,因为它通常基于小型预训练语言模型,缺乏足够的文本窗口;其次,在语音合成过程中,tts模块无法直接访问对话上下文的信息,导致生成的语音响应受到严重限制。综上,这种两阶段的限制包括对长文本理解能力的限制以及生成语音响应的表现力和互动性受限。


>技术实现思路...

【技术保护点】

1.一种基于大语言模型的个性化语音韵律调整方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于大语言模型的个性化语音韵律调整方法,其特征在于,所述对话历史包括用户与AI系统之间的前序对话内容;所述对话历史中的最后一句由用户发出。

3.根据权利要求1所述的基于大语言模型的个性化语音韵律调整方法,其特征在于,所述思维链引导信息的分析过程如下:

4.根据权利要求1所述的基于大语言模型的个性化语音韵律调整方法,其特征在于,所述韵律建议包括整体情感、句子级持续时间、句子级能量、句子级音高、字级重音和字级时长。

5.根据权利要求1所述的基于大...

【技术特征摘要】

1.一种基于大语言模型的个性化语音韵律调整方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于大语言模型的个性化语音韵律调整方法,其特征在于,所述对话历史包括用户与ai系统之间的前序对话内容;所述对话历史中的最后一句由用户发出。

3.根据权利要求1所述的基于大语言模型的个性化语音韵律调整方法,其特征在于,所述思维链引导信息的分析过程如下:

4.根据权利要求1所述的基于大语言模型的个性化语音韵律调整方法,其特征在于,所述韵律建议包括整体情感、句子级持续时间、句子级能量、句子级音高、字级重音和字级时长。

5.根据权利要求1所述的基于大语言模...

【专利技术属性】
技术研发人员:王天资葛林顿韦怡然陆弘远
申请(专利权)人:上海脸谱心智智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1