【技术实现步骤摘要】
本专利技术涉及人工智能,尤其涉及基于大语言模型的语音生成方法、装置、设备及介质。
技术介绍
1、语音合成技术(text-to-speech,简称tts)是指将文本生成语音的过程,随着人工智能技术的发展,语音合成在人机对话领域占有越来越重要的地位。tts语音合成技术在医疗领域、金融领域等多种场景中都有广泛应用,例如在医疗健康领域,医疗机器人可以使用语音合成技术来传达信息,告诉患者他们的治疗计划或告诉医生他们的病情等,医院的语音导航系统可以帮助患者在医院内部找到相关的设施和服务;又例如在金融科技业务领域,金融机构可以使用tts技术生成语音提示和公告,用于通知客户关于账户变动、新产品发布等信息,或者创建具有自然语言处理能力的自动客服系统,能够回答客户的问题,提供账户信息查询、产品咨询等服务。
2、近些年来,大语言模型(llm)在各种基于文本的任务中展现出了十分卓越的性能,例如问答、机器翻译和常识推理等,而具有语音生成能力的大语言模型的发展与tts语音合成技术的进展密切相关。目前,通常基于类似大语言模型的语言建模任务重新构建语音生成
...【技术保护点】
1.一种基于大语言模型的语音生成方法,其特征在于,包括:
2.根据权利要求1所述的基于大语言模型的语音生成方法,其特征在于,所述具有混合LoRA适配器的大语言模型通过以下步骤进行多阶段参数微调得到:
3.根据权利要求2所述的基于大语言模型的语音生成方法,其特征在于,所述通过所述第一阶段数据集中的文本数据与语音数据,对具有初始化的LoRA适配器的大语言模型进行一阶段微调,包括:
4.根据权利要求2所述的基于大语言模型的语音生成方法,其特征在于,所述通过所述第二阶段数据集中的文本数据,对经过一阶段微调的LoRA适配器进行二阶段微调,获得
...【技术特征摘要】
1.一种基于大语言模型的语音生成方法,其特征在于,包括:
2.根据权利要求1所述的基于大语言模型的语音生成方法,其特征在于,所述具有混合lora适配器的大语言模型通过以下步骤进行多阶段参数微调得到:
3.根据权利要求2所述的基于大语言模型的语音生成方法,其特征在于,所述通过所述第一阶段数据集中的文本数据与语音数据,对具有初始化的lora适配器的大语言模型进行一阶段微调,包括:
4.根据权利要求2所述的基于大语言模型的语音生成方法,其特征在于,所述通过所述第二阶段数据集中的文本数据,对经过一阶段微调的lora适配器进行二阶段微调,获得混合lora适配器,包括:
5.根据权利要求2所述的基于大语言模型的语音生成方法,其特征在于,所述通过所述第三阶段数据集中的文本数据与语音数据,对所述混合lora适配器以及声学模型和声码器进行端到端的语音生成训练,获得具有混合lora适配器的大语言模型,包括:
<...【专利技术属性】
技术研发人员:石岩,陈闽川,王少军,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。