多轮对话数据的生成方法、装置、存储介质及电子设备制造方法及图纸

技术编号:45020779 阅读:23 留言:0更新日期:2025-04-18 17:03
本申请涉及一种多轮对话数据的生成方法、装置、存储介质及电子设备,涉及数据处理技术领域,其中方法包括,获取生成多轮对话数据所需的配置文件;然后从配置文件中读取每一轮对话的配置信息,其中,除首轮对话以外的其他轮对话的配置信息包括基于上一轮对话内容产生当前轮对话内容的需求信息;再基于每一轮对话的配置信息,使用第一大语言模型和第二大语言模型依次生成得到每一轮对话数据,其中,第一大语言模型用于生成每一轮对话数据的提问信息,第二大语言模型用于生成与提问信息对应的回复信息;记录依次生成得到的每一轮对话数据,获得多轮对话数据。本申请可以扩充出具备多样性和涵盖情景面广的高质量多轮对话数据集。

【技术实现步骤摘要】

本申请涉及数据处理,具体涉及一种多轮对话数据的生成方法、装置、存储介质及电子设备


技术介绍

1、随着人工智能(ai)技术的不断发展,大语言模型已经成为了自然语言处理领域中的一项重要技术。大语言模型可用于与用户实现单轮对话,满足单轮对话能力,而大语言模型多轮对话能力对于用户后期使用至关重要。

2、为了实现大语言模型的多轮对话能力,需要多轮对话数据作为训练样本,对大语言模型进行训练,目前可在网络上获取用户之间的对话数据,并从中筛选出多轮对话数据。然而,这种方式得到的多轮对话数据会夹杂着很多噪音,且对话内容不够全面、形式不够规范,会造成多轮对话数据的质量低下,进而无法使用这些数据训练得到更加智能化、人性化的大语言模型。


技术实现思路

1、有鉴于此,本申请提供了一种多轮对话数据的生成方法、装置、存储介质及电子设备,主要目的在于改善目前现有技术得到的多轮对话数据夹杂着很多噪音,且对话内容不够全面、形式不够规范的技术问题。

2、第一方面,本申请提供了一种多轮对话数据的生成方法,包括:

...

【技术保护点】

1.一种多轮对话数据的生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述每一轮对话的配置信息,使用第一大语言模型和第二大语言模型依次生成得到每一轮对话数据,包括:

3.根据权利要求2所述的方法,其特征在于,所述从当前轮对话的配置信息中获取当前轮对话的提问需求信息和回复需求信息,包括:

4.根据权利要求3所述的方法,其特征在于,所述提问模版信息包括与所述多轮类型对应的特定提问要求信息和通用提问要求信息,所述回复模版信息包括与所述多轮类型对应的特定回复要求信息和通用回复要求信息;

5.根据权利要求3所述的方法,...

【技术特征摘要】

1.一种多轮对话数据的生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述每一轮对话的配置信息,使用第一大语言模型和第二大语言模型依次生成得到每一轮对话数据,包括:

3.根据权利要求2所述的方法,其特征在于,所述从当前轮对话的配置信息中获取当前轮对话的提问需求信息和回复需求信息,包括:

4.根据权利要求3所述的方法,其特征在于,所述提问模版信息包括与所述多轮类型对应的特定提问要求信息和通用提问要求信息,所述回复模版信息包括与所述多轮类型对应的特定回复要求信息和通用回复要求信息;

5.根据权利要求3所述的方法,其特征在于,所述按照上一轮对话内容填写所述提问模版信息和所述回复模版信息,得到所述提问需求信息和所述回复需求...

【专利技术属性】
技术研发人员:徐洋江维维温丽云江会星
申请(专利权)人:北京罗克维尔斯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1