本申请涉及一种基于大模型的人机交互方法
【技术实现步骤摘要】
基于大模型的人机交互方法、装置、电子设备及存储介质
[0001]本申请涉及人机交互
,特别是涉及一种基于大模型的人机交互方法
、
装置
、
电子设备及存储介质
。
技术介绍
[0002]大语言模型(
LLM
)简称大模型,是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义
。
其中,遵循指令的大语言模型,如
ChatGPT
,因其在指令理解和文本生成方面的显著成功而受到了重视
。
这些大语言模型首先进行预训练,然后微调(
FineTune
)以对齐人类指令
。
大语言模型在各种自然语言处理(
NLP
)任务上表现出强大的性能,显示出大语言模型作为各种自然语言理解
、
文本生成和对话式人工智能问题的统一解决方案的潜力
。
[0003]但是,在一些特定的场景下(例如医疗问诊场景),经常需要模拟医生和患者之间进行多轮的问答,对一个回复进行深究,而现有的大语言模型中采用的数据集更加偏向于医疗知识问答,只能够实现简单的单轮对话功能,无法进行多轮有效对话,难以更好地模拟医疗问诊等需要进行多轮对话的场景
。
[0004]针对相关技术中存在的大语言模型难以适应多轮对话场景的问题,目前还没有提出有效的解决方案
。
技术实现思路
[0005]在本实施例中提供了一种基于大模型的人机交互方法
、
装置
、
电子设备及存储介质,以解决相关技术中大语言模型难以适应多轮对话场景的问题
。
[0006]第一个方面,在本专利技术中提供了一种基于大模型的人机交互方法,包括以下步骤:利用语言处理工具对抗生成多轮对话数据集;其中,所述语言处理工具用于响应前续对话语句生成后续对话语句;将所述多轮对话数据集作为样本数据,对初始大语言模型进行微调,得到目标大语言模型;通过所述目标大语言模型对目标语句进行意图分类,得到意图分类结果,根据意图分类结果生成所述目标语句的回复内容
。
[0007]在其中的一些实施例中,所述利用语言处理工具对抗生成多轮对话数据集包括:设定多轮对话的对话流程和至少两个对话角色;根据所述对话流程,通过所述语言处理工具交替模拟至少两个所述对话角色进行多轮对话,生成所述多轮对话数据集
。
[0008]在其中的一些实施例中,所述根据意图分类结果生成所述目标语句的回复内容包括:在预先构建的知识库中检索与所述意图分类结果相关的目标知识内容;根据所述目标知识内容生成所述目标语句的回复内容
。
[0009]在其中的一些实施例中,所述知识库的构建方法包括:获取知识内容;分别根据所述知识内容的关键词生成自身的内容标识,所述内容标识包括意图类型;基于所述知识内容以及所述内容标识,确定所述知识库
。
[0010]在其中的一些实施例中,所述在预先构建的知识库中检索与所述意图分类结果相关的目标知识内容包括:在所述知识库中检索与所述意图分类结果相匹配的目标内容标识;根据所述目标内容标识,确定所述目标知识内容
。
[0011]在其中的一些实施例中,所述通过所述目标大语言模型对目标语句进行意图分类,得到意图分类结果包括:对所述目标语句进行实体识别,得到实体识别结果;根据所述实体识别结果进行意图分析,得到意图分析结果;根据所述意图分析结果对目标语句进行意图分类,得到所述意图分类结果
。
[0012]在其中的一些实施例中,所述目标大语言模型包括提示指令;其中,所述提示指令用于提示所述目标大语言模型根据所述目标知识内容按照预设条件生成所述目标语句的回复内容
。
[0013]第二个方面,在本专利技术中提供了基于大模型的人机交互装置,包括:数据生成模块,用于利用语言处理工具对抗生成多轮对话数据集;其中,所述语言处理工具用于响应前续对话语句生成后续对话语句;模型处理模块,用于将所述多轮对话数据集作为样本数据,对初始大语言模型进行微调,得到目标大语言模型;回复生成模块,用于通过所述目标大语言模型对目标语句进行意图分类,得到意图分类结果,根据意图分类结果生成所述目标语句的回复内容
。
[0014]第三个方面,在本专利技术中提供了一种电子设备,包括存储器
、
处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的基于大模型的人机交互方法
。
[0015]第四个方面,在本专利技术中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的基于大模型的人机交互方法
。
[0016]与相关技术相比,在本专利技术中提供的基于大模型的人机交互方法,通过构建多轮对话数据集,然后将多轮对话数据集作为样本数据,对初始大语言模型进行微调,得到目标大语言模型
。
使用时,目标大语言模型对目标语句进行意图分类,得到意图分类结果,然后根据意图分类结果生成针对于目标语句的回复内容
。
能够实现多轮对话的功能,更加适用于医疗问诊等需要进行深入交流的场景,根据解决了现有相关技术中存在的大语言模型难以适应多轮对话场景的问题
。
[0017]此外,在本专利技术中,根据意图分类结果生成针对目标语句的回复内容时,需要在预先构建的知识库中检索与意图分类结果相关的目标知识内容,然后根据目标知识内容生成针对目标语句的回复内容
。
通过上述方法,使得最终生成的回复内容更加依赖于知识库中的知识内容,使得回复内容更加地符合用户的诉求
。
[0018]本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征
、
目的和优点更加简明易懂
。
附图说明
[0019]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定
。
在附图中:图1是执行本专利技术中提供的基于大模型的人机交互方法的终端硬件结构框图
。
[0020]图2是本专利技术的基于大模型的人机交互方法的流程图
。
[0021]图3是本专利技术的基于大模型的人机交互装置的结构框图
。
具体实施方式
[0022]为更清楚地理解本申请的目的
、
技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明
。
[0023]除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属
具备一般技能的人所理解的一般含义
。
在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数
。
...
【技术保护点】
【技术特征摘要】
1.
一种基于大模型的人机交互方法,其特征在于,包括以下步骤:利用语言处理工具对抗生成多轮对话数据集;其中,所述语言处理工具用于响应前续对话语句生成后续对话语句;将所述多轮对话数据集作为样本数据,对初始大语言模型进行微调,得到目标大语言模型;通过所述目标大语言模型对目标语句进行意图分类,得到意图分类结果,根据意图分类结果生成所述目标语句的回复内容
。2.
根据权利要求1所述的基于大模型的人机交互方法,其特征在于,所述利用语言处理工具对抗生成多轮对话数据集包括:设定多轮对话的对话流程和至少两个对话角色;根据所述对话流程,通过所述语言处理工具交替模拟至少两个所述对话角色进行多轮对话,生成所述多轮对话数据集
。3.
根据权利要求1所述的基于大模型的人机交互方法,其特征在于,所述根据意图分类结果生成所述目标语句的回复内容包括:在预先构建的知识库中检索与所述意图分类结果相关的目标知识内容;根据所述目标知识内容生成所述目标语句的回复内容
。4.
根据权利要求3所述的基于大模型的人机交互方法,其特征在于,所述知识库的构建方法包括:获取知识内容;分别根据所述知识内容的关键词生成自身的内容标识,所述内容标识包括意图类型;基于所述知识内容以及所述内容标识,确定所述知识库
。5.
根据权利要求4所述的基于大模型的人机交互方法,其特征在于,所述在预先构建的知识库中检索与所述意图分类结果相关的目标知识内容包括:在所述知识库中检索与所述意图分类结果相匹配的目标内容标识;根据所述目标内容标识,确定所述目标知识...
【专利技术属性】
技术研发人员:房洁,
申请(专利权)人:安徽十锎信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。