数据处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:39249004 阅读:11 留言:0更新日期:2023-10-30 12:01
本申请提供了一种数据处理方法、装置、计算机设备和存储介质。该方法包括:在用户与对话模型进行交互的过程中,按照交互的时间顺序将新增的会话内容添加到第一会话集中;对话模型用于根据第一提示词生成会话内容,第一提示词基于记忆模块和第一会话集生成;判断第一会话集是否满足记忆更新条件;若是,则将第一会话集中位于会话分割点之前的数据分离出来,得到第二会话集;根据第二会话集和当前的记忆模块生成第二提示词,并将第二提示词输入记忆提取模型,以得到更新后的记忆模块。本申请使得对话模型在关键信息没有丢失的前提下保留了长期记忆,克服了历史性遗忘缺点。克服了历史性遗忘缺点。克服了历史性遗忘缺点。

【技术实现步骤摘要】
数据处理方法、装置、计算机设备和存储介质


[0001]本申请涉人工智能
,尤其涉及一种数据处理方法、装置、计算机设备和存储介质。

技术介绍

[0002]对话模型是一种能够根据给定的上下文,生成自然语言对话的人工智能系统。对话模型有多种应用场景,例如智能客服、聊天机器人、教育辅导等。对话模型的核心技术是语言生成,即如何从语义表示或历史信息中生成流畅、合理、有趣的对话。
[0003]然而由于受制于模型所能处理的最大文本长度限制,会话模型与用户之间不断地进行信息交互,会产生大量聊天数据。而现有的大模型受限于处理文本长度上限,无法处理太长的历史会话消息,不适合长期聊天等场景。

技术实现思路

[0004]本申请的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术中对话模型无法保持长期记忆的问题。
[0005]第一方面,本申请提供了一种数据处理方法,包括:
[0006]在用户与对话模型进行交互的过程中,按照交互的时间顺序将新增的会话内容添加到第一会话集中;对话模型用于根据第一提示词生成会话内容,第一提示词基于记忆模块和第一会话集生成;
[0007]判断第一会话集是否满足记忆更新条件;
[0008]若是,则将第一会话集中位于会话分割点之前的数据分离出来,得到第二会话集;
[0009]根据第二会话集和当前的记忆模块生成第二提示词,并将第二提示词输入记忆提取模型,以得到更新后的记忆模块。
[0010]在其中一个实施中,判断第一会话集是否满足记忆更新条件,包括:
[0011]获取第一会话集中的词元数量;
[0012]在词元数量大于更新阈值的情况下,判定第一会话集满足记忆更新条件。
[0013]在其中一个实施中,在将第一会话集中位于会话分割点之前的数据分离出来之前,还包括:
[0014]根据更新阈值,设置会话分割点。
[0015]在其中一个实施中,根据更新阈值,设置会话分割点,包括:
[0016]在第一会话集中,定位与更新阈值对应的词元,并以定位到的词元为目标词元、目标词元所在的段落为目标段;
[0017]若目标段由用户发出,则将会话分割点设置在目标段的起始词元之前;
[0018]若目标段由对话模型发出,则将会话分割点设置在目标段的结尾词元之后。
[0019]在其中一个实施中,根据第二会话集和当前的记忆模块生成第二提示词,包括:
[0020]根据第二会话集和当前的记忆模块,生成提取材料提示词;
[0021]根据提取设定,确定提取目标提示词;提取目标提示词用于指示记忆提取模型从提取材料提示词中提取目标内容。
[0022]在其中一个实施中,根据第二会话集、当前的记忆模块,生成提取材料提示词,包括:
[0023]根据第二会话集、当前的记忆模块和用户行为数据,生成提取材料提示词。
[0024]在其中一个实施中,目标内容包括用户画像和/或情绪信息。
[0025]在其中一个实施中,第一提示词基于记忆模块、第一会话集以及对话模型的角色设定生成。
[0026]第二方面,本申请提供了一种数据处理装置,包括:
[0027]会话更新模块,用于在用户与对话模型进行交互的过程中,按照交互的时间顺序将新增的会话内容添加到第一会话集中;对话模型用于根据第一提示词生成会话内容,第一提示词基于记忆模块和第一会话集生成;
[0028]判断模块,用于判断第一会话集是否满足记忆更新条件;
[0029]会话分割模块,用于在第一会话集满足记忆更新条件的情况下,将第一会话集中位于会话分割点之前的数据分离出来,得到第二会话集;
[0030]记忆更新模块,用于根据第二会话集和当前的记忆模块生成第二提示词,并将第二提示词输入记忆提取模型,以得到更新后的记忆模块。
[0031]第三方面,本申请提供了一种计算机设备,包括一个或多个处理器,以及存储器,存储器中存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时,执行上述任一实施例中的数据处理方法的步骤。
[0032]第四方面,本申请提供了一种存储介质,存储介质中存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例中的数据处理方法的步骤。
[0033]从以上技术方案可以看出,本申请实施例具有以下优点:
[0034]上述实施例中的对话模型根据第一提示词来与用户进行交互,而第一提示词是基于第一会话集和记忆模块生成的。其中,第一会话集中的数据在两者交互的过程中将保持增加,直至其满足记忆更新条件,将第一会话集中产生时间较早的信息分离出来,并将分离出的数据与当前的记忆模块送入记忆提取模型进行信息压缩。使得第一提示词不会超出对话模型的处理极限,且第一提示词中的第一会话集保留了两者交互的近期内容、记忆模块中保存了经过精炼的两者交互的早期内容,使得对话模型在关键信息没有丢失的前提下保留了长期记忆,克服了历史性遗忘缺点。
附图说明
[0035]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0036]图1为本申请一个实施例提供的数据处理方法的流程示意图;
[0037]图2为本申请一个实施例中确定会话分割点的流程示意图;
[0038]图3为本申请一个实施例提供的数据处理装置的模块示意图;
[0039]图4为本申请一个实施例提供的计算机设备的内部结构图。
具体实施方式
[0040]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0041]请参阅图1,本申请提供了一种数据处理方法,包括步骤S102至步骤S108。
[0042]S102,在用户与对话模型进行交互的过程中,按照交互的时间顺序将新增的会话内容添加到第一会话集中。对话模型用于根据第一提示词生成会话内容,第一提示词基于记忆模块和第一会话集生成。
[0043]可以理解,对话模型是以第一提示词作为输入,并根据第一提示词生成对应回复内容的深度学习模型。本实施例中向对话模型所输入的第一提示词,是根据与用户之间沟通的上下文,即第一会话集,和浓缩了关于两人之间早期对话的重要信息的记忆模块所生成的。其中,第一会话集在用户与对话模型之间交互的过程中将实时更新,即无论用户或者对话模型产生新的会话内容后,都会添加到第一会话集中。在添加过程中,应保证第一会话集中的数据在交互过程中产生的时间顺序可被识别。例如,若第一会话集为序列形式,可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:在用户与对话模型进行交互的过程中,按照交互的时间顺序将新增的会话内容添加到第一会话集中;所述对话模型用于根据第一提示词生成会话内容,所述第一提示词基于记忆模块和所述第一会话集生成;判断所述第一会话集是否满足记忆更新条件;若是,则将所述第一会话集中位于会话分割点之前的数据分离出来,得到第二会话集;根据所述第二会话集和当前的所述记忆模块生成第二提示词,并将所述第二提示词输入记忆提取模型,以得到更新后的所述记忆模块。2.根据权利要求1所述的数据处理方法,其特征在于,所述判断所述第一会话集是否满足记忆更新条件,包括:获取所述第一会话集中的词元数量;在所述词元数量大于更新阈值的情况下,判定所述第一会话集满足所述记忆更新条件。3.根据权利要求2所述的数据处理方法,其特征在于,在所述将所述第一会话集中位于会话分割点之前的数据分离出来之前,还包括:根据所述更新阈值,设置所述会话分割点。4.根据权利要求3所述的数据处理方法,其特征在于,所述根据所述更新阈值,设置所述会话分割点,包括:在所述第一会话集中,定位与所述更新阈值对应的词元,并以定位到的词元为目标词元、所述目标词元所在的段落为目标段;若所述目标段由所述用户发出,则将所述会话分割点设置在所述目标段的起始词元之前;若所述目标段由所述对话模型发出,则将所述会话分割点设置在所述目标段的结尾词元之后。5.根据权利要求1

4任一项所述的数据处理方法,其特征在于,所述根据所述第二会话集和当前的所述记忆模块生成第二提示词,包括:根据所述第二会话集和当前的所述记忆模块,生成提取材料提示词;根据提取设定,确定提取目标提示词;所述提取目标提示词用于指示所述记忆提取模型从所述提取材料提示词...

【专利技术属性】
技术研发人员:邓其春马金龙吴文亮熊佳张政统黎子骏曾锐鸿王伟喆盘子圣兰翔徐志坚谢睿陈光尧
申请(专利权)人:广州趣研网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1