基于记忆强化算法结合大模型驱动实现个性化NPC的方法技术

技术编号：40967738 阅读：2 留言：0更新日期：2024-04-18 20:48

本发明专利技术公开了基于记忆强化算法结合大模型驱动实现个性化NPC的方法，涉及模型构建技术领域，依据数据质量系数确定出低质量数据类，从低质量数据类中筛选异常数据，将处理后各个数据类汇总生成模型构建数据集合；将训练后的增强式记忆网络和语言沟通模型结合，生成NPC回复模型；由反馈数据集合构建反馈系数，将若干个反馈系数汇总并构建NPC回复模型的可靠度，若可靠度低于可靠度阈值，由模型优化知识图谱给出模型优化策略，对NPC回复模型进行优化，并由可靠度集合生成优化度，依据优化度对NPC回复模型作相应性处理。构建的NPC回复模型对客服系统及其运行环境适应性高，能够对实际的使用环境更贴合，避免可靠性不足。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及模型构建，具体为基于记忆强化算法结合大模型驱动实现个性化 npc的方法。

技术介绍

1、 npc是英文 non- player character的缩写，中文翻译过来是“非玩家控制角色”， npc通常用于游戏中，指游戏中的非玩家角色，他们通常由电脑控制，而不是由玩家控制。 npc通常执行一些固定的任务，为玩家提供信息和帮助，或者为游戏的故事情节提供支持。在许多游戏中， npc也可以与玩家进行交互，在实际应用中，为了降低客服人员的工作压力，其也经常用于客服系统中，辅助客服回复客户信息。

2、在申请公布号为cn116824091a的中国专利技术专利中，公开了一种数字人几何模型风格化生成与驱动方法，利用大量采集的人体三维真实数据，通过体素化建模和隐式表示，生成人体三维隐式数据集；再通过深度学习方法，对人体三维隐式数据集进行三维超分辨和模型风格学习；之后通过改变不同的三维隐式模型输入端，达成数字人几何模型风格化生成和数字人几何模型风格化驱动两个功能；三维人体体素化建模和隐式表示通过现有的三维距离场表示方法构建的；三维超分辨和模型风格学习是通过基于人体模型的三维生成网络构建的。本专利技术通过建立起人体真实三维数据、三维隐式体素化表达和数字人三维风格

3、结合以上申请及现有技术，在构建个性化 npc，特别是要将其应用于客服系统时，由于客服系统内的各个账号的客户咨询信息相差较大，且需要回复的信息间的相似程度不高，因此，由客服账号手动回复客户信息时的工作量较大，若是接入个性化 npc作为辅助，则能够较大程度上提高工作效率；但是现有的 npc构建方法中， npc使用的场景和环境主要考量的是通用性，较少直接用各种相似度不高的内容做样本数据，这导致构建的 npc在应用于客服系统时，与客服系统的适应性较差，在实际应用时可靠性不足，而同时由于用于构建 npc的样本数据种类多数据量大，若不能充分预处理，则可能导致构建的 npc模型和实际需求间会存在一定的偏差，可靠度不足。

4、为此，本专利技术提供了基于记忆强化算法结合大模型驱动实现个性化 npc的方法。

技术实现思路

1、（一）解决的技术问题

2、针对现有技术的不足，本专利技术提供了基于记忆强化算法结合大模型驱动实现个性化 npc的方法，通过从低质量数据类中筛选异常数据，将处理后各个数据类汇总生成模型构建数据集合；将训练后的增强式记忆网络和语言沟通模型结合，生成 npc回复模型；由反馈数据集合构建反馈系数，将若干个反馈系数汇总并构建 npc回复模型的可靠度，若可靠度低于可靠度阈值，由模型优化知识图谱给出模型优化策略，对 npc回复模型进行优化，并由可靠度集合生成优化度，依据优化度对 npc回复模型作相应性处理。构建的 npc回复模型对客服系统及其运行环境适应性高，能够对实际的使用环境更贴合，避免可靠性不足，从而解决了
技术介绍
中提出的技术问题。

3、（二）技术方案

4、为实现以上目的，本专利技术通过以下技术方案予以实现：基于记忆强化算法结合大模型驱动实现个性化 npc的方法，包括，在客服系统处于工作状态时，对其各个账号的工作状态进行监控，由监控数据构建差异数据集合，由差异数据集合构建差异系数，进而由账号的差异系数构建负荷度，若负荷度超过负荷阈值，发出数据采集指令；其中，构建负荷度方式如下：

5、其中，，为账号的个数，权重系数：且；为差异系数的均值；为差异系数的预设目标值；

6、采集用于构建 npc回复模型的样本数据，对样本数据做预处理后归类获取若干个预处理数据类，依据预处理数据类的分析指标构建数据质量系数，并以其确定出低质量数据类，从低质量数据类中筛选异常数据，依据异常数据的异常程度，对低质量数据类作出相应处理，将处理后各个数据类汇总生成模型构建数据集合；

7、对处理后的数据做特征识别，由样本数据训练获取增强式记忆网络，并基于 transformer的语言模型训练获取相应的语言沟通模型，将训练后的增强式记忆网络和语言沟通模型结合，生成 npc回复模型；

8、收集客服系统内的 npc回复模型在各个账号中的使用状态数据并构建反馈数据集合，由反馈数据集合构建反馈系数，将若干个反馈系数汇总并构建 npc回复模型的可靠度，若可靠度低于可靠度阈值，向外部发出模型优化指令；

9、由模型优化知识图谱给出模型优化策略，依据模型优化策略对 npc回复模型进行优化，依据优化后 npc回复模型的使用状态数据构建可靠度集合，并由可靠度集合生成优化度，依据优化度对 npc回复模型作相应性处理。

10、进一步的，在子周期内查询每个账号与客户间的沟通记录，沟通记录中获取对不同客户沟通状态数据；包括：对不同客户之间的沟通记录做相似度分析，获取当前客户与其余客户回复记录之间不相似度的均值，以其作为差异度，并统计给各个客户的内容回复量；将获取的差异度及回复量汇总后，汇总后构建差异数据集合。

11、进一步的，由差异数据集合构建差异系数，方式如下：对差异度及回复量做线性归一化处理后，将相应的数据值映射至区间内，依照如下方式：

12、其中，，为当前账号接入客户的个数，为差异度均值，为回复量均值，权重系数：，且。

13、进一步的，接收到数据采集指令后，收集与 npc相关的目标数据，将采集的目标数据依据类别进行归类和初步预处理，获取预处理数据类；

14、对获取的预处理数据类中的数据做数据质量分析，并获取相应的数据分析指标，从分析指标中获取标准分数及偏度系数本文档来自技高网...

【技术保护点】

1.基于记忆强化算法结合大模型驱动实现个性化NPC的方法，其特征在于：包括，

2.根据权利要求1所述的基于记忆强化算法结合大模型驱动实现个性化NPC的方法，其特征在于：在子周期内查询每个账号与客户间的沟通记录，沟通记录中获取对不同客户沟通状态数据；包括：对不同客户之间的沟通记录做相似度分析，获取当前客户与其余客户回复记录之间不相似度的均值，以其作为差异度，并统计给各个客户的内容回复量；将获取的差异度及回复量汇总后，汇总后构建差异数据集合。

3.根据权利要求2所述的基于记忆强化算法结合大模型驱动实现个性化NPC的方法，其特征在于：由差异数据集合构建差异系数，方式如下：对差异度及回复量做线性归一化处理后，将相应的数据值映射至区间内，依照如下方式：

4.根据权利要求1所述的基于记忆强化算法结合大模型驱动实现个性化NPC的方法，其特征在于：接收到数据采集指令后，收集与NPC相关的目标数据，将采集的目标数据依据类别进行归类和初步预处理，获取预处理数据类；

5.根据权利要求4所述的基于记忆强化算法结合大模型驱动实现个性化NPC的方法，其特征在于

6.根据权利要求1所述的基于记忆强化算法结合大模型驱动实现个性化NPC的方法，其特征在于：对模型构建数据集合内各类数据进行特征识别，获取相应的数据特征，从数据特征中确定出用于描述NPC模型环境和对话状态的目标变量将目标变量组合成为状态向量，作为增强式记忆网络的输入，构成状态空间；为NPC的行为设计动作空间，包括回复的内容，情感表达，或者其他与对话相关的行为，确定NPC可选动作的类型和数量，在对话系统中设计奖励函数；

7.根据权利要求6所述的基于记忆强化算法结合大模型驱动实现个性化NPC的方法，其特征在于：在各个子周期内收集NPC回复模型的使用状态数据，包括NPC回复模型在使用的响应速度和回复内容时的准确率；将客服系统内各个账号的响应速度及准确率汇总后，构建NPC回复模型的使用状态反馈数据集合；由反馈数据集合构建反馈系数，以获取的反馈系数对各个账号进行标注。

8.根据权利要求7所述的基于记忆强化算法结合大模型驱动实现个性化NPC的方法，其特征在于：在获取各个账号的反馈系数后，将若干个反馈系数汇总，依照如下方式构建NPC回复模型的可靠度：

9.根据权利要求1所述的基于记忆强化算法结合大模型驱动实现个性化NPC的方法，其特征在于：接收到模型优化指令后，获取NPC回复模型的各项参数及运行状态数据，对以上参数或数据进行特征识别，获取相应的优化特征；预先构建模型优化知识图谱，依据优化特征与优化策略间的对应性，由模型优化知识图谱给出模型优化策略；执行所述模型优化策略，对NPC回复模型的各项参数进行优化。

10.根据权利要求9所述的基于记忆强化算法结合大模型驱动实现个性化NPC的方法，其特征在于：观察NPC回复模型的使用状态，于各个观察子周期内获取相应的可靠度，汇总后构建可靠度集合，由可靠度集合获取相应的优化度，若获取的优化度低于优化度阈值，发出策略优化指令；

...

【技术特征摘要】

1.基于记忆强化算法结合大模型驱动实现个性化npc的方法，其特征在于：包括，

2.根据权利要求1所述的基于记忆强化算法结合大模型驱动实现个性化npc的方法，其特征在于：在子周期内查询每个账号与客户间的沟通记录，沟通记录中获取对不同客户沟通状态数据；包括：对不同客户之间的沟通记录做相似度分析，获取当前客户与其余客户回复记录之间不相似度的均值，以其作为差异度，并统计给各个客户的内容回复量；将获取的差异度及回复量汇总后，汇总后构建差异数据集合。

3.根据权利要求2所述的基于记忆强化算法结合大模型驱动实现个性化npc的方法，其特征在于：由差异数据集合构建差异系数，方式如下：对差异度及回复量做线性归一化处理后，将相应的数据值映射至区间内，依照如下方式：

4.根据权利要求1所述的基于记忆强化算法结合大模型驱动实现个性化npc的方法，其特征在于：接收到数据采集指令后，收集与npc相关的目标数据，将采集的目标数据依据类别进行归类和初步预处理，获取预处理数据类；

5.根据权利要求4所述的基于记忆强化算法结合大模型驱动实现个性化npc的方法，其特征在于：在接收到异常数据筛选指令后，构建异常阈值，若低质量数据组内的数据值不在异常阈值之内，将其确定为异常数据；计算出低质量数据类中异常数据的异常度，方式如下：

6.根据权利要求1所述的基于记忆强化算法结合大模型驱动实现个性化npc的方法，其特征在于：对模型构建数据集合内各类数据进行特征识别，获取相应的数据特征，从数据特征中确定出用于描述npc模型环境和对话状态的目标变量将目标变量组合成...

【专利技术属性】
技术研发人员：胡睿，
申请(专利权)人：国维技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人