应用于角色扮演推理类游戏的大语言模型的训练方法技术

技术编号:38569310 阅读:19 留言:0更新日期:2023-08-22 21:05
本申请涉及虚拟游戏技术领域,提供了一种应用于角色扮演推理类游戏的大语言模型的训练方法。该方法包括:获取目标游戏的训练数据,并生成进行上下文字级别训练的第一自回归语言任务和进行上下文句级别训练的第二自回归语言任务,其中,目标游戏为角色扮演推理类;依据第一自回归语言任务,利用训练数据对大语言模型进行上下文字级别训练;依据第二自回归语言任务,利用训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练;利用上下文字级别训练后的大语言模型在目标游戏为各个用户提供服务,收集各个用户对大语言模型提供服务的反馈,依据各个用户对大语言模型提供服务的反馈对大语言模型进行强化学习训练。务的反馈对大语言模型进行强化学习训练。务的反馈对大语言模型进行强化学习训练。

【技术实现步骤摘要】
应用于角色扮演推理类游戏的大语言模型的训练方法


[0001]本申请涉及虚拟游戏
,尤其涉及一种应用于角色扮演推理类游戏的大语言模型的训练方法。

技术介绍

[0002]近年来,各种新兴的角色扮演推理类游戏层出不穷,最受欢迎的包括剧本杀、密室逃脱等,且角色扮演推理类游戏线上化也成为一种趋势。线上角色扮演推理类游戏需要系统进行玩家配对,在人数不足时,提供人机补位,除此之外,还需要对玩家的问题进行回复。但是目前线上角色扮演推理类游戏中的智能服务(包括人机扮演角色以及对玩家的回复)千篇一律,并没有完全适应剧情发展。

技术实现思路

[0003]有鉴于此,本申请实施例提供了一种应用于角色扮演推理类游戏的大语言模型的训练方法、装置、电子设备及计算机可读存储介质,以解决现有技术中,线上角色扮演推理类游戏中的智能服务无法适应剧情发展的问题。
[0004]本申请实施例的第一方面,提供了一种应用于角色扮演推理类游戏的大语言模型的训练方法,包括:获取目标游戏的训练数据,并生成进行上下文字级别训练的第一自回归语言任务和进行上下文句级别训练的第本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种应用于角色扮演推理类游戏的大语言模型的训练方法,其特征在于,包括:获取目标游戏的训练数据,并生成进行上下文字级别训练的第一自回归语言任务和进行上下文句级别训练的第二自回归语言任务,其中,所述目标游戏为角色扮演推理类;依据第一自回归语言任务,利用所述训练数据对大语言模型进行上下文字级别训练;依据第二自回归语言任务,利用所述训练数据对所述上下文字级别训练后的大语言模型进行上下文句级别训练;利用所述上下文字级别训练后的大语言模型在所述目标游戏为各个用户提供服务,收集各个用户对所述大语言模型提供服务的反馈,依据各个用户对所述大语言模型提供服务的反馈对所述大语言模型进行强化学习训练。2.根据权利要求1所述的方法,其特征在于,依据第一自回归语言任务,利用所述训练数据对大语言模型进行上下文字级别训练,包括:将所述训练数据中的每个字输入所述大语言模型,利用所述大语言模型预测每个字的下一个字的方式对所述大语言模型进行训练;将所述训练数据中的多个连续的字输入所述大语言模型,利用所述大语言模型预测多个连续的字的下一个字的方式对所述大语言模型进行训练;其中,所述上下文字级别训练为有监督学习训练。3.根据权利要求1所述的方法,其特征在于,依据第二自回归语言任务,利用所述训练数据对所述上下文字级别训练后的大语言模型进行上下文句级别训练,包括:将所述训练数据中的每个句子输入所述大语言模型,利用所述大语言模型预测每个句子的下一个句子的方式对所述大语言模型进行训练;将所述训练数据中的多个连续的句子输入所述大语言模型,利用所述大语言模型预测多个连续的句子的下一个句子的方式对所述大语言模型进行训练;其中,所述上下文句级别训练为有监督学习训练。4.根据权利要求1所述的方法,其特征在于,依据第二自回归语言任务,利用所述训练数据对所述上下文字级别训练后的大语言模型进行上下文句级别训练,包括:将所述训练数据中的数据按照交互语义进行划分,得到多个交互回合,其中,每个交互回合包括N条数据,第i条数据和第i+1条数据互为相似句,N为奇数,第N条数据没有其对应的相似句,i为开区间(0,N)内的奇数,i+1小于N;将多个交互回合依次输入所述上下文字级别训练后的大语言模型,利用所述大语言模型预测每个交互回合中第N条数据对应的相似句的方式对所述大语言模型进行训练;其中,所述上下文句级别训练为有监督学习训练。5.根据权利要求1所述的...

【专利技术属性】
技术研发人员:汪骞暴宇健王芳
申请(专利权)人:深圳须弥云图空间科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1