大语言模型的规划能力的评估方法、装置、电子设备、存储介质和计算机程序产品制造方法及图纸

技术编号:45282491 阅读:5 留言:0更新日期:2025-05-16 14:29
本公开关于大语言模型的规划能力的评估方法、装置、电子设备、存储介质和计算机程序产品,包括:将多个样本输入大语言模型,获得每个样本在每个层的表示向量并计算该层的提取率和探测准确率;计算每个样本所包含的每种类型的组成部分的信息流分数并评估该种类型的组成部分作为信息来源的可能性;获取屏蔽每个样本所包含的目标执行操作的操作结果之后的屏蔽预测结果以及屏蔽之前的未屏蔽预测结果并评估目标执行操作对输出结果的影响力。这样,通过计算模型的提取率、探测准确率、信息流分数和历史步骤的因果性影响,为模型在全局可观测的规划任务中具备短期的前瞻性未来决策能力的可解释性提供了理论支持。

【技术实现步骤摘要】

本公开涉及计算机,更具体地说,涉及大语言模型的规划能力的评估方法、装置、电子设备、存储介质和计算机程序产品


技术介绍

1、“规划”是制定一系列行动以将给定的初始状态转化为期望目标状态的过程。作为智能体的核心模块,规划已被广泛应用于许多领域,例如,具身智能、网络导航、工具使用等等。

2、相关技术中,研究人员致力于激发和评估大语言模型的规划能力。例如,他们提出提示工程和指令微调来提升大语言模型的规划能力,此外,一些研究者还构建了基准来评估大语言模型的规划能力等等。但是,尽管研究人员在上述领域取得了一些进展,但大语言模型规划能力背后的潜在机制在很大程度上仍然是一个未被探索的前沿领域。因此,探索大语言模型的潜在规划机制以确定其是否具备前瞻性规划能力成为当前亟待解决的一个问题。


技术实现思路

1、本公开提供大语言模型的规划能力的评估方法、装置、电子设备、存储介质和计算机程序产品,以至少解决上述相关技术中,难以确定大语言模型是否具备前瞻性规划能力的问题。

2、根据本公开实施例的第一方面,提供一种大语言模型的规划能力的评估方法,包括:获取多个样本,其中,每个样本包含多种类型的组成部分,所述样本为文本类型的样本;将所述多个样本输入所述大语言模型,获得所述每个样本在所述大语言模型所包含的多个层中每个层的表示向量;基于所述每个层的表示向量,计算该层的提取率和探测准确率作为第一评估参数,其中,所述提取率用于表征该层的解码头对所述每个样本所包含的多个执行操作中单个执行操作的操作结果进行准确预测的可能性,所述探测准确率用于表征该层的探针对所述每个样本所包含的多个执行操作一一对应的多个操作结果进行准确预测的可能性;针对所述每个样本,计算该样本所包含的所述多种类型的组成部分中每种类型的组成部分的信息流分数;基于所述信息流分数评估该种类型的组成部分作为所述大语言模型的输出结果的信息来源的可能性作为第二评估参数;针对所述每个样本,获取屏蔽该样本所包含的多个执行操作中的目标执行操作的操作结果之后所述大语言模型输出的屏蔽预测结果以及屏蔽之前所述大语言模型输出的未屏蔽预测结果;基于所述屏蔽预测结果和所述未屏蔽预测结果,评估所述目标执行操作对所述大语言模型的输出结果的影响力作为第三评估参数;基于所述第一评估参数、所述第二评估参数和所述第三评估参数,评估所述大语言模型的规划能力。

3、可选地,所述基于所述每个层的表示向量,计算该层的提取率,包括:将所述每个样本所包含的多个执行操作中每个执行操作的末尾分词在该层的表示向量输入该层的解码头,获得该层对应的解码结果;将所述每个样本所包含的多个执行操作中每个执行操作的末尾分词在所述多个层中最后一层的表示向量输入所述最后一层的解码头,获得最后一层对应的解码结果;针对所述每个样本包含的第i个执行操作,基于该层对应的解码结果以及所述最后一层对应的解码结果,确定所述每个样本包含的第i个执行操作在该层的一致性,其中,i=1,2,…,n,n表示所述每个样本包含的多个执行操作的数量,且n为正整数;基于所述每个样本包含的第i个执行操作在该层的一致性以及所述多个样本的数量,确定所述第i个执行操作在该层的提取率。

4、可选地,所述评估方法还包括:针对所述每个层,计算每个执行操作在该层的提取率的均值,作为用于评估所述大语言模型的规划能力的第四评估参数。

5、可选地,所述基于所述每个层的表示向量,计算该层的探测准确率,包括:将所述每个样本所包含的多个执行操作中第1个执行操作的末尾分词在该层的表示向量输入探针,获得该样本在该层的探测结果,其中,所述探测结果包含该样本所包含的多个执行操作中每个执行操作的预测结果;将所述每个样本所包含的多个执行操作中第1个执行操作的末尾分词在所述多个层中的最后一层的表示向量输入探针,获得该样本在所述最后一层的探测结果;基于所述多个样本中每个样本在该层的探测结果以及该样本在所述最后一层的探测结果,计算该层的探测准确率,其中,所述探测准确率为所述多个样本中在该层的探测结果与在所述最后一层的探测结果相一致的样本的数量在所述多个样本中所占的比率。

6、可选地,所述针对所述每个样本,计算该样本所包含的所述多种类型的组成部分中每种类型的组成部分的信息流分数,包括:针对所述每个样本,计算该样本所包含的所述多种类型的组成部分中每种类型的组成部分所包含的多个分词一一对应的多个分词信息流分数的均值,作为该种类型的组成部分的信息流分数。

7、可选地,所述基于所述信息流分数评估该种类型的组成部分作为所述大语言模型的输出结果的信息来源的可能性,包括:确定所述多个样本中每个样本所包含的所述多种类型的组成部分中对应的信息流分数最高的最高组成部分;确定所述多个样本一一对应的多个最高组成部分中每种类型的最高组成部分在所述多个最高组成部分中所占的数量比例,其中,所述数量比例越大,相应类型的组成部分作为所述大语言模型的输出结果的信息来源的可能性越高。

8、可选地,所述基于所述屏蔽预测结果和所述未屏蔽预测结果,评估所述目标执行操作对所述大语言模型的输出结果的影响力,包括:计算所述屏蔽预测结果与所述大语言模型的真实输出结果标签相一致的样本的数量在所述多个样本中所占的第一比例;计算所述未屏蔽预测结果与所述大语言模型的真实输出结果标签相一致的样本的数量在所述多个样本中所占的第二比例;计算所述第一比例和所述第二比例之间的差距;基于所述差距,评估所述目标执行操作对所述大语言模型的输出结果的影响力,其中,所述差距越大,所述目标执行操作对所述大语言模型的输出结果的影响力越大。

9、根据本公开实施例的第二方面,提供一种大语言模型的规划能力的评估装置,包括:样本获取模块,被配置为获取多个样本,其中,每个样本包含多种类型的组成部分,所述样本为文本类型的样本;第一评估参数计算模块,被配置为将所述多个样本输入所述大语言模型,获得所述每个样本在所述大语言模型所包含的多个层中每个层的表示向量;基于所述每个层的表示向量,计算该层的提取率和探测准确率作为第一评估参数,其中,所述提取率用于表征该层的解码头对所述每个样本所包含的多个执行操作中单个执行操作的操作结果进行准确预测的可能性,所述探测准确率用于表征该层的探针对所述每个样本所包含的多个执行操作一一对应的多个操作结果进行准确预测的可能性;第二评估参数计算模块,被配置为针对所述每个样本,计算该样本所包含的所述多种类型的组成部分中每种类型的组成部分的信息流分数;基于所述信息流分数评估该种类型的组成部分作为所述大语言模型的输出结果的信息来源的可能性作为第二评估参数;第三评估参数计算模块,被配置为针对所述每个样本,获取屏蔽该样本所包含的多个执行操作中的目标执行操作的操作结果之后所述大语言模型输出的屏蔽预测结果以及屏蔽之前所述大语言模型输出的未屏蔽预测结果;基于所述屏蔽预测结果和所述未屏蔽预测结果,评估所述目标执行操作对所述大语言模型的输出结果的影响力作为第三评估参数;规划能力评估模块,被配置为基于所述第一评估参数、所述第二评估本文档来自技高网...

【技术保护点】

1.一种大语言模型的规划能力的评估方法,其特征在于,包括:

2.根据权利要求1所述的评估方法,其特征在于,所述基于所述每个层的表示向量,计算该层的提取率,包括:

3.根据权利要求2所述的评估方法,其特征在于,所述评估方法还包括:

4.根据权利要求1所述的评估方法,其特征在于,所述基于所述每个层的表示向量,计算该层的探测准确率,包括:

5.根据权利要求1所述的评估方法,其特征在于,所述针对所述每个样本,计算该样本所包含的所述多种类型的组成部分中每种类型的组成部分的信息流分数,包括:

6.根据权利要求1所述的评估方法,其特征在于,所述基于所述信息流分数评估该种类型的组成部分作为所述大语言模型的输出结果的信息来源的可能性,包括:

7.根据权利要求1所述的评估方法,其特征在于,所述基于所述屏蔽预测结果和所述未屏蔽预测结果,评估所述目标执行操作对所述大语言模型的输出结果的影响力,包括:

8.一种大语言模型的规划能力的评估装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至7中任一项所述的大语言模型的规划能力的评估方法。

11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的大语言模型的规划能力的评估方法。

...

【技术特征摘要】

1.一种大语言模型的规划能力的评估方法,其特征在于,包括:

2.根据权利要求1所述的评估方法,其特征在于,所述基于所述每个层的表示向量,计算该层的提取率,包括:

3.根据权利要求2所述的评估方法,其特征在于,所述评估方法还包括:

4.根据权利要求1所述的评估方法,其特征在于,所述基于所述每个层的表示向量,计算该层的探测准确率,包括:

5.根据权利要求1所述的评估方法,其特征在于,所述针对所述每个样本,计算该样本所包含的所述多种类型的组成部分中每种类型的组成部分的信息流分数,包括:

6.根据权利要求1所述的评估方法,其特征在于,所述基于所述信息流分数评估该种类型的组成部分作为所述大语言模型的输出结果的信息...

【专利技术属性】
技术研发人员:曹鹏飞赵军刘康陈玉博门天逸
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1