大语言模型的评估方法技术

技术编号:39580515 阅读:6 留言:0更新日期:2023-12-03 19:31
本申请提供了一种大语言模型的评估方法

【技术实现步骤摘要】
大语言模型的评估方法、装置及电子设备


[0001]本申请实施例涉及计算机
,更具体地涉及一种大语言模型的评估方法

装置及电子设备


技术介绍

[0002]大语言模型
(Large Language Model

LLM)
,实质上是一种生成式模型

通过大语言模型能够为基于输入的对话信息生成相应的对话响应,因此可广泛应用于咨询

分析

聊天等场景

[0003]对于大语言模型而言,如何评估模型在人机对话中的表现,是一个基础问题之一

针对大语言模型的对话表现评估,主要评估的是大语言模型的对话交互能力

比如,基于大语言模型在不同情境中的反应和行为特征,对大语言模型的理解能力

生成能力

逻辑推理能力

情感理解能力等多个方面进行评价分析

[0004]相关技术中,通过大语言模型输出的对话信息可以评估模型的对话交互能力

然而,由于大语言模型的输出具有不可预见性,即使输入相同信息,模型输出的对话信息也会因每次预测得到的概率不同而存在一定差异,使得基于单次对话信息得到的评估结果出现偏差,影响评估结果的准确性,增加模型评估的难度

为了消除上述随机性偏差,相关技术中,通常需要多个评估者人工评判,并交叉验证评判结果,以保证在消除随机性偏差的同时,不会引入因人工评判而带来的主观偏差

这种评估方式不仅成本较高,还难以保证评估效率,不利于模型的开发

优化

[0005]因此,需要设计一种全新的解决方案,用以解决上述技术问题


技术实现思路

[0006]本申请实施例提供了一种改进的一种大语言模型的评估方法

装置及电子设备,用以实现大语言模型的自动化评估,消除随机性偏差,降低模型评估难度,提升模型评估的准确性,提高模型评估效率

[0007]本申请的实施例期望提供一种大语言模型的评估方法

装置及电子设备

[0008]在本申请的第一方面中,提供了一种大语言模型的评估方法,包括:
[0009]获取待评估模型的多个对话数据组;其中,所述待评估模型为大语言模型;各个对话数据组中包含输入信息以及对应的应答信息;各个对话数据组中应答信息由所述待评估模型基于输入信息生成;所述多个对话数据组中存在至少两组的输入信息相同而应答信息不同;
[0010]以所述多个对话数据组作为评估模型的输入,通过所述评估模型对所述多个对话数据组执行矩阵预算采样处理,得到所述多个对话数据组的评估分数;其中,所述评估模型为参数容量大于所述待评估模型的大语言模型;所述评估分数表征各个对话数据组的对话质量;所述评估分数与各个对话数据组的对话质量成正比;
[0011]对所述多个对话数据组的评估分数进行一致性分析;
[0012]若一致性分析结果满足预先设置的可靠性条件,则以所述多个对话数据组的评估分数,作为所述待评估模型的目标评估分数

[0013]在本申请的第二方面中,提供了一种大语言模型的评估装置,所述装置包括:
[0014]输入模块,用于获取待评估模型的多个对话数据组;其中,所述待评估模型为大语言模型;各个对话数据组中包含输入信息以及对应的应答信息;各个对话数据组中应答信息由所述待评估模型基于输入信息生成;所述多个对话数据组中存在至少两组的输入信息相同而应答信息不同;
[0015]评分模块,用于以所述多个对话数据组作为评估模型的输入,通过所述评估模型对所述多个对话数据组执行矩阵预算采样处理,得到所述多个对话数据组的评估分数;其中,所述评估模型为参数容量大于所述待评估模型的大语言模型;所述评估分数表征各个对话数据组的对话质量;所述评估分数与各个对话数据组的对话质量成正比;
[0016]分析模块,用于对所述多个对话数据组的评估分数进行一致性分析;
[0017]输出模块,用于若一致性分析结果满足预先设置的可靠性条件,则以所述多个对话数据组的评估分数,作为所述待评估模型的目标评估分数

[0018]在本申请的第三方面中,提供了一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行第四方面中所述的大语言模型的评估方法

[0019]在本申请的第四方面中,提供了一种计算设备,被配置为:存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现第四方面中所述的大语言模型的评估方法

[0020]本申请实施例提供的技术方案中,对于需要评估的大语言模型,即待评估模型,首先需要获取待评估模型的多个对话数据组

其中,各个对话数据组中包含输入信息以及对应的应答信息,各个对话数据组中应答信息由待评估模型基于输入信息生成

此处,多个对话数据组中存在至少两组的输入信息相同而应答信息不同,为消除模型的随机性偏差提供数据基础

进而,以多个对话数据组作为评估模型的输入,通过评估模型对多个对话数据组执行矩阵预算采样处理,得到多个对话数据组的评估分数

此处,评估模型为参数容量大于待评估模型的大语言模型,以保证评估模型具备足够的参数容量,能够更好地学习

表示数据的复杂性和多样性

此处,评估模型得到的评估分数用于表征各个对话数据组的对话质量,其中,评估分数与各个对话数据组的对话质量成正比

通过评估模型对对话数据组进行对话质量评估,能够降低人工评分带来的效率不佳的问题,提高模型评估效率

并且,借由多个对话数据组中相同输入对应的不同应答信息,以及评估模型的矩阵预算采样处理,能够减少待评估模型的不可预见性对评估结果带来的扰动,消除随机性偏差,提高评估结果的准确性

最终,还需对多个对话数据组的评估分数进行一致性分析

若一致性分析结果满足预先设置的可靠性条件,则以多个对话数据组的评估分数,作为待评估模型的目标评估分数

从而,通过一致性分析能够优化模型评估结果,进一步剔除模型不可预见性带来的随机性偏差以及人为引入的主观偏差,提高评估结果的准确性

可靠性

附图说明
[0021]通过参考附图阅读下文的详细描述,本申请示例性实施例的上述以及其他目的

特征和优点将变得易于理解

在附图中,以示例性而非限制性的方式示出了本申请的若干
实施例,其中:
[0022]图1示意性地示出了根据本申请中大语言模型的评估方法的一种流程本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种大语言模型的评估方法,其特征在于,包括:获取待评估模型的多个对话数据组;其中,所述待评估模型为大语言模型;各个对话数据组中包含输入信息以及对应的应答信息;各个对话数据组中应答信息由所述待评估模型基于输入信息生成;所述多个对话数据组中存在至少两组的输入信息相同而应答信息不同;以所述多个对话数据组作为评估模型的输入,通过所述评估模型对所述多个对话数据组执行矩阵预算采样处理,得到所述多个对话数据组的评估分数;其中,所述评估模型为参数容量大于所述待评估模型的大语言模型;所述评估分数表征各个对话数据组的对话质量;所述评估分数与各个对话数据组的对话质量成正比;对所述多个对话数据组的评估分数进行一致性分析;若一致性分析结果满足预先设置的可靠性条件,则以所述多个对话数据组的评估分数,作为所述待评估模型的目标评估分数
。2.
如权利要求1所述的方法,其特征在于,所述获取待评估模型的多个对话数据组,包括:从测试数据集中拆分多个对话样本;以各个对话样本中的输入信息作为所述待评估模型的输入,通过所述待评估模型对各个输入信息进行预测,得到各个输入信息对应的多个应答信息;将各个输入信息与各自对应的应答信息组合为多个对话数据组;各个对话数据组中包含一个输入信息以及对应的至少一个应答信息
。3.
如权利要求2所述的方法,其特征在于,所述从测试数据集中拆分多个对话样本,包括:按照发生时间从所述测试数据集中提取多个回合的对话信息;将首个回合中用户输入的对话信息作为第一输入信息,响应所述第一输入信息的对话信息作为第一回复信息,得到由所述第一输入信息以及所述第一回复信息组成的第一对话样本;将非首个回合中用户输入的对话信息以及历史上文信息组合为第二输入信息,响应所述第二输入信息的对话信息作为第二回复信息,得到由所述第二输入信息以及所述第二回复信息组成的第二对话样本;所述历史上文信息包括发生时间早于当前回合的所有对话信息
。4.
如权利要求1所述的方法,其特征在于,所述以所述多个对话数据组作为评估模型的输入,通过所述评估模型对所述多个对话数据组执行矩阵预算采样处理,得到所述多个对话数据组的评估分数,包括:将所述多个对话数据组输入所述评估模型中;采用所述评估模型对各个对话数据组进行矩阵运算推理,得到各个对话数据组在多个评分维度下的评估分数;所述以所述多个对话数据组的评估分数,作为所述待评估模型的目标评估分数,包括:以各个对话数据组在多个评分维度下的评估分数的均值,作为所述待评估模型的目标评估分数;其中,多个评分维度包括以下至少一个:上下文相关性

语言流畅度

信息量

合理性

实用性

无害性
。5.
如权利要求4所述的方法,其特征在于,所述以所述多个对话数据组作为评估模型的输入,通过所述评估模型对所述多个对话数据组执行矩阵预算采样处理,得到所述多个对话数据组的评估分数之前,还包括:确定用于构建所述评估模型的基座模型;所述基座模型的参数容量与所述待评估模型的参数容量之间呈设定倍数;获取用于训练所述评估模型的训练数据集;所述训练数据集包括多个特征数据;所述多个特征数据标注有...

【专利技术属性】
技术研发人员:杨家铭郑叔亮李文珏
申请(专利权)人:北京聆心智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1