【技术实现步骤摘要】
大语言模型的评估方法、装置及电子设备
[0001]本申请实施例涉及计算机
,更具体地涉及一种大语言模型的评估方法
、
装置及电子设备
。
技术介绍
[0002]大语言模型
(Large Language Model
,
LLM)
,实质上是一种生成式模型
。
通过大语言模型能够为基于输入的对话信息生成相应的对话响应,因此可广泛应用于咨询
、
分析
、
聊天等场景
。
[0003]对于大语言模型而言,如何评估模型在人机对话中的表现,是一个基础问题之一
。
针对大语言模型的对话表现评估,主要评估的是大语言模型的对话交互能力
。
比如,基于大语言模型在不同情境中的反应和行为特征,对大语言模型的理解能力
、
生成能力
、
逻辑推理能力
、
情感理解能力等多个方面进行评价分析
。
[0004]相关技术中,通过大语言模型输出的对话信息可以评估模型的对话交互能力
。
然而,由于大语言模型的输出具有不可预见性,即使输入相同信息,模型输出的对话信息也会因每次预测得到的概率不同而存在一定差异,使得基于单次对话信息得到的评估结果出现偏差,影响评估结果的准确性,增加模型评估的难度
。
为了消除上述随机性偏差,相关技术中,通常需要多个评估者人工评判,并交叉验证评判结果,以保证在消除随机性偏差的 ...
【技术保护点】
【技术特征摘要】
1.
一种大语言模型的评估方法,其特征在于,包括:获取待评估模型的多个对话数据组;其中,所述待评估模型为大语言模型;各个对话数据组中包含输入信息以及对应的应答信息;各个对话数据组中应答信息由所述待评估模型基于输入信息生成;所述多个对话数据组中存在至少两组的输入信息相同而应答信息不同;以所述多个对话数据组作为评估模型的输入,通过所述评估模型对所述多个对话数据组执行矩阵预算采样处理,得到所述多个对话数据组的评估分数;其中,所述评估模型为参数容量大于所述待评估模型的大语言模型;所述评估分数表征各个对话数据组的对话质量;所述评估分数与各个对话数据组的对话质量成正比;对所述多个对话数据组的评估分数进行一致性分析;若一致性分析结果满足预先设置的可靠性条件,则以所述多个对话数据组的评估分数,作为所述待评估模型的目标评估分数
。2.
如权利要求1所述的方法,其特征在于,所述获取待评估模型的多个对话数据组,包括:从测试数据集中拆分多个对话样本;以各个对话样本中的输入信息作为所述待评估模型的输入,通过所述待评估模型对各个输入信息进行预测,得到各个输入信息对应的多个应答信息;将各个输入信息与各自对应的应答信息组合为多个对话数据组;各个对话数据组中包含一个输入信息以及对应的至少一个应答信息
。3.
如权利要求2所述的方法,其特征在于,所述从测试数据集中拆分多个对话样本,包括:按照发生时间从所述测试数据集中提取多个回合的对话信息;将首个回合中用户输入的对话信息作为第一输入信息,响应所述第一输入信息的对话信息作为第一回复信息,得到由所述第一输入信息以及所述第一回复信息组成的第一对话样本;将非首个回合中用户输入的对话信息以及历史上文信息组合为第二输入信息,响应所述第二输入信息的对话信息作为第二回复信息,得到由所述第二输入信息以及所述第二回复信息组成的第二对话样本;所述历史上文信息包括发生时间早于当前回合的所有对话信息
。4.
如权利要求1所述的方法,其特征在于,所述以所述多个对话数据组作为评估模型的输入,通过所述评估模型对所述多个对话数据组执行矩阵预算采样处理,得到所述多个对话数据组的评估分数,包括:将所述多个对话数据组输入所述评估模型中;采用所述评估模型对各个对话数据组进行矩阵运算推理,得到各个对话数据组在多个评分维度下的评估分数;所述以所述多个对话数据组的评估分数,作为所述待评估模型的目标评估分数,包括:以各个对话数据组在多个评分维度下的评估分数的均值,作为所述待评估模型的目标评估分数;其中,多个评分维度包括以下至少一个:上下文相关性
、
语言流畅度
、
信息量
、
合理性
、
实用性
、
无害性
。5.
如权利要求4所述的方法,其特征在于,所述以所述多个对话数据组作为评估模型的输入,通过所述评估模型对所述多个对话数据组执行矩阵预算采样处理,得到所述多个对话数据组的评估分数之前,还包括:确定用于构建所述评估模型的基座模型;所述基座模型的参数容量与所述待评估模型的参数容量之间呈设定倍数;获取用于训练所述评估模型的训练数据集;所述训练数据集包括多个特征数据;所述多个特征数据标注有...
【专利技术属性】
技术研发人员:杨家铭,郑叔亮,李文珏,
申请(专利权)人:北京聆心智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。