评估方法技术

技术编号:39509609 阅读:8 留言:0更新日期:2023-11-25 18:45
提供了评估方法

【技术实现步骤摘要】
评估方法、装置、电子设备及计算机可读存储介质


[0001]本公开实施例涉及人工智能中的自然语言处理领域,特别涉及一种评估方法

装置

电子设备及计算机可读存储介质


技术介绍

[0002]目前,自然语言生成系统的开发在很大程度上仍然依赖于人工或人类专家来对自然语言生成系统中的神经网络模型的输出质量进行评估,其需要耗费专业人员大量的时间

此外,这样的开发方案通常依赖人类专家设计的评估标准集

然而,人类专家往往仅会为特定任务设计评估标准集,而这样的评估标准集难以统一应用到其他相似的任务中,最终导致评估结果难以复现

[0003]近年来,已经开始探索使用大型语言模型来代替人工或人类专家来评估大型语言模型的输出质量

然而这样的方案仍然存在较大的缺陷

具体而言,在利用大型语言模型往往会错误地评估涉及信息筛选的任务或核实数字的任务

此外,大型语言模型往往在评估任务中给出过于积极乐观的评分

[0004]因此,需要对基于大型语言模型的评估方案进行改进


技术实现思路

[0005]根据本公开的一方面,提供了一种评估方法,该方法包括:针对评估任务,获取由第一神经网络模型生成的评估标准集,所述评估标准集包括至少一条用于评估所述评估任务对应的测试实例的输出质量的评估标准;基于所述评估标准集,创建用于显示所述评估标准集的图形元素,并在所述图形元素上创建用于编辑或确认所述评估标准集中的评估标准的控件;响应于完成对所述评估标准集中的评估标准的确认,针对所述评估任务中的至少一个测试实例,获取由第二神经网络模型生成的评估结果;以及基于所述评估标准集和所述评估结果,创建用于显示所述测试实例的评估结果的图形元素,并在所述图形元素上创建用于编辑或确认所述测试实例的评估结果的控件

[0006]根据本公开的另一方面,提供了一种评估装置,包括处理模块和显示模块,其中:所述处理模块,被配置为:针对评估任务,获取由第一神经网络模型生成的评估标准集,所述评估标准集包括至少一条用于评估所述评估任务对应的测试实例的输出质量的评估标准;所述显示模块,被配置为:基于所述评估标准集,创建用于显示所述评估标准集的图形元素,并在所述图形元素上创建用于编辑或确认所述评估标准集中的评估标准的控件;所述处理模块,还被配置为:响应于完成对所述评估标准集中的评估标准的确认,针对所述评估任务中的至少一个测试实例,获取由第二神经网络模型生成的评估结果;以及所述显示模块,还被配置为:基于所述评估标准集和所述评估结果,创建用于显示所述测试实例的评估结果的图形元素,并在所述图形元素上创建用于编辑或确认所述测试实例的评估结果的控件

[0007]根据本公开的又一方面,还提供了一种电子设备,包括:处理器;以及存储器,其上
存储有计算机程序,该计算机程序被处理器执行时,使得所述处理器实现如上所述的评估方法的各步骤

[0008]根据本公开的另一方面,还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如上所述的评估方法的各步骤

[0009]根据本公开的又一方面,还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如上所述的评估方法的各步骤

[0010]本公开的各项实施例,通过先由第一神经网络模型生成评估标准集再由人类专家来对评估标准集进行修订,来代替人类专家针对特定任务直接制定评估标准
(
或评估标准集
)
,不仅可以生成多维度的评估标准,还增加了评分标准的一致性

从而,避免了人类专家制定评估标准时的主观性,从而得到容易复现的评估结果

本公开的各项实施例还通过使用第二神经网络模型来针对各个评估标准对测试实例的输出进行评估,并对应地给出评估过程的解释,由此增加了评估过程的可解释性

评估结果通过人机交互界面直接呈现给了人类专家,并交由人类专家对评估结果进行修订,由此可以得到可靠性更强

更为客观的评估结果

附图说明
[0011]为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图

[0012]图1示出了根据本公开实施例的应用场景的示意图

[0013]图2示出了相关技术中评估自然语言生成系统中的神经网络模型的输出质量的流程图

[0014]图3是本公开实施例提供的通信系统的架构示意图

[0015]图4示出了根据本公开实施例的评估方法的流程示意图

[0016]图5示出了根据本公开实施例的评估方法的又一示意图

[0017]图6示出了根据本公开实施例的评估方法的在第一评估阶段的界面示意图

[0018]图7示出了根据本公开实施例的评估方法的在第二评估阶段的第一界面示意图

[0019]图8示出了根据本公开实施例的评估方法的在第二评估阶段的第二界面示意图

[0020]图9示出了根据本公开实施例的评估方法的在第一评估阶段的示意图

[0021]图
10
示出了根据本公开实施例的评估方法的在第二评估阶段的示意图

[0022]图
11
示出了根据本公开实施例的评估方法与其他评估方法相比在评估标准集的设定上覆盖范围的对比图

[0023]图
12
示出了根据本公开实施例的评估方法与其他评估方法对比时的批准率

修改率

删除率和新增率

[0024]图
13
示出了根据本公开实施例的评估方法与其他评估方法相比在评估结果的校正率上的优势对比图

[0025]图
14
示出了根据本公开实施例的评估方法与其他评估方法相比在不同的人类专家在评估结果的一致性上的优势对比图

[0026]图
15
示出了根据本公开实施例的装置的结构框图

[0027]图
16
示出了根据本公开实施例的电子设备的示意性框图

[0028]图
17
示出了根据本公开的存储介质的示意图

具体实施方式
[0029]为了使得本公开的目的

技术方案和优点更为明显,下面将参照附图详细描述根据本公开本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种评估方法,包括:针对评估任务,获取由第一神经网络模型生成的评估标准集,所述评估标准集包括至少一条用于评估所述评估任务对应的测试实例的输出质量的评估标准;基于所述评估标准集,创建用于显示所述评估标准集的图形元素,并在所述图形元素上创建用于编辑或确认所述评估标准集中的评估标准的控件;响应于完成对所述评估标准集中的评估标准的确认,针对所述评估任务中的至少一个测试实例,获取由第二神经网络模型生成的评估结果;以及基于所述评估标准集和所述评估结果,创建用于显示所述测试实例的评估结果的图形元素,并在所述图形元素上创建用于编辑或确认所述测试实例的评估结果的控件
。2.
如权利要求1所述的方法,其中,所述用于编辑或确认所述评估标准集中的评估标准的控件包括以下各项中的至少一项:评估标准确认控件

评估标准删除控件

评估标准修订控件

评估标准添加控件;所述编辑或确认所述评估标准集中的评估标准包括:响应于检测到针对所述评估标准确认控件的点击事件,触发对于所述评估标准的确认;响应于检测到针对所述评估标准删除控件的点击事件,触发对于所述评估标准的删除;响应于检测到针对所述评估标准修订控件的点击事件,触发对于所述评估标准的修订;以及响应于检测到针对所述评估标准添加控件的点击事件,触发新增评估标准
。3.
如权利要求1所述的方法,其中,所述用于编辑或确认所述测试实例的评估结果的控件包括以下各项中的至少一项:评估结果确认控件

评估结果删除控件

评估结果修订控件

评估结果添加控件;所述编辑或确认所述测试实例的评估结果包括:响应于检测到针对所述评估结果确认控件的点击事件,触发对于所述评估结果有关的信息的确认;响应于检测到针对所述评估结果删除控件的点击事件,触发对于所述评估结果有关的信息的删除;响应于检测到针对所述评估结果修订控件的点击事件,触发对于所述评估结果有关的信息的修订;以及响应于检测到针对所述评估结果添加控件的点击事件,触发新增评估结果有关的信息
。4.
如权利要求1所述的方法,其中,所述创建用于显示所述评估标准集的图形元素还包括:在用于显示所述评估标准集的图形元素上创建用于显示所述评估任务有关的信息的区块,其中,所述评估任务有关的信息包括以下各项中的至少一项:评估任务的标识符

评估任务的名称

评估任务的描述

评估任务的输入

评估任务的输出
。5.
如权利要求1所述的方法,其中,所述创建用于显示所述测试实例的评估结果的图形元素还包括:
在用于显示所述测试实例的评估结果的图形元素上创建用于显示所述评估结果有关的信息的区块,其中,所述评估结果有关的信息包括以下各项中的至少一项:评估结果的描述

【专利技术属性】
技术研发人员:李沁桐闭玮崔乐阳李雅夫
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1