【技术实现步骤摘要】
评估方法、装置、电子设备及计算机可读存储介质
[0001]本公开实施例涉及人工智能中的自然语言处理领域,特别涉及一种评估方法
、
装置
、
电子设备及计算机可读存储介质
。
技术介绍
[0002]目前,自然语言生成系统的开发在很大程度上仍然依赖于人工或人类专家来对自然语言生成系统中的神经网络模型的输出质量进行评估,其需要耗费专业人员大量的时间
。
此外,这样的开发方案通常依赖人类专家设计的评估标准集
。
然而,人类专家往往仅会为特定任务设计评估标准集,而这样的评估标准集难以统一应用到其他相似的任务中,最终导致评估结果难以复现
。
[0003]近年来,已经开始探索使用大型语言模型来代替人工或人类专家来评估大型语言模型的输出质量
。
然而这样的方案仍然存在较大的缺陷
。
具体而言,在利用大型语言模型往往会错误地评估涉及信息筛选的任务或核实数字的任务
。
此外,大型语言模型往往在评估任务中给出过于积极乐观的评分
。
[0004]因此,需要对基于大型语言模型的评估方案进行改进
。
技术实现思路
[0005]根据本公开的一方面,提供了一种评估方法,该方法包括:针对评估任务,获取由第一神经网络模型生成的评估标准集,所述评估标准集包括至少一条用于评估所述评估任务对应的测试实例的输出质量的评估标准;基于所述评估标准集,创建用于显示所述评估标准集的图形元素,并在 ...
【技术保护点】
【技术特征摘要】
1.
一种评估方法,包括:针对评估任务,获取由第一神经网络模型生成的评估标准集,所述评估标准集包括至少一条用于评估所述评估任务对应的测试实例的输出质量的评估标准;基于所述评估标准集,创建用于显示所述评估标准集的图形元素,并在所述图形元素上创建用于编辑或确认所述评估标准集中的评估标准的控件;响应于完成对所述评估标准集中的评估标准的确认,针对所述评估任务中的至少一个测试实例,获取由第二神经网络模型生成的评估结果;以及基于所述评估标准集和所述评估结果,创建用于显示所述测试实例的评估结果的图形元素,并在所述图形元素上创建用于编辑或确认所述测试实例的评估结果的控件
。2.
如权利要求1所述的方法,其中,所述用于编辑或确认所述评估标准集中的评估标准的控件包括以下各项中的至少一项:评估标准确认控件
、
评估标准删除控件
、
评估标准修订控件
、
评估标准添加控件;所述编辑或确认所述评估标准集中的评估标准包括:响应于检测到针对所述评估标准确认控件的点击事件,触发对于所述评估标准的确认;响应于检测到针对所述评估标准删除控件的点击事件,触发对于所述评估标准的删除;响应于检测到针对所述评估标准修订控件的点击事件,触发对于所述评估标准的修订;以及响应于检测到针对所述评估标准添加控件的点击事件,触发新增评估标准
。3.
如权利要求1所述的方法,其中,所述用于编辑或确认所述测试实例的评估结果的控件包括以下各项中的至少一项:评估结果确认控件
、
评估结果删除控件
、
评估结果修订控件
、
评估结果添加控件;所述编辑或确认所述测试实例的评估结果包括:响应于检测到针对所述评估结果确认控件的点击事件,触发对于所述评估结果有关的信息的确认;响应于检测到针对所述评估结果删除控件的点击事件,触发对于所述评估结果有关的信息的删除;响应于检测到针对所述评估结果修订控件的点击事件,触发对于所述评估结果有关的信息的修订;以及响应于检测到针对所述评估结果添加控件的点击事件,触发新增评估结果有关的信息
。4.
如权利要求1所述的方法,其中,所述创建用于显示所述评估标准集的图形元素还包括:在用于显示所述评估标准集的图形元素上创建用于显示所述评估任务有关的信息的区块,其中,所述评估任务有关的信息包括以下各项中的至少一项:评估任务的标识符
、
评估任务的名称
、
评估任务的描述
、
评估任务的输入
、
评估任务的输出
。5.
如权利要求1所述的方法,其中,所述创建用于显示所述测试实例的评估结果的图形元素还包括:
在用于显示所述测试实例的评估结果的图形元素上创建用于显示所述评估结果有关的信息的区块,其中,所述评估结果有关的信息包括以下各项中的至少一项:评估结果的描述
、
【专利技术属性】
技术研发人员:李沁桐,闭玮,崔乐阳,李雅夫,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。