评价方法技术

技术编号:39675856 阅读:12 留言:0更新日期:2023-12-11 18:42
本公开提供一种评价方法

【技术实现步骤摘要】
评价方法、装置及设备


[0001]本公开涉及人工智能领域,尤其涉及评价方法

装置及设备


技术介绍

[0002]现如今,生成模型已广泛应用于多个领域,诸如在线教育领域

游戏领域

智能家居领域等多种领域都会采用生成模型生成用户所需的文本

图片等多媒体信息

在生成模型的训练场景或者不同生成模型的比对场景等多种场景下都需要对生成模型输出的信息进行评价

然而,相关技术中大多需要借助全人工对模型的输出信息进行评价,所需成本较高,评价效果不佳


技术实现思路

[0003]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种评价方法

装置及设备

[0004]根据本公开的一方面,提供了一种评价方法,包括:获取目标生成模型针对提示信息所生成的输出信息;将所述目标生成模型对应的提示信息以及输出信息输入至目标评价模型;其中,所述目标评价模型包括多个评价子模型以及与所述多个评价子模型分别相连的综合子模型;基于所述提示信息,通过所述多个评价子模型分别对所述目标生成模型的输出信息进行评价,以得到所述目标生成模型的输出信息对应的多个评价结果;通过所述综合子模型对所述目标生成模型的输出信息对应的多个评价结果进行综合处理,以得到所述目标生成模型的输出信息对应的模型评价结果

[0005]根据本公开的另一方面,提供了一种评价装置,包括:信息获取模块,用于获取目标生成模型针对提示信息所生成的输出信息;信息输入模块,用于将所述目标生成模型对应的提示信息以及输出信息输入至目标评价模型;其中,所述目标评价模型包括多个评价子模型以及与所述多个评价子模型分别相连的综合子模型;第一评价模块,用于基于所述提示信息,通过所述多个评价子模型分别对所述目标生成模型的输出信息进行评价,以得到所述目标生成模型的输出信息对应的多个评价结果;第二评价模块,用于通过所述综合子模型对所述目标生成模型的输出信息对应的多个评价结果进行综合处理,以得到所述目标生成模型的输出信息对应的模型评价结果

[0006]根据本公开的另一方面,提供了一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行所述的评价方法

[0007]本公开实施例中提供的上述技术方案,能够利用目标评价模型对目标生成模型的输出信息进行评价,其中,目标评价模型中的多个评价子模型可以分别对目标生成模型的输出信息进行评价,得到目标生成模型的输出信息对应的多个评价结果;然后目标评价模型中的综合子模型可以对目标生成模型的输出信息对应的多个评价结果进行综合处理,以得到目标生成模型的输出信息对应的模型评价结果

上述方式利用评价模型即可实现对生
成模型的智能化评价,无需人工评价,可以较好地降低评价成本,另外,上述目标评价模型是通过将多个评价子模型的评价结果进行综合的方式得到最终的模型评价结果,可靠性更强

[0008]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围

本公开的其它特征将通过以下的说明书而变得容易理解

附图说明
[0009]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理

[0010]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图

[0011]图1为本公开实施例提供的一种评价方法的流程示意图;
[0012]图2为本公开实施例提供的一种评价模型的结构示意图;
[0013]图3为本公开实施例提供的一种一阶段示意图;
[0014]图4为本公开实施例提供的一种二三阶段示意图;
[0015]图5为本公开实施例提供的一种四五阶段示意图;
[0016]图6为本公开实施例提供的一种模型评价示意图;
[0017]图7为本公开实施例提供的一种评价装置的结构示意图;
[0018]图8为本公开实施例提供的一种电子设备的结构示意图

具体实施方式
[0019]下面将参照附图更详细地描述本公开的实施例

虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开

应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围

[0020]应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和
/
或并行执行

此外,方法实施方式可以包括附加的步骤和
/
或省略执行示出的步骤

本公开的范围在此方面不受限制

[0021]本公开使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。
术语“基于”是“至少部分地基于”。
术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。
其他术语的相关定义将在下文描述中给出

需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置

模块或单元进行区分,并非用于限定这些装置

模块或单元所执行的功能的顺序或者相互依存关系

[0022]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0023]为了能够更清楚地理解本公开的上述目的

特征和优点,下面将对本公开的方案进行进一步描述

需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可
以相互组合

[0024]在人工智能领域中,通常会采用网络模型执行目标任务,因此需要对网络模型进行训练,调整网络模型的参数,以提示网络模型的性能,从而可以可靠地执行相应的任务

诸如图像识别任务

翻译任务等,通常都可以较为方便地衡量执行相应任务的网络模型的性能优劣,对网络模型进行评价,从而便于对网络模型进一步训练调优

然而,对于执行诸如图像生成任务

对话生成任务等任务的生成模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种评价方法,包括:获取目标生成模型针对提示信息所生成的输出信息;将所述目标生成模型对应的提示信息以及输出信息输入至目标评价模型;其中,所述目标评价模型包括多个评价子模型以及与所述多个评价子模型分别相连的综合子模型;基于所述提示信息,通过所述多个评价子模型分别对所述目标生成模型的输出信息进行评价,以得到所述目标生成模型的输出信息对应的多个评价结果;通过所述综合子模型对所述目标生成模型的输出信息对应的多个评价结果进行综合处理,以得到所述目标生成模型的输出信息对应的模型评价结果
。2.
如权利要求1所述的评价方法,其中,所述目标评价模型是按照如下步骤训练得到的:获取第一训练样本集;其中,所述第一训练样本集包含有第一提示样本

预设生成模型基于所述第一提示样本生成的第一输出样本以及所述第一输出样本对应的预标注的人工评价标签;利用所述第一训练样本集对初始评价模型进行训练,以得到基础评价模型;基于所述基础评价模型得到目标评价模型
。3.
如权利要求2所述的评价方法,其中,所述基于所述基础评价模型得到目标评价模型的步骤,包括:获取目标输出信息对应的用户评价结果;其中,所述目标输出信息是目标平台上发布的生成模型针对用户输入的提示信息所生成并展示给用户的信息;基于所述目标输出信息及所述目标输出信息对应的用户评价结果,得到第二训练样本集;其中,所述目标输出信息用于作为所述第二训练样本集的第二输出样本,所述目标输出信息对应的提示信息用于作为所述第二训练样本集的第二提示样本,所述用户评价结果用于确定所述第二输出样本对应的评价标签;利用所述第二训练样本集对所述基础评价模型进行训练,以得到目标评价模型
。4.
如权利要求3所述的评价方法,其中,所述目标平台上发布的生成模型是基于如下步骤得到的:获取第三训练样本集;所述第三训练样本集包含有第三提示样本以及所述第三提示样本对应的第三输出样本;利用所述第三训练样本集对初始生成模型进行训练,以得到多个不同版本的生成模型;从所述多个不同版本的生成模型中选取用于发布至目标平台的生成模型
。5.
如权利要求4所述的评价方法,其中,所述获取第三训练样本集的步骤,包括:获取原始样本集;所述原始样本集包含有原始提示样本以及所述原始提示样本对应的原始输出样本;基于所述原始提示样本,采用所述基础评价模型对所述原始输出样本进行评价,得到所述原始输出样本对应的模型评价结果;基于所述原始输出样本对应的模型评价结果,对所述原始样本集中的样本进行筛选,以得到第三训练样本集;所述第三训练样本集中的第三输出样本对应的模型评价结果优于所述原始样本集中未选入所述第三训练样本集的其它原始输出样本对应的模型评价结果

6.
如权利要求4所述的评价方法,其中,所述从所述多个不同版本的生成模型中选取用于发布至目标平台的生成模型的步骤,包括:获取所述多个不同版本的生成模型针对预设的目标提示样本生成的输出信息;基于所述目标提示样本,采用所述基础评价模型对所述不同版本的生成模型各自对应的输出信息进行评价,以得到所述多个不同版本的生成模型各自对应的模型评价结果;基于所述多个不同版本的生成模型各自对应的模型评价结果,从所述多个不同版本的生成模型中选取用于发布至目标平台的生成模型;其中,选取的生成模型对应的模型评价结果优于未被选取的生成模型
。7.
如权利要求3所述的评价方法,其中,所述基于所述目标输出信息及所述目标输出信息对应的用户评价结果,得到第二训练样本集的步骤,包括:通过所述基础评价模型对所述目标输出信息进行评价,得到所述目标输出信息对应的模型评价结果;基于所述目标输出信息对应的模型评价结果和所述目标输出信息对应的用户评价结果,得到第二训练样本集
。8.
如权利要求7所述...

【专利技术属性】
技术研发人员:陈斌涛张军涛吕本伟杨涛
申请(专利权)人:北京新唐思创教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1