模型评估方法、模型评估系统、数据处理设备及存储介质技术方案

技术编号:32856614 阅读:60 留言:0更新日期:2022-03-30 19:28
本说明书实施例提供模型评估方法、模型评估系统、数据处理设备及存储介质,其中,所述模型评估方法包括:获取评估样本集,其中,所述评估样本集包括:多个评估文本和相应的多个参考分数;基于当前的文本评分模型,对各所述评估文本进行分数预测,得到相应的预测分数;至少获取多个所述预测分数和多个所述参考分数之间的分布相关信息,得到模型评估数据;基于所述模型评估数据,评估所述文本评分模型是否合格。采用上述方案,可以增加对于模型分数分布能力的关注度,从而提高文本评分模型的性能评估结果的准确性。估结果的准确性。估结果的准确性。

【技术实现步骤摘要】
模型评估方法、模型评估系统、数据处理设备及存储介质


[0001]本说明书实施例涉及自然语言处理
,尤其涉及一种模型评估方法、模型评估系统、数据处理设备及存储介质。

技术介绍

[0002]传统的作文评分是通过人工的方式进行的,但是,人工评分需要耗费大量人力,且人工评分的主观性较强。
[0003]随着计算机科学与技术的发展,自动化信息处理能力和水平也得到了显著的提升,自动作文评分(Automated Essay Scoring,AES)技术应运而生。
[0004]AES技术主要可以分为传统AES方法和基于深度学习的AES方法。其中,传统AES方法通过人工提取文本中与打分相关的数据,并使用文本评分模型进行分数预测。
[0005]基于深度学习的AES方法提供了一种端到端(End

to

End)的方案,将文本输入基于深度学习的文本评分模型后,文本评分模型会自动进行分数预测,并输出评分结果。
[0006]然而,现有的文本评分模型不一定能够适配各种复杂多变的应用领域,若在不了解文本评分模型性能的情况下冒然使用,容易导致较高的错误率。

技术实现思路

[0007]有鉴于此,本说明书实施例提供一种模型评估方法、模型评估系统、数据处理设备及存储介质,可以增加对于模型分数分布能力的关注度,从而提高文本评分模型的性能评估结果的准确性。
[0008]具体地,本说明书实施例提供了一种模型评估方法,包括:
[0009]获取评估样本集,其中,所述评估样本集包括:多个评估文本和相应的多个参考分数;
[0010]基于当前的文本评分模型,对各所述评估文本进行分数预测,得到相应的预测分数;
[0011]至少获取多个所述预测分数和多个所述参考分数之间的分布相关信息,得到模型评估数据;
[0012]基于所述模型评估数据,评估所述文本评分模型是否合格。
[0013]可选地,所述至少获取多个所述预测分数和多个所述参考分数之间与分数分布相关信息,得到模型评估数据,包括以下任意一个步骤:
[0014]获取多个所述预测分数和多个所述参考分数之间的分布相关信息,作为所述模型评估数据;
[0015]获取多个所述预测分数和多个所述参考分数之间的分布相关信息和分数变化相关信息;并为所述分布相关信息和分数变化相关信息分配权重,得到所述模型评估数据。
[0016]可选地,获取多个所述预测分数和多个所述参考分数之间的分数变化相关信息,包括以下至少一个步骤:
[0017]获取多个所述预测分数和多个所述参考分数之间的样本分数误差信息;
[0018]获取多个所述预测分数和多个所述参考分数之间的样本分数排序信息。
[0019]可选地,所述模型评估方法还包括:
[0020]在判定所述文本评分模型不合格后,调整所述文本评分模型的参数,并调整所述分布相关信息对应的权重和所述分数变化相关信息对应的权重中至少一个权重;
[0021]基于所述评估样本集和调整后的权重,评估调整后的文本评分模型,直至满足预设的评估结束条件后停止。
[0022]可选地,所述为所述分布相关信息和分数变化相关信息分配权重,得到所述模型评估数据,包括:
[0023]为所述分布相关信息和分数变化相关信息分配多组权重,得到对应的多个所述模型评估数据,以分别用于评估。
[0024]可选地,所述模型评估方法还包括:
[0025]在基于至少一个模型评估数据判定所述文本评分模型不合格后,调整所述文本评分模型的参数,并基于所述评估样本集和对应的至少一个权重集合,评估调整后的文本评分模型是否合格,直至满足预设的评估结束条件后停止。
[0026]可选地,所述模型评估方法还包括:
[0027]在停止评估后,存储对应的权重,以在后续评估相同架构的文本评分模型时调用。
[0028]可选地,所述模型评估方法还包括:
[0029]在判定所述文本评分模型不合格后,基于多个所述评估文本相应的预测分数和相应的参考分数、以及所述模型评估数据的获得方式,对所述文本评分模型的参数进行调整,并通过所述评估样本集,对调整后的文本评分模型进行评估,直至满足评估结束条件后停止。
[0030]可选地,所述获取多个所述预测分数和多个所述参考分数之间的误差分布信息,包括:
[0031]通过分布误差算法,获取多个所述预测分数和多个所述参考分数之间的误差分布信息。
[0032]本说明书实施例还提供一种模型评估系统,包括:
[0033]获取单元,适于获取评估样本集,其中,所述评估样本集包括:多个评估文本和相应的多个参考分数;
[0034]分数预测单元,适于基于当前的文本评分模型,对各所述评估文本进行分数预测,得到相应的预测分数;
[0035]模型评估单元,适于至少获取多个所述预测分数和多个所述参考分数之间的分布相关信息,得到模型评估数据,并基于所述模型评估数据,评估所述文本评分模型是否合格。
[0036]本说明书实施例还提供一种数据处理设备,包括存储器和处理器;其中,所述存储器适于存储一条或多条计算机指令,所述处理器运行所述计算机指令时执行以上任一实施例所述模型评估方法的步骤。
[0037]本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行以上任一实施例所述模型评估方法的步骤。
[0038]采用本说明书实施例提供的模型评估方案,在获取评估样本集之后,可以基于当前的文本评分模型,对所述评估样本集中各评估文本进行分数预测,得到相应的预测分数;然后至少获取多个所述预测分数和多个所述参考分数之间的分布相关信息,得到模型评估数据,基于此,评估所述文本评分模型是否合格。由上可知,模型评估数据包含多个所述预测分数和多个所述参考分数之间的分布相关信息,因此可以表征多个所述预测分数和多个所述参考分数在分数分布层面的差异程度,从而可以增加对于模型分数分布能力的关注度,提高文本评分模型的性能评估结果的准确性。此外,本说明书实施例提供的模型评估方案可适用于不同架构的文本评分模型,普适性强,具有广泛的应用范围。
附图说明
[0039]为了更清楚地说明本说明书实施例的技术方案,下面将对本说明书实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]图1为本说明书实施例提供的一种模型评估方法的流程图。
[0041]图2为本说明书实施例提供的一种模型评估系统的结构框图。
[0042]图3为本说明书实施例提供的一种数据处理设备的结构框图。
具体实施方式
[0043]如
技术介绍
所述,现有的文本评分模型不一定能够适配各种复杂多变的应用领域,若在不了解文本评分模型性能的情况下冒然本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型评估方法,其特征在于,包括:获取评估样本集,其中,所述评估样本集包括:多个评估文本和相应的多个参考分数;基于当前的文本评分模型,对各所述评估文本进行分数预测,得到相应的预测分数;至少获取多个所述预测分数和多个所述参考分数之间的分布相关信息,得到模型评估数据;基于所述模型评估数据,评估所述文本评分模型是否合格。2.根据权利要求1所述的模型评估方法,其特征在于,所述至少获取多个所述预测分数和多个所述参考分数之间与分数分布相关信息,得到模型评估数据,包括以下任意一个步骤:获取多个所述预测分数和多个所述参考分数之间的分布相关信息,作为所述模型评估数据;获取多个所述预测分数和多个所述参考分数之间的分布相关信息和分数变化相关信息;并为所述分布相关信息和分数变化相关信息分配权重,得到所述模型评估数据。3.根据权利要求2所述的模型评估方法,其特征在于,获取多个所述预测分数和多个所述参考分数之间的分数变化相关信息,包括以下至少一个步骤:获取多个所述预测分数和多个所述参考分数之间的样本分数误差信息;获取多个所述预测分数和多个所述参考分数之间的样本分数排序信息。4.根据权利要求2所述的模型评估方法,其特征在于,还包括:在判定所述文本评分模型不合格后,调整所述文本评分模型的参数,并调整所述分布相关信息对应的权重和所述分数变化相关信息对应的权重中至少一个权重;基于所述评估样本集和调整后的权重,评估调整后的文本评分模型,直至满足预设的评估结束条件后停止。5.根据权利要求2所述的模型评估方法,其特征在于,所述为所述分布相关信息和分数变化相关信息分配权重,得到所述模型评估数据,包括:为所述分布相关信息和分数变化相关信息分配多组权重,得到对应的多个所述模型评估数据,以分别用于评估。6.根据权利要求5所述的模型评估方法,其特征在于,还包括:在基于至少一个模型评估数据判定所述文本评分模型不合...

【专利技术属性】
技术研发人员:王永杰
申请(专利权)人:上海流利说信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1