System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于认知诊断的写作大模型能力评测方法技术_技高网

基于认知诊断的写作大模型能力评测方法技术

技术编号:42613941 阅读:22 留言:0更新日期:2024-09-03 18:20
本发明专利技术公开了一种基于认知诊断的写作大模型能力评测方法,所述方法包括:步骤1、构建写作评测集,记为E={e<subgt;1</subgt;,e<subgt;2</subgt;,e<subgt;3</subgt;,…,e<subgt;M</subgt;},其中,M是题目数;步骤2、收集写作结果,并进行格式化处理及初步审核,排除不符合要求或质量低的作品;其中,将被试者集合记为S={s<subgt;1</subgt;,s<subgt;2</subgt;,s<subgt;3</subgt;,…,s<subgt;N</subgt;},N是被试者数量,被试者包含人类和写作大模型;写作结果记为T={t<subgt;se</subgt;}<subgt;N×M</subgt;,t<subgt;se</subgt;表示被试者s对于题目e的写作结果;步骤3、匿名评价;步骤4、整理评价结果得到偏序关系,训练认知诊断模型,得到模型的多维写作能力评分。该基于认知诊断的写作大模型能力评测方法能够减少评估者主观性的影响,保证评测公平性,评价结果更加精细、准确。

【技术实现步骤摘要】

本专利技术涉及计算机应用,具体地,涉及一种基于认知诊断的写作大模型能力评测方法


技术介绍

1、近年来,大语言模型(large language models,llms)的出现彻底改变了人们对自然语言处理模型能力的认知。这些模型利用大规模数据集进行预训练,并通过微调和指令来完成各种任务。其中,生成式大语言模型,如chatgpt,在许多任务上展现出与人类接近甚至超越人类的能力。这一突破性的进展不仅在学术界和工业界引起了广泛的关注,也在社会层面产生了深远的影响。写作大模型是大语言模型的一个专门用于文本生成的子类。文本生成是大语言模型最基础也是最强大的能力之一。大语言模型可以生成各种类型的文本,如文章、新闻报道、科技评论等。这对于减轻人工写作的负担,提高生产效率具有重要意义。同时,它们可以为内容创作者提供创作灵感和辅助工具,使他们能够更好地进行创作和表达。

2、然而,不同于传统的判别式任务,测评“写作”这样的生成式任务非常困难。在传统的机器学习任务中,通常使用自动评估的方式评测模型性能。所谓自动评估,即使用标准的度量指标和评估工具来评估模型的性能,例如准确率、召回率、f1等等。由于其具有客观性、简单性等优势,且能自动计算,大多数现有的评估工作都采用这种评估方式。然而,生成式任务通常没有明确的标准答案,自动评估在这些任务中变得更加困难。在生成式任务中,模型生成的结果通常是多样且主观的,很难使用传统的度量指标来衡量其质量。为了解决这个问题,一种方法是人工评估,即由人类评估者对生成的结果进行评估。评估者可以根据预先定义的标准对结果进行打分或提供反馈意见。这种评估方法能够提供更详细和准确的评估结果,但其结果往往过于主观,不同的评估者可能对同一条生成文本给出不同的评分。此外,简单的人工评估也很难刻画任务难度,不同的文本生成任务之间有着显著的难度差距,这也将导致最终评价结果的不一致性。同时,现有的评价方法也往往局限于模型之间的能力对比,而引入人类被试者,将写作大模型和人类写作者一同比较,以人类的标准评价模型才是未来评估模型的方向。


技术实现思路

1、本专利技术的目的是提供一种基于认知诊断的写作大模型能力评测方法,该基于认知诊断的写作大模型能力评测方法能够减少评估者主观性的影响,保证评测公平性,评价结果更加精细、准确。

2、为了实现上述目的,本专利技术提供了一种基于认知诊断的写作大模型能力评测方法,所述方法包括:

3、步骤1、构建写作评测集,记为e={e1,e2,e3,…,em},其中,m是题目数;

4、步骤2、收集写作结果,并进行格式化处理及初步审核,排除不符合要求或质量低的作品;其中,将被试者集合记为s={s1,s2,s3,…,sn},n是被试者数量,被试者包含人类和写作大模型;写作结果记为t={tse}n×m,tse表示被试者s对于题目e的写作结果;

5、步骤3、匿名评价;

6、步骤4、整理评价结果得到偏序关系,训练认知诊断模型,得到模型的多维写作能力评分。

7、优选地,步骤1中的写作评测集覆盖不同领域和主题,并包含多个难度级别。

8、优选地,步骤2中需收集不同水平人类的写作结果,包括专业作家、学生和日常写作者。

9、优选地,步骤3包括:

10、对比不同模型以及不同水平人类的写作结果优劣,包含各细分能力评价及整体评价;具体为将两个被试者对同一问题的写作结果,匿名给标注人员进行比较,多个标注人员同时对一个问题进行多人标注,从多个细分能力角度标注出两个结果中哪一个结果胜出或打平,以及综合多个角度的整体优劣;对于多个标注人员的标注结果,计算胜出率pwin,胜出率的计算公式如下:

11、

12、其中,nwin,ntie,nall分别表示胜出数、打平数和总的标注数,即:胜出率=(该被试者的胜出数量+打平数量/2)/总标注数;

13、将细分领域集合记为k={k1,k2,k3,…,kl},其中,l表示细分领域总数;则各细分领域的评价结果可记为五元组(e,s,s′,k,r),其中,e∈e,s,s′∈s,k∈k,r∈{-1,0,1};若r=1,则表明tse在领域k上优于ts′e;若r=-1,则表明tse在领域k上劣于ts′e;若r=0,则表示两个结果打平;同样的,综合各领域的整体评价结果可记为四元组(e,s,s′,r)。

14、优选地,步骤3中多个细分能力角度包括语法准确性、创造性、逻辑连贯性、风格一致性和主题相关性。

15、优选地,在步骤3中计算胜出率时,胜出率大于55%表示该模型显著胜出于另外一个模型,胜出率小于45%表示该模型明显落后,胜出率在45%至55%之间表示两个模型持平。

16、优选地,步骤4中包括:

17、整理步骤3得到的评价结果得到r(k)和

18、

19、

20、其中,r(k)和分别记录了细分领域k下表现和整体表现的偏序关系;

21、选取mirt作为认知诊断模型,mirt可以表示为如下形式:

22、

23、其中,θ=[θ1,θ2,θ3,…,θl]表示被试者能力,其中每一维θi表示细分领域ki的能力;a=[a1,a2,a3,…,al]表示题目区分度,b∈r表示题目难度;

24、mirt刻画了被试者的整体能力,为了对被试者细分领域下的能力进行细粒度的刻画,额外使用irt作为辅助:

25、

26、其中,θ=θk与mirt共享参数,表示细分领域k下的能力,a′,b′分别表示区分度、难度,不共享参数。

27、优选地,步骤4还包括参照item response ranking的做法,使用bpr(bayesianpersonalized ranking)作为损失函数直接优化被试者间的偏序关系,即给定一个题目e和两个被试者si,sj,bpr损失函数要求模型将表现更好的被试者si排在表现相对较差的被试者sj之前;具体的,bpr损失函数的目标是最大化以下的边际概率:

28、p(ei>j)=σ(fs(i)-fs(j))

29、其中,ei>j表示被试者si在题目e上的表现比sj好,σ是sigmoid函数,fs是诊断函数,为mirt模型或irt模型。

30、优选地,为了最大化边际概率,bpr损失函数定义为:

31、

32、为了刻画被试者的整体能力,即综合考虑各细分领域能力,mirt的损失函数l1如下:

33、

34、为了对被试者细分领域下的能力进行细粒度的刻画,irt的损失函数l2k如下:

35、

36、结合两种损失函数,最终得到如下目标函数:

37、

38、其中,α,λ为超参数,λ(θ)为正则项;

39、使用上述目标函数优化神经网络,最终得到的参数θ即为被试者能力,其中,每一维θi表示细分领域ki本文档来自技高网...

【技术保护点】

1.一种基于认知诊断的写作大模型能力评测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于认知诊断的写作大模型能力评测方法,其特征在于,步骤1中的写作评测集覆盖不同领域和主题,并包含多个难度级别。

3.根据权利要求1所述的基于认知诊断的写作大模型能力评测方法,其特征在于,步骤2中需收集不同水平人类的写作结果,包括专业作家、学生和日常写作者。

4.根据权利要求1所述的基于认知诊断的写作大模型能力评测方法,其特征在于,步骤3包括:

5.根据权利要求4所述的基于认知诊断的写作大模型能力评测方法,其特征在于,步骤3中多个细分能力角度包括语法准确性、创造性、逻辑连贯性、风格一致性和主题相关性。

6.根据权利要求4所述的基于认知诊断的写作大模型能力评测方法,其特征在于,在步骤3中计算胜出率时,胜出率大于55%表示该模型显著胜出于另外一个模型,胜出率小于45%表示该模型明显落后,胜出率在45%至55%之间表示两个模型持平。

7.根据权利要求4所述的基于认知诊断的写作大模型能力评测方法,其特征在于,步骤4中包括:

8.根据权利要求7所述的基于认知诊断的写作大模型能力评测方法,其特征在于,步骤4还包括参照Item Response Ranking的做法,使用BPR(Bayesian Personalized Ranking)作为损失函数直接优化被试者间的偏序关系,即给定一个题目e和两个被试者si,sj,BPR损失函数要求模型将表现更好的被试者si排在表现相对较差的被试者sj之前;具体的,BPR损失函数的目标是最大化以下的边际概率:

9.根据权利要求8所述的基于认知诊断的写作大模型能力评测方法,其特征在于,为了最大化边际概率,BPR损失函数定义为:

...

【技术特征摘要】

1.一种基于认知诊断的写作大模型能力评测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于认知诊断的写作大模型能力评测方法,其特征在于,步骤1中的写作评测集覆盖不同领域和主题,并包含多个难度级别。

3.根据权利要求1所述的基于认知诊断的写作大模型能力评测方法,其特征在于,步骤2中需收集不同水平人类的写作结果,包括专业作家、学生和日常写作者。

4.根据权利要求1所述的基于认知诊断的写作大模型能力评测方法,其特征在于,步骤3包括:

5.根据权利要求4所述的基于认知诊断的写作大模型能力评测方法,其特征在于,步骤3中多个细分能力角度包括语法准确性、创造性、逻辑连贯性、风格一致性和主题相关性。

6.根据权利要求4所述的基于认知诊断的写作大模型能力评测方法,其特征在于,在步骤3中计算胜出率时,胜出率大于55%表...

【专利技术属性】
技术研发人员:程明月刘淇陈恩红
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1