一种对电力领域大语言模型效果的评估方法及系统技术方案

技术编号:41515135 阅读:43 留言:0更新日期:2024-05-30 14:52
本发明专利技术提供了一种对电力领域大语言模型效果的评估方法及系统,包括将预先构建的电力领域大语言模型评价题库代入电力领域大语言模型中进行作答,得到作答结果;基于所述作答结果计算作答正确率,基于所述作答正确率评估所述电力领域大语言模型的效果;其中,所述电力领域大语言模型评价题库是通过调研电力领域各个应用场景,经过多模型测试和人工测试构建的。本发明专利技术通过调研电力领域各个应用场景,经过多模型测试和人工测试构建电力领域大语言模型评价题库,该题库覆盖电力领域各方面的知识,可对电力领域大语言模型的效果进行客观性评估,且适用性高。

【技术实现步骤摘要】

本专利技术涉及电力领域大语言模型领域,具体涉及一种对电力领域大语言模型效果的评估方法及系统


技术介绍

1、(1)目前在大语言模型的垂直领域使用场景中,大多数的评价方法为人工评价,具体做法为将大语言模型输出的结果反馈给研发人员,由研发人员人为的判断结果是否合理。人工的设计评价指标费时费力,且可能存在一定的主观性及局限性。

2、(2)在某些垂直领域的大语言模型应用中使用到了文本匹配模型(例如qa匹配,短语匹配)进行评价,具体做法为将大语言模型生成的答案与标签答案进行相似度匹配。该评价更多的适用于词汇或短语的匹配,对长文本生成的评价存在一定难度,适用性不高。

3、(3)现存技术中存在一种评价方法为使用性能较好的开源的大语言模型(如gpt4)微调用于评估的迁移模型,之后使用迁移模型对垂直领域的微调模型进行评价。该方式受限于迁移模型的性能,存在一定的局限性。


技术实现思路

1、为了解决现有技术人工的设计评价指标费时费力,且可能存在一定的主观性及局限性,使用文本匹配模型进行的大语言模型评价更多的本文档来自技高网...

【技术保护点】

1.一种对电力领域大语言模型效果的评估方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述电力领域大语言模型评价题库的构建包括:

3.如权利要求2所述的方法,其特征在于,所述通过调研电力领域各个应用场景构建初步的电力领域大语言模型评价题库,包括:

4.如权利要求2所述的方法,其特征在于,所述对所述初步的电力领域大语言模型评价题库进行多模型测试和人工评价,包括:

5.如权利要求4所述的方法,其特征在于,所述基于多模型测试结果和人工评价结果修改所述初步的电力领域大语言模型评价题库,得到修改后的电力领域大语言模型评价题库,包括:...

【技术特征摘要】

1.一种对电力领域大语言模型效果的评估方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述电力领域大语言模型评价题库的构建包括:

3.如权利要求2所述的方法,其特征在于,所述通过调研电力领域各个应用场景构建初步的电力领域大语言模型评价题库,包括:

4.如权利要求2所述的方法,其特征在于,所述对所述初步的电力领域大语言模型评价题库进行多模型测试和人工评价,包括:

5.如权利要求4所述的方法,其特征在于,所述基于多模型测试结果和人工评价结果修改所述初步的电力领域大语言模型评价题库,得到修改后的电力领域大语言模型评价题库,包括:

6.如权利要求5所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:黄启明卢彩霞唐志涛余芳万劼王良郭晓英
申请(专利权)人:北京国电通网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1