【技术实现步骤摘要】
本专利技术涉及电力领域大语言模型领域,具体涉及一种对电力领域大语言模型效果的评估方法及系统。
技术介绍
1、(1)目前在大语言模型的垂直领域使用场景中,大多数的评价方法为人工评价,具体做法为将大语言模型输出的结果反馈给研发人员,由研发人员人为的判断结果是否合理。人工的设计评价指标费时费力,且可能存在一定的主观性及局限性。
2、(2)在某些垂直领域的大语言模型应用中使用到了文本匹配模型(例如qa匹配,短语匹配)进行评价,具体做法为将大语言模型生成的答案与标签答案进行相似度匹配。该评价更多的适用于词汇或短语的匹配,对长文本生成的评价存在一定难度,适用性不高。
3、(3)现存技术中存在一种评价方法为使用性能较好的开源的大语言模型(如gpt4)微调用于评估的迁移模型,之后使用迁移模型对垂直领域的微调模型进行评价。该方式受限于迁移模型的性能,存在一定的局限性。
技术实现思路
1、为了解决现有技术人工的设计评价指标费时费力,且可能存在一定的主观性及局限性,使用文本匹配模型进行的
...【技术保护点】
1.一种对电力领域大语言模型效果的评估方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述电力领域大语言模型评价题库的构建包括:
3.如权利要求2所述的方法,其特征在于,所述通过调研电力领域各个应用场景构建初步的电力领域大语言模型评价题库,包括:
4.如权利要求2所述的方法,其特征在于,所述对所述初步的电力领域大语言模型评价题库进行多模型测试和人工评价,包括:
5.如权利要求4所述的方法,其特征在于,所述基于多模型测试结果和人工评价结果修改所述初步的电力领域大语言模型评价题库,得到修改后的电力领域大语言
...【技术特征摘要】
1.一种对电力领域大语言模型效果的评估方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述电力领域大语言模型评价题库的构建包括:
3.如权利要求2所述的方法,其特征在于,所述通过调研电力领域各个应用场景构建初步的电力领域大语言模型评价题库,包括:
4.如权利要求2所述的方法,其特征在于,所述对所述初步的电力领域大语言模型评价题库进行多模型测试和人工评价,包括:
5.如权利要求4所述的方法,其特征在于,所述基于多模型测试结果和人工评价结果修改所述初步的电力领域大语言模型评价题库,得到修改后的电力领域大语言模型评价题库,包括:
6.如权利要求5所述的方法,其特征在于,所述...
【专利技术属性】
技术研发人员:黄启明,卢彩霞,唐志涛,余芳,万劼,王良,郭晓英,
申请(专利权)人:北京国电通网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。