大模型垂直领域能力评测系统、方法、设备及存储介质技术方案

技术编号:43018563 阅读:104 留言:0更新日期:2024-10-18 17:21
本申请公开了大模型垂直领域能力评测系统、方法、设备及存储介质,涉及模型评估技术领域,包括:评测数据库模块,用于生成对大模型的垂直领域能力的模型评测标准,并基于出题智能体和模型评测标准生成模型评估的问题‑答案对以得到评测数据库;模型评测模块,用于调用评测数据库若干问题‑答案对,然后利用若干问题‑答案对中的问题输入至目标待评测大模型中以得到模型回答,并基于单盲测试原则将模型回答输入至各评分智能体以得到各评分智能体对应的初始评分结果;评测结果整理输出模块,用于对初始评分结果进行汇总以得到目标待评测大模型对应的最终评分结果。这样一来,可以针对大模型的通用能力,有效评估大模型的垂直领域能力。

【技术实现步骤摘要】

本专利技术涉及模型评估,特别涉及大模型垂直领域能力评测系统、方法、设备及存储介质


技术介绍

1、现有针对大语言模型(large language models,简称大模型)的评测多聚焦于大模型的通用能力,对垂直领域能力鲜有涉及。以当前中文大模型评测领域较为领先且专业的superclue(中文通用大模型综合性测评基准)为例,该评测主要有两种方式:opt(objective test)三大能力客观题基准:题型为选择题,评测模型基础能力(语义理解与抽取、闲聊、上下文对话、生成与创作、知识与百科、代码、逻辑与理解、计算、角色扮演、安全)、中文特性能力(字形拼音、句法分析、诗词、成语等)、学术专业能力(代数、生物学、数学、哲学等各个学科)。open多轮开放式基准:题型为主观题,用超级模型(gpt-4,是为聊天机器人发布的语言模型)作为判官,使用待评估模型与一个基准模型(如gpt-3.5,是为聊天机器人发布的语言模型)进行对比,实际上是算待评估模型对基准模型的胜率。进一步考察opt中的十大基础能力。

2、上述评测方式聚焦于对大模型的通用能力、基础能力的评本文档来自技高网...

【技术保护点】

1.一种大模型垂直领域能力评测系统,其特征在于,包括:

2.根据权利要求1所述的大模型垂直领域能力评测系统,其特征在于,所述评测数据库模块,包括:

3.根据权利要求2所述的大模型垂直领域能力评测系统,其特征在于,所述模型评测模块,包括:

4.根据权利要求3所述的大模型垂直领域能力评测系统,其特征在于,所述评测结果整理输出模块,包括:

5.根据权利要求2至4任一项所述的大模型垂直领域能力评测系统,其特征在于,还包括:

6.根据权利要求5所述的大模型垂直领域能力评测系统,其特征在于,还包括:

7.根据权利要求6所述的大模...

【技术特征摘要】

1.一种大模型垂直领域能力评测系统,其特征在于,包括:

2.根据权利要求1所述的大模型垂直领域能力评测系统,其特征在于,所述评测数据库模块,包括:

3.根据权利要求2所述的大模型垂直领域能力评测系统,其特征在于,所述模型评测模块,包括:

4.根据权利要求3所述的大模型垂直领域能力评测系统,其特征在于,所述评测结果整理输出模块,包括:

5.根据权利要求2至4任一项所述的大模型垂直领域能力评测系统,其特征在于...

【专利技术属性】
技术研发人员:王桢吴湖龙王世伟林肯付成飞
申请(专利权)人:深圳依时货拉拉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1