【技术实现步骤摘要】
本专利技术涉及模型评估,特别涉及大模型垂直领域能力评测系统、方法、设备及存储介质。
技术介绍
1、现有针对大语言模型(large language models,简称大模型)的评测多聚焦于大模型的通用能力,对垂直领域能力鲜有涉及。以当前中文大模型评测领域较为领先且专业的superclue(中文通用大模型综合性测评基准)为例,该评测主要有两种方式:opt(objective test)三大能力客观题基准:题型为选择题,评测模型基础能力(语义理解与抽取、闲聊、上下文对话、生成与创作、知识与百科、代码、逻辑与理解、计算、角色扮演、安全)、中文特性能力(字形拼音、句法分析、诗词、成语等)、学术专业能力(代数、生物学、数学、哲学等各个学科)。open多轮开放式基准:题型为主观题,用超级模型(gpt-4,是为聊天机器人发布的语言模型)作为判官,使用待评估模型与一个基准模型(如gpt-3.5,是为聊天机器人发布的语言模型)进行对比,实际上是算待评估模型对基准模型的胜率。进一步考察opt中的十大基础能力。
2、上述评测方式聚焦于对大模型的通
...【技术保护点】
1.一种大模型垂直领域能力评测系统,其特征在于,包括:
2.根据权利要求1所述的大模型垂直领域能力评测系统,其特征在于,所述评测数据库模块,包括:
3.根据权利要求2所述的大模型垂直领域能力评测系统,其特征在于,所述模型评测模块,包括:
4.根据权利要求3所述的大模型垂直领域能力评测系统,其特征在于,所述评测结果整理输出模块,包括:
5.根据权利要求2至4任一项所述的大模型垂直领域能力评测系统,其特征在于,还包括:
6.根据权利要求5所述的大模型垂直领域能力评测系统,其特征在于,还包括:
7.根据
...【技术特征摘要】
1.一种大模型垂直领域能力评测系统,其特征在于,包括:
2.根据权利要求1所述的大模型垂直领域能力评测系统,其特征在于,所述评测数据库模块,包括:
3.根据权利要求2所述的大模型垂直领域能力评测系统,其特征在于,所述模型评测模块,包括:
4.根据权利要求3所述的大模型垂直领域能力评测系统,其特征在于,所述评测结果整理输出模块,包括:
5.根据权利要求2至4任一项所述的大模型垂直领域能力评测系统,其特征在于...
【专利技术属性】
技术研发人员:王桢,吴湖龙,王世伟,林肯,付成飞,
申请(专利权)人:深圳依时货拉拉科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。