【技术实现步骤摘要】
本专利技术提出了一种用于算法平台的语言模型的自动评估方法和系统,属于语言模型评估。
技术介绍
1、当前算法平台对于大语言模型的评估主要依靠设计好的基准测试,如c-eval,flageval和opencompass等。这些基准测试通常涵盖不同领域的不同评测数据集和题目,题型包括选择题,文本分类,主观题等。当前使用的基准测试倾向于设计一些对人类来说越来越难的任务,而且注重专业知识,在通过推理快速适应、多模态理解和潜在的多样化工具使用方面有所缺失。即使是一个在现有评测基准上得分很高的大模型,实际在一些简单任务的表现上也不令人满意。
技术实现思路
1、本专利技术提供了一种用于算法平台的语言模型的自动评估方法和系统,用以解决现有技术中的上述技术问题,所采取的技术方案如下:
2、一种用于算法平台的语言模型的自动评估方法,所述用于算法平台的语言模型的自动评估方法包括:
3、根据所述gaia评估基准中所包含的问题制定语言模型的评估流程;
4、利用所述gaia评估基准中所
...【技术保护点】
1.一种用于算法平台的语言模型的自动评估方法,其特征在于,所述用于算法平台的语言模型的自动评估方法包括:
2.根据权利要求1所述用于算法平台的语言模型的自动评估方法,其特征在于,根据所述GAIA评估基准中所包含的问题制定语言模型的评估流程,包括:
3.根据权利要求1所述用于算法平台的语言模型的自动评估方法,其特征在于,利用所述GAIA评估基准中所包含的问题对所述语言模型进行所需技能的识别分析,获得识别分析评估结果,包括:
4.根据权利要求3所述用于算法平台的语言模型的自动评估方法,其特征在于,根据所述语言模型输出的问题对应的所需技能
...【技术特征摘要】
1.一种用于算法平台的语言模型的自动评估方法,其特征在于,所述用于算法平台的语言模型的自动评估方法包括:
2.根据权利要求1所述用于算法平台的语言模型的自动评估方法,其特征在于,根据所述gaia评估基准中所包含的问题制定语言模型的评估流程,包括:
3.根据权利要求1所述用于算法平台的语言模型的自动评估方法,其特征在于,利用所述gaia评估基准中所包含的问题对所述语言模型进行所需技能的识别分析,获得识别分析评估结果,包括:
4.根据权利要求3所述用于算法平台的语言模型的自动评估方法,其特征在于,根据所述语言模型输出的问题对应的所需技能的识别结果判定所述语言模型的识别评估结果,包括:
5.根据权利要求1所述用于算法平台的语言模型...
【专利技术属性】
技术研发人员:兰雨晴,余丹,陈哲平,邢智涣,
申请(专利权)人:慧之安信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。