一种针对大语言模型的评估方法、模型和计算机存储介质技术

技术编号：40593059 阅读：4 留言：0更新日期：2024-03-12 21:54

本申请提供一种针对大语言模型的评估方法、模型和计算机存储介质，评估方法包括：根据预先存储的数据元信息和所述大语言模型的待测项目，筛选采集的多个文本数据集以组成测评集合，每个文本数据集包括多条测评数据；将每一条测评数据多次输入被测大语言模型，并对应获得多次输出结果；基于每一条测评数据对应的标准结果，对每一条测评数据对应的多次输出结果进行评分，以获得每一条测评数据对应的评分结果，所述评分结果包括正确率得分和一致性得分；综合所述多条测评数据各自的评分结果，计算并获得针对所述大语言模型的评估结果。如此，测评集合既能满足待测项目的需求，又数据量较小，同时借助自动评估可以提高测评效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理，并且更为具体地涉及一种针对大语言模型的评估方法、模型和计算机存储介质。

技术介绍

1、大语言模型(large language model，llm)是一种基于转换器(transformer)结构的自回归语言生成模型。大语言模型具备的能力范围十分广泛，具备了问答对话、代码生成、文本摘要、文本分类等等任务解决能力。换言之，大语言模型可以同时具有多个能力维度，每个能力维度指示用于解决一类任务。大语言模型开发、上线均需要进行充分的测试工作。由于大语言模型需要测试的能力维度较多，因此需要具有不同能力维度的测评数据来对大语言模型进行测试，来检验大语言模型解决各类任务的能力。

2、由于大语言模型需要测试的能力维度较多，而不同领域大语言模型的能力侧重点也不同，因此需要构造领域专用测评榜单，以明确各领域大语言模型解决各类任务的能力，但目前没有领域专用测评榜单。

3、另外，大语言模型需要的测试数据量极大，若依靠人工测试，还会造成极大的测试成本。但如果采用单一能力维度的测评数据，虽然可以减少数据量，但又无法全面准确地评估大语言模型的任务处理性能。

技术实现思路

1、本申请提供了一种针对大语言模型的评估方法、模型和计算机存储介质，该方法既能够使测评集合的数据量较小，又能够满足大语言模型的待测项目的需求，同时借助自动评估可以提高测评效率。

2、第一方面，提供了一种针对大语言模型的评估方法，所述评估方法包括：根据预先存储的数据元信息和所述大语言模型的待测

3、在一种可能的实施例中，所述根据预先存储的数据元信息和所述大语言模型的待测项目，筛选采集的多个文本数据集以组成测评集合，包括：将满足预设数据元信息条件的多个文本数据集添加进入初始集合中；建立维度列表，所述维度列表中列举有全部目标能力维度；遍历所述初始集合中的每个文本数据集，将具有至少一个所述目标能力维度的文本数据集添加进入候选集合；遍历所述候选集合中的每个文本数据集，将同时满足数据量大小条件和目标能力维度条件的文本数据集添加进入所述测评集合。

4、在一种可能的实施例中，所述将同时满足数据量大小条件和目标能力维度条件的文本数据集添加进入所述测评集合，包括：每当将一个文本数据集添加进入所述测评集合时，在所述维度列表中为与该文本数据集所具有的能力维度重合的目标能力维度添加已重合标签，并且将该文本数据集从所述候选集合中删除；确定所述候选集合中每个剩余文本数据集所具有的能力维度和所述维度列表中未添加所述已重合标签的目标能力维度的重合数量，并从重合数量最多的文本数据集中筛选数据量最少的文本数据集并添加进入所述测评集合；相应的，所述评估方法还包括：当所述候选集合为空时，或当所述维度列表中的每个目标能力维度均被添加已重合标签时，停止遍历所述候选集合，得到所述测评集合。

5、在一种可能的实施例中，在所述遍历所述候选集合中的每个文本数据集，将同时满足数据量大小条件和目标能力维度条件的文本数据集添加进入所述测评集合之前，所述评估方法还包括：根据数据量大小对所述候选集合中的文本数据集进行升序排序。

6、在一种可能的实施例中，所述将每一条测评数据多次输入被测大语言模型，包括：将每一条测评数据输入被测大语言模型n次，n为奇数；相应的，所述基于每一条测评数据对应的标准结果，对每一条测评数据对应的多次输出结果进行评分，以获得每一条测评数据对应的评分结果，包括：

7、将n次输出结果逐一与所述测评数据对应的标准结果作对比，判断每次的输出结果是否正确，

8、若n次输出结果全部相同且正确，则正确率得1分，一致性得1分；

9、若n次输出结果全部相同且错误，则正确率得0分，一致性得1分；

10、若n次输出结果超半数错误，且相同结果的数量小于半数，则正确率得0分，一致性得0分；

11、若n次输出结果超半数错误，且相同输出结果的数量大于半数，则正确率得分为：正确数量/n，一致性得分为：错误数量/n；

12、若n次输出结果超半数正确，则正确率得分为：正确数量/n，一致性得分为：正确数量/n。

13、在一种可能的实施例中，所述综合所述多条测评数据各自的评分结果，计算并获得针对所述被测大语言模型的评估结果，包括：计算每个所述文本数据集中各个测评数据对应的正确率平均得分，以获得所述大语言模型对应每个所述文本数据集的正确率得分；计算每个所述文本数据集中各个测评数据对应的一致性平均得分，以获得所述大语言模型对应每个所述文本数据集的一致性得分。

14、在一种可能的实施例中，所述评估方法还包括：建立评分结果列表，将每一条所述测评数据对应的评分结果写入所述评分结果列表中；从所述评分结果列表中随机采样m条所述测评数据对应的评分结果；人工判断所述评分结果是否正确，并为所述评分结果标记正确或错误；若正确标记的数量大于0.8m，则确认针对所述被测大语言模型的评估结果可信；否则，确认针对所述被测大语言模型的评估结果失真。

15、在一种可能的实施例中，所述人工判断所述评分结果是否正确，并为所述评分结果标记正确或错误，包括：针对一条所述评分结果，若人工判断正确率得分和一致性得分中的至少一者错误，则判断该条所述评分结果错误；否则，判断该条所述评分结果正确。

16、第二方面，本申请还提供一种针对大语言模型的评估模型，包括：

17、筛选模块，根据预先存储的数据元信息和所述大语言模型的待测项目，筛选采集的多个文本数据集以组成测评集合，每个文本数据集包括多条测评数据，所述数据元信息指示所述文本数据集的至少一个数据属性，所述测评集合的各个目标能力维度用于测评所述大语言模型的待测项目，所述数据元信息包括文本数据集的语言类型、年代、数据量大小和引用次数；

18、输入模块，用于将每一条测评数据多次输入被测大语言模型，并对应获得多次输出结果；

19、评分模块，用于基于每一条测评数据对应的标准结果，对每一条测评数据对应的多次输出结果进行评分，以获得每一条测评数据对应的评分结果，所述评分结果包括正确率得分和一致性得分；

20、评估模块，用于综合所述多条测评数据各自的评分结果，计算并获得针对所述大语言模型的评估结果。

21、第三方面，本申请提供一种计算机存储介质，本文档来自技高网...

【技术保护点】

1.一种针对大语言模型的评估方法，其特征在于，所述评估方法包括：

2.根据权利要求1所述的针对大语言模型的评估方法，其特征在于，所述根据预先存储的数据元信息和所述大语言模型的待测项目，筛选采集的多个文本数据集以组成测评集合，包括：

3.根据权利要求2所述的针对大语言模型的评估方法，其特征在于，所述将同时满足数据量大小条件和目标能力维度条件的文本数据集添加进入所述测评集合，包括：

4.根据权利要求2所述的针对大语言模型的评估方法，其特征在于，在所述遍历所述候选集合中的每个文本数据集，将同时满足数据量大小条件和目标能力维度条件的文本数据集添加进入所述测评集合之前，所述评估方法还包括：根据数据量大小对所述候选集合中的文本数据集进行升序排序。

5.根据权利要求1所述的针对大语言模型的评估方法，其特征在于，

6.根据权利要求1所述的针对大语言模型的评估方法，其特征在于，所述综合所述多条测评数据各自的评分结果，计算并获得针对所述被测大语言模型的评估结果，包括：

7.根据权利要求1所述的针对大语言模型的评估方法，其特征在于，所述评估方法还包括：

8.根据权利要求7所述的针对大语言模型的评估方法，其特征在于，所述人工判断所述评分结果是否正确，并为所述评分结果标记正确或错误，包括：

9.一种针对大语言模型的评估模型，其特征在于，包括：

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有评估程序，所述评估程序被处理器执行时，实现如权利要求1－8中任一项所述的针对大语言模型的评估方法的步骤。

...

【技术特征摘要】

1.一种针对大语言模型的评估方法，其特征在于，所述评估方法包括：

5.根据权利要...

【专利技术属性】
技术研发人员：乔振浩，赖新明，刘振宇，王志刚，黄键，王亚平，徐书豪，
申请(专利权)人：航天信息股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人