多维度多角度的自动化大模型测试系统及方法技术方案

技术编号：40845579 阅读：6 留言：0更新日期：2024-04-01 15:13

一种多维度多角度的自动化大模型测试系统及方法，包括：数据获取单元、数据分析单元、模型评测单元、评测指标计算单元以及评测结果输出单元，其中：数据获取单元用于获取待评测的输入数据，将输入数据按照评测维度归类；数据分析单元根据评测维度选择评测角度，对评测数据的格式进行转换，得到对应评测角度的格式化数据；模型评测单元根据格式化数据，使用评测大模型获取评测的结果，分为绝对评测结果和相对评测结果；评测指标计算单元根据评测的结果，计算评测指标；评测结果输出单元根据评测指标，将评测结果按照评测维度和评测指标整理并输出到用户界面。本发明专利技术从多个角度对大模型进行评测，以提高模型在自动化评测中的准确性和一致性，并为多种维度设计了对应的评测角度，提高评测的合理性与可信度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及的是一种神经网络领域的技术，具体是一种多维度多角度的自动化大模型测试系统及方法。

技术介绍

1、随着大语言模型的技术发展，模型的应用场景逐步从封闭式应用任务(例如，信息抽取、机器翻译、摘要生成等)，拓展到更贴近用户使用场景的各类开放式应用任务(例如日常闲聊、百科问答、文本创作等)。然而，传统的评测方法和指标(例如f1、bleu等)并不适用于开放式任务中，导致大语言模型在开放式任务上的评测困难重重。开放式应用任务主要依赖主观评测，可分为人工评测和模型评测。其中，人工评测成本高昂，而基于gpt-4等大模型的自动化评测则缺乏准确性和一致性，导致无法适用于部分场景。

技术实现思路

1、本专利技术针对现有技术存在的上述不足，提出一种多维度多角度的自动化大模型测试系统及方法，包括一种评测大模型的训练方法和多角度多维度的评测方法。从多个角度对大模型进行评测，以提高模型在自动化评测中的准确性和一致性，并为多种维度设计了对应的评测角度，提高评测的合理性与可信度。

2、本专利技术是通过以下技术方案实现的：

3、本专利技术涉及一种多维度多角度的自动化大模型测试系统，包括：数据获取单元、数据分析单元、模型评测单元、评测指标计算单元以及评测结果输出单元，其中：数据获取单元用于获取待评测的输入数据，将输入数据按照评测维度归类；数据分析单元根据评测维度选择评测角度，对评测数据的格式进行转换，得到对应评测角度的格式化数据；模型评测单元根据格式化数据，使用评测大模型获取评测的结

4、所述的待评测的输入数据是指：针对大模型具体能力构建的测试数据集，数据集通常包含一定量的测试问题，对于非开放式问题包含问题的标准回答，而对于开放式问题则没有标准回答。使用待评测的模型在数据集上测试以获取模型的回答。测试数据集与模型的回答共同组成评测的输入数据。

5、所述的评测角度是指：即从何种角度来评价模型，本文中包括三种角度：一是从顺序的角度，对多个模型进行排序；二是从好坏的角度，从多个模型中选出好的一个或多个；三是评分的角度，对单独的模型进行评价。

6、所述的评测指标包括：绝对指标和相对指标，其中：绝对指标包括：绝对评测结果的精确度、准确率、召回率、f-score指标、bleu指标、rouge指标和elo等级分制度；相对指标包括相对评测结果计算排序、elo等级分制度。

7、所述的准确率是指：在所有的预测结果中，预测正确的结果数量占总样本数量的百分比，表达式为：acc＝(tp+tn)/(tp+fp+tn+fn)，其中：tp为实际为正样本，预测为正样本的数量；fp为实际为负样本，预测为正样本的数量；tn为实际为负样本，预测为负样本的数量；fn为实际为正样本，预测为负样本的数量。

8、所述的精确度是指：被正确预测的正样本，占被预测为正的所有样本的比例p＝tp/(tp+fp)。

9、所述的召回率是指：被正确预测的正样本，占实际为正的所有样本的比例r＝tp/(tp+fn)。

10、所述的f-score指标是指：同时考虑精确度(p)和召回率(r)，具体为：其中：β用于控制准确度的权重：当β→0时，f-score退化为精确度；当β→∞时，f-score退化为召回率；当β＝1时的f-score,亦写作f1-score，等价于精确度和召回率的调和平均。

11、所述的bleu指标是指：给定标准文本references，以及机器生成的文本candidates，对应的n-gram分数pn＝∑s∈c∑ng∈scount(ng∈r)/∑s'∈c∑ng'∈s'coent(ng'∈c)，其中：分子统计candidates中的所有生成文本句s中的n-gram(ng)词在reference(r)中的个数，分母表示在candidates(c)中n-gram(ng')词的个数。此外，同时引入句子brevitypenalty(bp)机制来惩罚短文本，具体为：r表示参考文本references的长度，c表示生成文本candidates的长度。最终的bleu分数由各n-gram分数的权重和bp构成：wn为权重n-gram的权重，n为最大的n-gram中n的最大取值，通常n＝4。

12、所述的rouge是指：根据字符的共现来进行生成文本的测试。与bleu计算精确度不同，rouge则根据召回率来评估，具体包括：rouge-n:根据n-gram，计算召回率；rouge-l:通过计算references与candidates的最长公共子序列长度，再分别除以参考文本得到p，除以候选文本得到r，再计算f-score；rouge-w:考虑连续匹配的最长公共子序列，保证公共序列连续的条件下，序列越长分数越高；rouge-s:使用skip-gram来计算p,r,f-score指标；rouge-su:使用skip-gram和unigram来计算p,r,f-score指标。

13、所述的elo等级分制度是指：在有两位选手参与比赛的情况下，选手a赛前的elo分数为ra，选手b赛前的elo分数为rb,首先按照logistic分布计算二者的胜率期望：a对b的胜率期望：e_a＝1/(1+10^((r_b-r_a)/400))，其中：b对a的胜率期望：e_b＝1/(1+10^((r_a-r_b)/400))；然后根据比赛的结果s(胜＝1分，和＝0.5分，负＝0分)与二者的胜率期望，以及比赛的重要程度k，分别计算赛后的elo分数，表达式为：r_a'＝r_a+

14、k(s_a-e_a)，其中：r_b'＝r_b+k(s_b-e_b)。

15、所述的评测大模型采用bloom、llama等预训练大模型，通过训练数据进行微调训练。

16、所述的训练数据，通过排序、选择和评分构建得到。

17、所述的排序是指：排序数据要求为一问多答形式，并依照一定指标(例如，人工标注的分数、用户点赞数等)给出回答的相对排序。针对不同的维度，构建对应的排序数据集。

18、所述的选择是指：选择数据要求一问多答形式，每个回答应有类似“好”或“坏”的标签。针对不同的维度，构建对应的选择数据集。

19、所述的评分是指：评分数据要求一问一答形式。应当包含正负样本，其中正样本为合适的或正确的问题回答，负样本为错误的或不相关的问题回答。可采用负采样方法扩充数据，将同文档和不同文档数据作为负样本，而原始语料的问答数据作为正样本。针对不同的维度，构建对应的评分数据集。

20、所述的微调训练，具体包括：

21、1)排序训练：采用奖励模型(rm)损失函数训练。具体地，训练数据为一问多答形式，按照对应维度上回答的真实的排序，将回答由高到低排列，构建为输入批次。使用模型将每个回答的向量表示映射为该维本文档来自技高网...

【技术保护点】

1.一种多维度多角度的自动化大模型测试系统，其特征在于，包括：数据获取单元、数据分析单元、模型评测单元、评测指标计算单元以及评测结果输出单元，其中：数据获取单元用于获取待评测的输入数据，将输入数据按照评测维度归类；数据分析单元根据评测维度选择评测角度，对评测数据的格式进行转换，得到对应评测角度的格式化数据；模型评测单元根据格式化数据，使用评测大模型获取评测的结果，分为绝对评测结果和相对评测结果；评测指标计算单元根据评测的结果，计算评测指标；评测结果输出单元根据评测指标，将评测结果按照评测维度和评测指标整理并输出到用户界面。

2.根据权利要求1所述的多维度多角度的自动化大模型测试系统，其特征是，所述的待评测的输入数据是指：针对大模型具体能力构建的测试数据集，数据集通常包含一定量的测试问题，对于非开放式问题包含问题的标准回答，而对于开放式问题则没有标准回答，使用待评测的模型在数据集上测试以获取模型的回答，测试数据集与模型的回答共同组成评测的输入数据。

3.根据权利要求1所述的多维度多角度的自动化大模型测试系统，其特征是，所述的评测角度是指：即从何种角度来评价模

4.根据权利要求1所述的多维度多角度的自动化大模型测试系统，其特征是，所述的评测指标包括：绝对指标和相对指标，其中：绝对指标包括：绝对评测结果的精确度、准确率、召回率、F-score指标、BLEU指标、ROUGE指标和Elo等级分制度；相对指标包括相对评测结果计算排序、Elo等级分制度。

5.根据权利要求1所述的多维度多角度的自动化大模型测试系统，其特征是，所述的评测大模型采用预训练大模型，通过训练数据进行微调训练；

6.根据权利要求5所述的多维度多角度的自动化大模型测试系统，其特征是，所述的排序是指：排序数据要求为一问多答形式，并依照一定指标(例如，人工标注的分数、用户点赞数等)给出回答的相对排序，针对不同的维度，构建对应的排序数据集；

7.根据权利要求5所述的多维度多角度的自动化大模型测试系统，其特征是，所述的微调训练，具体包括：

8.根据权利要求5所述的多维度多角度的自动化大模型测试系统，其特征是，所述的评测大模型经微调后，根据预先指定的评测维，在对应的测试数据集上获取模型的预测结果，然后，调用评测大模型获取评测结果，具体而言，排序方法给出多个模型之间的回答顺序，可用于计算例如Elo等相对评价指标，选择方法获取模型满足选择条件的回答数量，以计算正确率等绝对评价指标，评分方法获取则为每个模型的回答给出绝对的分数，总的排名可根据三种不同角度下的评测结果，获取不同维度下的模型评测榜单，最终，可再按照维度的重要性对各维度榜单赋予一定权重，获取统一的排名。

9.一种基于权利要求1-8中任一所述系统的多维度多角度的自动化大模型测试方法，其特征在于，包括：

10.根据权利要求9所述的自动化大模型测试方法，其特征是，所述的评测维度包括：

...

【技术特征摘要】

3.根据权利要求1所述的多维度多角度的自动化大模型测试系统，其特征是，所述的评测角度是指：即从何种角度来评价模型，本文中包括三种角度：一是从顺序的角度，对多个模型进行排序；二是从好坏的角度，从多个模型中选出好的一个或多个；三是评分的角度，对单独的模型进行评价。

4.根据权利要求1所述的多维度多角度的自动化大模型测试系统，其特征是，所述的评测指标包括：绝对指标和相对指标，其中：绝对指标包括：绝对评测结果的精确度、准确率、召回率、f-score...

【专利技术属性】
技术研发人员：罗凯艺，张晓凡，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人