System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多维度多角度的自动化大模型测试系统及方法技术方案_技高网

多维度多角度的自动化大模型测试系统及方法技术方案

技术编号:40845579 阅读:6 留言:0更新日期:2024-04-01 15:13
一种多维度多角度的自动化大模型测试系统及方法,包括:数据获取单元、数据分析单元、模型评测单元、评测指标计算单元以及评测结果输出单元,其中:数据获取单元用于获取待评测的输入数据,将输入数据按照评测维度归类;数据分析单元根据评测维度选择评测角度,对评测数据的格式进行转换,得到对应评测角度的格式化数据;模型评测单元根据格式化数据,使用评测大模型获取评测的结果,分为绝对评测结果和相对评测结果;评测指标计算单元根据评测的结果,计算评测指标;评测结果输出单元根据评测指标,将评测结果按照评测维度和评测指标整理并输出到用户界面。本发明专利技术从多个角度对大模型进行评测,以提高模型在自动化评测中的准确性和一致性,并为多种维度设计了对应的评测角度,提高评测的合理性与可信度。

【技术实现步骤摘要】

本专利技术涉及的是一种神经网络领域的技术,具体是一种多维度多角度的自动化大模型测试系统及方法


技术介绍

1、随着大语言模型的技术发展,模型的应用场景逐步从封闭式应用任务(例如,信息抽取、机器翻译、摘要生成等),拓展到更贴近用户使用场景的各类开放式应用任务(例如日常闲聊、百科问答、文本创作等)。然而,传统的评测方法和指标(例如f1、bleu等)并不适用于开放式任务中,导致大语言模型在开放式任务上的评测困难重重。开放式应用任务主要依赖主观评测,可分为人工评测和模型评测。其中,人工评测成本高昂,而基于gpt-4等大模型的自动化评测则缺乏准确性和一致性,导致无法适用于部分场景。


技术实现思路

1、本专利技术针对现有技术存在的上述不足,提出一种多维度多角度的自动化大模型测试系统及方法,包括一种评测大模型的训练方法和多角度多维度的评测方法。从多个角度对大模型进行评测,以提高模型在自动化评测中的准确性和一致性,并为多种维度设计了对应的评测角度,提高评测的合理性与可信度。

2、本专利技术是通过以下技术方案实现的:

3、本专利技术涉及一种多维度多角度的自动化大模型测试系统,包括:数据获取单元、数据分析单元、模型评测单元、评测指标计算单元以及评测结果输出单元,其中:数据获取单元用于获取待评测的输入数据,将输入数据按照评测维度归类;数据分析单元根据评测维度选择评测角度,对评测数据的格式进行转换,得到对应评测角度的格式化数据;模型评测单元根据格式化数据,使用评测大模型获取评测的结果,分为绝对评测结果和相对评测结果;评测指标计算单元根据评测的结果,计算评测指标;评测结果输出单元根据评测指标,将评测结果按照评测维度和评测指标整理并输出到用户界面。

4、所述的待评测的输入数据是指:针对大模型具体能力构建的测试数据集,数据集通常包含一定量的测试问题,对于非开放式问题包含问题的标准回答,而对于开放式问题则没有标准回答。使用待评测的模型在数据集上测试以获取模型的回答。测试数据集与模型的回答共同组成评测的输入数据。

5、所述的评测角度是指:即从何种角度来评价模型,本文中包括三种角度:一是从顺序的角度,对多个模型进行排序;二是从好坏的角度,从多个模型中选出好的一个或多个;三是评分的角度,对单独的模型进行评价。

6、所述的评测指标包括:绝对指标和相对指标,其中:绝对指标包括:绝对评测结果的精确度、准确率、召回率、f-score指标、bleu指标、rouge指标和elo等级分制度;相对指标包括相对评测结果计算排序、elo等级分制度。

7、所述的准确率是指:在所有的预测结果中,预测正确的结果数量占总样本数量的百分比,表达式为:acc=(tp+tn)/(tp+fp+tn+fn),其中:tp为实际为正样本,预测为正样本的数量;fp为实际为负样本,预测为正样本的数量;tn为实际为负样本,预测为负样本的数量;fn为实际为正样本,预测为负样本的数量。

8、所述的精确度是指:被正确预测的正样本,占被预测为正的所有样本的比例p=tp/(tp+fp)。

9、所述的召回率是指:被正确预测的正样本,占实际为正的所有样本的比例r=tp/(tp+fn)。

10、所述的f-score指标是指:同时考虑精确度(p)和召回率(r),具体为:其中:β用于控制准确度的权重:当β→0时,f-score退化为精确度;当β→∞时,f-score退化为召回率;当β=1时的f-score,亦写作f1-score,等价于精确度和召回率的调和平均。

11、所述的bleu指标是指:给定标准文本references,以及机器生成的文本candidates,对应的n-gram分数pn=∑s∈c∑ng∈scount(ng∈r)/∑s'∈c∑ng'∈s'coent(ng'∈c),其中:分子统计candidates中的所有生成文本句s中的n-gram(ng)词在reference(r)中的个数,分母表示在candidates(c)中n-gram(ng')词的个数。此外,同时引入句子brevitypenalty(bp)机制来惩罚短文本,具体为:r表示参考文本references的长度,c表示生成文本candidates的长度。最终的bleu分数由各n-gram分数的权重和bp构成:wn为权重n-gram的权重,n为最大的n-gram中n的最大取值,通常n=4。

12、所述的rouge是指:根据字符的共现来进行生成文本的测试。与bleu计算精确度不同,rouge则根据召回率来评估,具体包括:rouge-n:根据n-gram,计算召回率;rouge-l:通过计算references与candidates的最长公共子序列长度,再分别除以参考文本得到p,除以候选文本得到r,再计算f-score;rouge-w:考虑连续匹配的最长公共子序列,保证公共序列连续的条件下,序列越长分数越高;rouge-s:使用skip-gram来计算p,r,f-score指标;rouge-su:使用skip-gram和unigram来计算p,r,f-score指标。

13、所述的elo等级分制度是指:在有两位选手参与比赛的情况下,选手a赛前的elo分数为ra,选手b赛前的elo分数为rb,首先按照logistic分布计算二者的胜率期望:a对b的胜率期望:e_a=1/(1+10^((r_b-r_a)/400)),其中:b对a的胜率期望:e_b=1/(1+10^((r_a-r_b)/400));然后根据比赛的结果s(胜=1分,和=0.5分,负=0分)与二者的胜率期望,以及比赛的重要程度k,分别计算赛后的elo分数,表达式为:r_a'=r_a+

14、k(s_a-e_a),其中:r_b'=r_b+k(s_b-e_b)。

15、所述的评测大模型采用bloom、llama等预训练大模型,通过训练数据进行微调训练。

16、所述的训练数据,通过排序、选择和评分构建得到。

17、所述的排序是指:排序数据要求为一问多答形式,并依照一定指标(例如,人工标注的分数、用户点赞数等)给出回答的相对排序。针对不同的维度,构建对应的排序数据集。

18、所述的选择是指:选择数据要求一问多答形式,每个回答应有类似“好”或“坏”的标签。针对不同的维度,构建对应的选择数据集。

19、所述的评分是指:评分数据要求一问一答形式。应当包含正负样本,其中正样本为合适的或正确的问题回答,负样本为错误的或不相关的问题回答。可采用负采样方法扩充数据,将同文档和不同文档数据作为负样本,而原始语料的问答数据作为正样本。针对不同的维度,构建对应的评分数据集。

20、所述的微调训练,具体包括:

21、1)排序训练:采用奖励模型(rm)损失函数训练。具体地,训练数据为一问多答形式,按照对应维度上回答的真实的排序,将回答由高到低排列,构建为输入批次。使用模型将每个回答的向量表示映射为该维本文档来自技高网...

【技术保护点】

1.一种多维度多角度的自动化大模型测试系统,其特征在于,包括:数据获取单元、数据分析单元、模型评测单元、评测指标计算单元以及评测结果输出单元,其中:数据获取单元用于获取待评测的输入数据,将输入数据按照评测维度归类;数据分析单元根据评测维度选择评测角度,对评测数据的格式进行转换,得到对应评测角度的格式化数据;模型评测单元根据格式化数据,使用评测大模型获取评测的结果,分为绝对评测结果和相对评测结果;评测指标计算单元根据评测的结果,计算评测指标;评测结果输出单元根据评测指标,将评测结果按照评测维度和评测指标整理并输出到用户界面。

2.根据权利要求1所述的多维度多角度的自动化大模型测试系统,其特征是,所述的待评测的输入数据是指:针对大模型具体能力构建的测试数据集,数据集通常包含一定量的测试问题,对于非开放式问题包含问题的标准回答,而对于开放式问题则没有标准回答,使用待评测的模型在数据集上测试以获取模型的回答,测试数据集与模型的回答共同组成评测的输入数据。

3.根据权利要求1所述的多维度多角度的自动化大模型测试系统,其特征是,所述的评测角度是指:即从何种角度来评价模型,本文中包括三种角度:一是从顺序的角度,对多个模型进行排序;二是从好坏的角度,从多个模型中选出好的一个或多个;三是评分的角度,对单独的模型进行评价。

4.根据权利要求1所述的多维度多角度的自动化大模型测试系统,其特征是,所述的评测指标包括:绝对指标和相对指标,其中:绝对指标包括:绝对评测结果的精确度、准确率、召回率、F-score指标、BLEU指标、ROUGE指标和Elo等级分制度;相对指标包括相对评测结果计算排序、Elo等级分制度。

5.根据权利要求1所述的多维度多角度的自动化大模型测试系统,其特征是,所述的评测大模型采用预训练大模型,通过训练数据进行微调训练;

6.根据权利要求5所述的多维度多角度的自动化大模型测试系统,其特征是,所述的排序是指:排序数据要求为一问多答形式,并依照一定指标(例如,人工标注的分数、用户点赞数等)给出回答的相对排序,针对不同的维度,构建对应的排序数据集;

7.根据权利要求5所述的多维度多角度的自动化大模型测试系统,其特征是,所述的微调训练,具体包括:

8.根据权利要求5所述的多维度多角度的自动化大模型测试系统,其特征是,所述的评测大模型经微调后,根据预先指定的评测维,在对应的测试数据集上获取模型的预测结果,然后,调用评测大模型获取评测结果,具体而言,排序方法给出多个模型之间的回答顺序,可用于计算例如Elo等相对评价指标,选择方法获取模型满足选择条件的回答数量,以计算正确率等绝对评价指标,评分方法获取则为每个模型的回答给出绝对的分数,总的排名可根据三种不同角度下的评测结果,获取不同维度下的模型评测榜单,最终,可再按照维度的重要性对各维度榜单赋予一定权重,获取统一的排名。

9.一种基于权利要求1-8中任一所述系统的多维度多角度的自动化大模型测试方法,其特征在于,包括:

10.根据权利要求9所述的自动化大模型测试方法,其特征是,所述的评测维度包括:

...

【技术特征摘要】

1.一种多维度多角度的自动化大模型测试系统,其特征在于,包括:数据获取单元、数据分析单元、模型评测单元、评测指标计算单元以及评测结果输出单元,其中:数据获取单元用于获取待评测的输入数据,将输入数据按照评测维度归类;数据分析单元根据评测维度选择评测角度,对评测数据的格式进行转换,得到对应评测角度的格式化数据;模型评测单元根据格式化数据,使用评测大模型获取评测的结果,分为绝对评测结果和相对评测结果;评测指标计算单元根据评测的结果,计算评测指标;评测结果输出单元根据评测指标,将评测结果按照评测维度和评测指标整理并输出到用户界面。

2.根据权利要求1所述的多维度多角度的自动化大模型测试系统,其特征是,所述的待评测的输入数据是指:针对大模型具体能力构建的测试数据集,数据集通常包含一定量的测试问题,对于非开放式问题包含问题的标准回答,而对于开放式问题则没有标准回答,使用待评测的模型在数据集上测试以获取模型的回答,测试数据集与模型的回答共同组成评测的输入数据。

3.根据权利要求1所述的多维度多角度的自动化大模型测试系统,其特征是,所述的评测角度是指:即从何种角度来评价模型,本文中包括三种角度:一是从顺序的角度,对多个模型进行排序;二是从好坏的角度,从多个模型中选出好的一个或多个;三是评分的角度,对单独的模型进行评价。

4.根据权利要求1所述的多维度多角度的自动化大模型测试系统,其特征是,所述的评测指标包括:绝对指标和相对指标,其中:绝对指标包括:绝对评测结果的精确度、准确率、召回率、f-score...

【专利技术属性】
技术研发人员:罗凯艺张晓凡
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1