p>8、近期又有人尝试引入llm-as-a-judge来评估llms的一般对齐情况。例如,alpacaeval将目标llm的回复与text-davinci-003的回复进行比较,但由于直接和成对评分,显示出不稳定性和难以解释性。mt-bench利用链式思维(cot)解释进行单点式评分,以提高评价过程的准确性和透明度。然而,它仅仅使用了80个测试样本,并采用了相同的评分提示,以统一评判不同任务和领域的问题。最后,这两个基准测试都仅设计为英文,无法很好地反映许多新兴中文llms的对齐程度。
9、因此,针对上述现有技术中存在的缺陷,需要研发一种新型的针对中文大语言模型的对齐测评方法。
技术实现思路
1、为了克服现有技术的缺陷,本专利技术提出一种针对中文大语言模型的对齐测评方法,其有助于提高与人类判断的一致性和生成解释的质量。
2、为了实现上述目的,本专利技术提供如下技术方案:
3、一种针对中文大语言模型的对齐测评方法,其特征在于,包括以下步骤:
4、1)、构建对齐数据集,所述对齐数据集中的每条对齐数据都包括一个任务导向的用户问题、一个规则校准的参考答案和所述任务导向的用户问题对应的分类类别;
5、2)、将所述对齐数据集中的每条对齐数据都输入到待评测的中文大语言模型中,由所述待评测的中文大语言模型针对每条所述对齐数据分别生成对应的模型回复;
6、3)、基于所述任务导向的用户问题对应的分类类别构建alignbench,所述alignbench规定了对齐测评任务指令、按照类别选择的打分维度和解释规则、测评流程以及打分规则;
7、4)、由gpt-4基于所述对齐数据、模型回复和alignbench对所述待测评的中文大语言模型的对齐能力进行测评,以获得所述待测评的中文大语言模型的一个从1到10的最终评级和一个多维度的分析解释。
8、优选地,所述步骤1)中的构建对齐数据集具体包括:
9、1.1)、确定多个任务导向的用户问题;
10、1.2)、对所述多个任务导向的用户问题进行分类,以确定每个所述任务导向的用户问题对应的分类类别;
11、1.3)、获取和改进参考答案以得到规则校准的参考答案。
12、优选地,所述步骤1.1)中的确定多个任务导向的用户问题具体包括:
13、1.1.1)、选择任务导向的用户问题:从chatglm的在线聊天服务中选择任务导向的用户问题和由研究人员提供任务导向的用户问题;
14、1.1.2)、对所述任务导向的用户问题进行难度过滤,以获得具有挑战性的任务导向的用户问题。
15、优选地,所述步骤1.1.1)中,基于以下三条规则选择任务导向的用户问题:任务导向、清晰度和流畅度、复杂度和难度。
16、优选地,所述步骤1.2)中,对所述多个任务导向的用户问题进行分类时,共分成8个类别,分别为:基本语言能力、中文理解、综合问答、写作能力、逻辑推理、数学能力、角色扮演和专业知识。
17、优选地,所述步骤1.3)中,获取和改进参考答案以得到规则校准的参考答案具体包括:
18、1.3.1)、将所述多个任务导向的用户问题分别输入到gpt-4模型中,由所述gpt-4模型分别生成对应的初始参考答案;
19、1.3.2)、由标注人员针对所述初始参考答案中的问题进行纠正,以获得纠正后的参考答案;
20、1.3.3)、由标注人员依据评分规则对纠正后的参考答案进行修改,使得修改后的参考答案与所述评分规则相适应,以得到规则校准的参考答案。
21、优选地,所述步骤3)中,所述gpt-4对所述待测评的中文大语言模型的对齐能力进行测评时采用逐点评分方法来获得所述待测评的中文大语言模型的一个从1到10的最终评级。
22、优选地,所述步骤3)中,所述gpt-4对所述待测评的中文大语言模型的对齐能力进行测评时采用思路链方法来获得所述待测评的中文大语言模型的一个多维度的分析解释。
23、优选地,所述步骤3)中,基于所述任务导向的用户问题对应的分类类别确定所述多维度的分析解释的具体维度。
24、优选地,基于所述任务导向的用户问题对应的分类类别确定所述多维度的分析解释的具体维度具体为:所述基本语言能力、中文理解和专业能力类别对应的维度包括事实正确性、满足用户需求、清晰度和完备性四个维度;所述综合问答类别对应的维度包括事实正确性、满足用户需求、公平与可负责程度和创造性四个维度,述写作能力和角色扮演类别对应的维度包括事实正确性、满足用户需求、逻辑连贯性、创造性和丰富度五个维度,所述逻辑推理和数学能力类别对应的维度包括事实正确性、满足用户需求、逻辑连贯性和完备性四个维度。
25、与现有技术相比,本专利技术的针对中文大语言模型的对齐测评方法具有如下有益技术效果中的一者或多者:
26、1、本专利技术构建了对齐数据集,其有效地衡量了llms遵循指令和生成与用户意图一致的有用回答的能力,填补了中文领域内对齐测评的空白,并成为促进中文大语言模型对齐研究的有效工具。
27、2、本专利技术提出了多维度、规则校准的中文大语言模型评测方法,并证明了新的评测方法既与人类有出色的一致性,也与其他基线相比有显著更好的人类偏好,从而增强了对齐测评的可靠性。
...
【技术保护点】
1.一种针对中文大语言模型的对齐测评方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的针对中文大语言模型的对齐测评方法,其特征在于,所述步骤1)中的构建对齐数据集具体包括:
3.根据权利要求2所述的针对中文大语言模型的对齐测评方法,其特征在于,所述步骤1.1)中的确定多个任务导向的用户问题具体包括:
4.根据权利要求3所述的针对中文大语言模型的对齐测评方法,其特征在于,所述步骤1.1.1)中,基于以下三条规则选择任务导向的用户问题:任务导向、清晰度和流畅度、复杂度和难度。
5.根据权利要求4所述的针对中文大语言模型的对齐测评方法,其特征在于,所述步骤1.2)中,对所述多个任务导向的用户问题进行分类时,共分成8个类别,分别为:基本语言能力、中文理解、综合问答、写作能力、逻辑推理、数学能力、角色扮演和专业知识。
6.根据权利要求5所述的针对中文大语言模型的对齐测评方法,其特征在于,所述步骤1.3)中,获取和改进参考答案以得到规则校准的参考答案具体包括:
7.根据权利要求1-6中任一项所述的针对中文大语言模型的对齐测评方法,其特征在于,所述步骤4)中,所述GPT-4对所述待测评的中文大语言模型的对齐能力进行测评时采用逐点评分方法来获得所述待测评的中文大语言模型的一个从1到10的最终评级。
8.根据权利要求7所述的针对中文大语言模型的对齐测评方法,其特征在于,所述步骤4)中,所述GPT-4对所述待测评的中文大语言模型的对齐能力进行测评时采用思路链方法来获得所述待测评的中文大语言模型的一个多维度的分析解释。
9.根据权利要求8所述的针对中文大语言模型的对齐测评方法,其特征在于,所述步骤4)中,基于所述任务导向的用户问题对应的分类类别确定所述多维度的分析解释的具体维度。
10.根据权利要求9所述的针对中文大语言模型的对齐测评方法,其特征在于,基于所述任务导向的用户问题对应的分类类别确定所述多维度的分析解释的具体维度具体为:所述基本语言能力、中文理解和专业能力类别对应的维度包括事实正确性、满足用户需求、清晰度和完备性四个维度;所述综合问答类别对应的维度包括事实正确性、满足用户需求、公平与可负责程度和创造性四个维度,所述写作能力和角色扮演类别对应的维度包括事实正确性、满足用户需求、逻辑连贯性、创造性和丰富度五个维度,所述逻辑推理和数学能力类别对应的维度包括事实正确性、满足用户需求、逻辑连贯性和完备性四个维度。
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。