用于测试大语言模型的方法、装置及计算机设备、存储介质、程序产品制造方法及图纸

技术编号：46495450 阅读：6 留言：0更新日期：2025-09-26 19:13

本公开提供了一种用于测试大语言模型的方法、装置及计算机设备、存储介质、程序产品，涉及计算机及人工智能领域。实现方案为：经由交互界面服务端设置目标大语言模型的目标超参数，目标超参数用于调节目标大语言模型预测词元的概率分布；执行多轮测试，针对每轮测试：经由第一分发单元和第二分发单元将测试用例通过交互界面服务端提供给目标大语言模型；获取目标大语言模型响应于测试用例预测词元得到的未归一化的原始预测分数；将未归一化的原始预测分数转换成字节串；对执行多轮测试各自得到的字节串进行比较，以确定是否存在不一致的字节串；以及响应于确定存在不一致的字节串，确定目标大语言模型在测试链路上出现输出确定性异常。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机及人工智能，尤其涉及大语言模型（llm）、数据测试等领域，特别是涉及一种用于测试大语言模型的方法、装置、计算机设备、计算机可读存储介质及计算机程序产品。

技术介绍

1、近年来，大语言模型（也称为大模型）的出现极大地推动了人工智能领域的发展，其中一些具有思考过程的大语言模型还可以提供更强大的问题解决能力。然而，业界对于大语言模型的测试方法上的关注和开发程度仍较为有限。

2、目前传统的测试方法一般基于黑盒测试方案，其中在大语言模型的一侧发起问题并在另一侧获取大语言模型对问题的回答，由此基于对该回答的分析来确定测试结果。然而，这种传统测试方法的测试深度愈加不能满足技术迭代的要求。另外，目前传统的测试方法尚未实现端到端测试机制，与用户的真实使用场景还存在一定差距。因此，亟需更为有效的大语言模型测试方法以适配大语言模型自身的不断演进。

技术实现思路

1、本公开提供了一种用于测试大语言模型的方法、装置、计算机设备、计算机可读存储介质及计算机程序产品。

2、根据本...

【技术保护点】

1. 一种用于测试大语言模型的方法，其特征在于，所述方法用于在至少两个测试链路上执行，每个测试链路上经由推理引擎服务端部署至少一种大语言模型中的目标大语言模型，并且每个测试链路上顺序地设置有用于分发测试用例的第一数量的第一分发单元和第二数量的第二分发单元，以及与所述推理引擎服务端通信连接的所述第二数量的交互界面服务端，所述第二数量是所述第一数量的N倍，N为大于或等于2的自然数，其中，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1至3中任一项所述...

【技术特征摘要】

1. 一种用于测试大语言模型的方法，其特征在于，所述方法用于在至少两个测试链路上执行，每个测试链路上经由推理引擎服务端部署至少一种大语言模型中的目标大语言模型，并且每个测试链路上顺序地设置有用于分发测试用例的第一数量的第一分发单元和第二数量的第二分发单元，以及与所述推理引擎服务端通信连接的所述第二数量的交互界面服务端，所述第二数量是所述第一数量的n倍，n为大于或等于2的自然数，其中，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述经由所述第一分发单元和所述第二分发单元将所述测试用例通过所述交互界面服务端提供给所述目标大语言模型，包括：

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述测试用例包括用于引导所述目标大语言模型以预定格式输出处理结果的提示词。

6.根据权利要求5所述的方法，其特...

【专利技术属性】
技术研发人员：张超，
申请(专利权)人：瀚博半导体上海股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人