【技术实现步骤摘要】
本公开涉及计算机及人工智能,尤其涉及大语言模型(llm)、数据测试等领域,特别是涉及一种用于测试大语言模型的方法、装置、计算机设备、计算机可读存储介质及计算机程序产品。
技术介绍
1、近年来,大语言模型(也称为大模型)的出现极大地推动了人工智能领域的发展,其中一些具有思考过程的大语言模型还可以提供更强大的问题解决能力。然而,业界对于大语言模型的测试方法上的关注和开发程度仍较为有限。
2、目前传统的测试方法一般基于黑盒测试方案,其中在大语言模型的一侧发起问题并在另一侧获取大语言模型对问题的回答,由此基于对该回答的分析来确定测试结果。然而,这种传统测试方法的测试深度愈加不能满足技术迭代的要求。另外,目前传统的测试方法尚未实现端到端测试机制,与用户的真实使用场景还存在一定差距。因此,亟需更为有效的大语言模型测试方法以适配大语言模型自身的不断演进。
技术实现思路
1、本公开提供了一种用于测试大语言模型的方法、装置、计算机设备、计算机可读存储介质及计算机程序产品。
2、根据本
...【技术保护点】
1. 一种用于测试大语言模型的方法,其特征在于,所述方法用于在至少两个测试链路上执行,每个测试链路上经由推理引擎服务端部署至少一种大语言模型中的目标大语言模型, 并且每个测试链路上顺序地设置有用于分发测试用例的第一数量的第一分发单元和第二数量的第二分发单元,以及与所述推理引擎服务端通信连接的所述第二数量的交互界面服务端,所述第二数量是所述第一数量的N倍,N为大于或等于2的自然数,其中,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要
...【技术特征摘要】
1. 一种用于测试大语言模型的方法,其特征在于,所述方法用于在至少两个测试链路上执行,每个测试链路上经由推理引擎服务端部署至少一种大语言模型中的目标大语言模型, 并且每个测试链路上顺序地设置有用于分发测试用例的第一数量的第一分发单元和第二数量的第二分发单元,以及与所述推理引擎服务端通信连接的所述第二数量的交互界面服务端,所述第二数量是所述第一数量的n倍,n为大于或等于2的自然数,其中,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述经由所述第一分发单元和所述第二分发单元将所述测试用例通过所述交互界面服务端提供给所述目标大语言模型,包括:
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述测试用例包括用于引导所述目标大语言模型以预定格式输出处理结果的提示词。
6.根据权利要求5所述的方法,其特...
【专利技术属性】
技术研发人员:张超,
申请(专利权)人:瀚博半导体上海股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。