一种基于蜕变测试的大模型推理能力测试方法与框架技术

技术编号:42649003 阅读:59 留言:0更新日期:2024-09-06 01:42
本发明专利技术公开一种基于蜕变测试的大模型推理能力测试方法与框架,该方法包括:在采集新发布测试基准的同时,提出蜕变函数方法库并进行丰富完善;构建面向大模型推理能力评估领域的七要素蜕变关系模板;使用七元素蜕变关系模板,指导蜕变关系的设计过程,同时基于蜕变函数方法库的积累,生成初始测试用例集及衍生测试用例集和高质量蜕变关系,基于蜕变关系判定结果,引入蜕变关系揭错率,并利用揭错率针对蜕变关系揭错能力的量化反馈框架,优化蜕变关系执行顺序。本发明专利技术可以有效辅助蜕变测试技术在大模型测试领域的应用,高效梳理框架构建逻辑与环节,显著增强蜕变关系设计过程的可操作性与可解释性;本发明专利技术能够有效缓解大规模测试预期的构造问题。

【技术实现步骤摘要】

本专利技术涉及软件测试,涉及一种用于测试评估大模型推理能力的技术,尤其涉及一种基于蜕变测试的大模型推理能力测试方法与框架


技术介绍

1、大语言模型作为近几年新兴的人工智能新技术,其发展势头迅猛,内在潜力活力巨大。诚然,智能模型和算法的开发与创建固然重要,其是新技术发展不断攀升的直接动力来源,但是同时必须面对的现状是,我们对于人工智能技术的解释能力越来越弱,对技术的完全掌控能力受到威胁。对模型进行评估测试,简单点说就是利用人类智慧对人工智能设计难题,发起挑战,每一次的挑战成功,意味着人类智慧依旧胜过机械智慧。

2、相关的文献资料显示,涉及大模型评价方法的文章技术在2023年呈现出井喷式的出版和发表,比如junyi li et al(2023)针对大规模幻觉问题提出的halueval评价标准,thilini wijesiriwardene et al(2023)针对长文本类比评价问题提出的analogical新基准,yen-ting lin et al(2023)基于开放领域对话构建的llm-eval统一多维自动评估方法等。业界进行大模型评估测试本文档来自技高网...

【技术保护点】

1.一种基于蜕变测试的大模型推理能力测试方法,其特征在于,包括:

2.根据权利要求1所述的一种基于蜕变测试的大模型推理能力测试方法,其特征在于,所述初始测试用例集中的初始测试用例按照以下方式进行设计:

3.根据权利要求1所述的一种基于蜕变测试的大模型推理能力测试方法,其特征在于,所述蜕变函数包括:预定义的语义级语言翻译变换函数MR_FY、句子级前后件置换函数MR_AC和系统级目标大模型变换函数MR_LA;所述MR_FY通过预构建的基于小语种的单轮翻译迭代或基于联合国官方语言的多轮翻译迭代,得到经过不同程度映射变换的翻译文本;所述MR_AC根据初始测试用例所属大模型...

【技术特征摘要】

1.一种基于蜕变测试的大模型推理能力测试方法,其特征在于,包括:

2.根据权利要求1所述的一种基于蜕变测试的大模型推理能力测试方法,其特征在于,所述初始测试用例集中的初始测试用例按照以下方式进行设计:

3.根据权利要求1所述的一种基于蜕变测试的大模型推理能力测试方法,其特征在于,所述蜕变函数包括:预定义的语义级语言翻译变换函数mr_fy、句子级前后件置换函数mr_ac和系统级目标大模型变换函数mr_la;所述mr_fy通过预构建的基于小语种的单轮翻译迭代或基于联合国官方语言的多轮翻译迭代,得到经过不同程度映射变换的翻译文本;所述mr_ac根据初始测试用例所属大模型推理任务方向,构建方向相反的衍生测试用例,相应地进行输入文本和输出文本的结构调换,由初始测试用例中的正向前后件关系,变换为衍生测试用例集中的反向前后件关系;所述mr_la使用变换函数对开展测试大模型进行直接变换,将目标大模型变换为以大模型为开发基础的智能体。

4.根据权利要求3所述的一种基于蜕变测试的大模型推理能力测试方法,其特征在于,所述输出数据间函数包括get_predict函数,所述get_predict函数从大模型的生成式回答文本中提取得到最终的推理选项答案,以进行后续的结果核对。

5.根据权利要求4所述的一种基于蜕变测试的大模型推理能力测试方法,其特征在于,所述蜕变关系模板包括基于用例的推理结果不变蜕变模板mrt1;基...

【专利技术属性】
技术研发人员:李志博吴正琦兰明敬杨奎武侯雪梅吴建萍王婧宁原隆李顺航
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1