【技术实现步骤摘要】
本专利技术涉及软件测试,涉及一种用于测试评估大模型推理能力的技术,尤其涉及一种基于蜕变测试的大模型推理能力测试方法与框架。
技术介绍
1、大语言模型作为近几年新兴的人工智能新技术,其发展势头迅猛,内在潜力活力巨大。诚然,智能模型和算法的开发与创建固然重要,其是新技术发展不断攀升的直接动力来源,但是同时必须面对的现状是,我们对于人工智能技术的解释能力越来越弱,对技术的完全掌控能力受到威胁。对模型进行评估测试,简单点说就是利用人类智慧对人工智能设计难题,发起挑战,每一次的挑战成功,意味着人类智慧依旧胜过机械智慧。
2、相关的文献资料显示,涉及大模型评价方法的文章技术在2023年呈现出井喷式的出版和发表,比如junyi li et al(2023)针对大规模幻觉问题提出的halueval评价标准,thilini wijesiriwardene et al(2023)针对长文本类比评价问题提出的analogical新基准,yen-ting lin et al(2023)基于开放领域对话构建的llm-eval统一多维自动评估方法等。业
...【技术保护点】
1.一种基于蜕变测试的大模型推理能力测试方法,其特征在于,包括:
2.根据权利要求1所述的一种基于蜕变测试的大模型推理能力测试方法,其特征在于,所述初始测试用例集中的初始测试用例按照以下方式进行设计:
3.根据权利要求1所述的一种基于蜕变测试的大模型推理能力测试方法,其特征在于,所述蜕变函数包括:预定义的语义级语言翻译变换函数MR_FY、句子级前后件置换函数MR_AC和系统级目标大模型变换函数MR_LA;所述MR_FY通过预构建的基于小语种的单轮翻译迭代或基于联合国官方语言的多轮翻译迭代,得到经过不同程度映射变换的翻译文本;所述MR_AC根据初
...【技术特征摘要】
1.一种基于蜕变测试的大模型推理能力测试方法,其特征在于,包括:
2.根据权利要求1所述的一种基于蜕变测试的大模型推理能力测试方法,其特征在于,所述初始测试用例集中的初始测试用例按照以下方式进行设计:
3.根据权利要求1所述的一种基于蜕变测试的大模型推理能力测试方法,其特征在于,所述蜕变函数包括:预定义的语义级语言翻译变换函数mr_fy、句子级前后件置换函数mr_ac和系统级目标大模型变换函数mr_la;所述mr_fy通过预构建的基于小语种的单轮翻译迭代或基于联合国官方语言的多轮翻译迭代,得到经过不同程度映射变换的翻译文本;所述mr_ac根据初始测试用例所属大模型推理任务方向,构建方向相反的衍生测试用例,相应地进行输入文本和输出文本的结构调换,由初始测试用例中的正向前后件关系,变换为衍生测试用例集中的反向前后件关系;所述mr_la使用变换函数对开展测试大模型进行直接变换,将目标大模型变换为以大模型为开发基础的智能体。
4.根据权利要求3所述的一种基于蜕变测试的大模型推理能力测试方法,其特征在于,所述输出数据间函数包括get_predict函数,所述get_predict函数从大模型的生成式回答文本中提取得到最终的推理选项答案,以进行后续的结果核对。
5.根据权利要求4所述的一种基于蜕变测试的大模型推理能力测试方法,其特征在于,所述蜕变关系模板包括基于用例的推理结果不变蜕变模板mrt1;基...
【专利技术属性】
技术研发人员:李志博,吴正琦,兰明敬,杨奎武,侯雪梅,吴建萍,王婧,宁原隆,李顺航,
申请(专利权)人:中国人民解放军战略支援部队信息工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。