【技术实现步骤摘要】
测评方法、装置、计算机设备及存储介质
[0001]本公开涉及计算机应用
,具体而言,涉及一种测评方法
、
装置
、
计算机设备及存储介质
。
技术介绍
[0002]模型应用方案是指以神经网络模型为基础搭建的问题解决方案
。
神经网络模型能够利用输入数据生成对应的输出数据
。
为了使神经网络模型能够更好的解决特定类型的问题,可以将神经网络模型与其他的功能进行拼接,得到模型应用方案
。
[0003]大语言模型
(Large Language Model
,
LLM)
是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义
。
随着大语言模型的能力提升,通过大语言模型解决实际问题的空间也对应提升,越来越多实际场景希望结合大语言模型探索解决方案
。
但在实际应用中,基于大语言模型搭建的模型应用方案涉及自然语言处理,大量依赖人工操作,完成对模型应用方案性 ...
【技术保护点】
【技术特征摘要】
1.
一种测评方法,其特征在于,包括:获取用于对模型应用方案的性能进行测评的待评价内容;以及构建测评指标;其中,所述测评指标包括与多个评价档位分别对应的
、
且基于自然语言构成的评价标准信息;基于所述待评价内容以及所述测评指标,生成评价提示词;将所述评价提示词输入至预先训练的评价内容生成模型,得到对所述模型应用方案进行测评的测评结果
。2.
根据权利要求1所述的方法,其特征在于,所述获取用于对模型应用方案的性能进行测评的待评价内容,包括:基于所述模型应用方案的应用需求,确定测评任务信息,并构建多个和所述应用需求相关的测试用例;基于所述模型应用方案执行所述测试用例,得到测试用例的执行结果;基于所述测评任务信息
、
所述测试用例
、
以及所述执行结果,生成所述待评价内容
。3.
根据权利要求2所述的方法,其特征在于,所述测试用例有多个;所述基于所述测评任务信息
、
所述测试用例
、
以及所述执行结果,生成所述待评价内容,包括:针对多个所述测试用例中的每个所述测试用例,从所述执行结果中,确定与每个所述测试用例对应的目标执行结果;将多个所述测试用例
、
对应的目标执行结果
、
以及所述测评任务信息按照目标文本结构进行拼接,得到多个所述测试用例对应的待评价内容
。4.
根据权利要求3所述的方法,其特征在于,所述构建测评指标,包括:显示测评指标配置页面;基于所述测评指标配置页面接收所述评价标准信息,并接收下述至少一种指标内容:指标名称
、
指标类型
、
指标评价模式
、
以及与多个所述评价档位分别对应的指标值;所述测试用例包括:和所述模型应用方案的多轮对话内容;所述指标评价模式,用于指示对多轮对话内容进行整体评价
、
或对多轮对话内容中的目标轮对话内容进行单独评价;基于所述评价标准信息
、
以及所述指标内容,生成所述测评指标
。5.
根据权利要求1所述的方法,其特征在于,所述基于所述待评价内容以及所述测评指标,生成评价提示词,包括:对所述待评价内容
、
和所述测评指...
【专利技术属性】
技术研发人员:吴祥,王军舟,林苗镔,
申请(专利权)人:北京有竹居网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。