大语言模型的评测方法、装置、设备和存储介质制造方法及图纸

技术编号:46095870 阅读:8 留言:0更新日期:2025-08-12 18:15
本申请一个或多个实施例提供一种大语言模型的评测方法、装置、设备和存储介质,该方法包括:获取样本集合;样本包括查询文本、对应的生成答案文本和标准答案文本;生成答案文本由第一大语言模型基于查询文本进行推理而生成;基于各个样本生成提示文本,并将提示文本输入至少一个第二大语言模型,以由各个第二大语言模型在提示文本的引导下,对样本进行正确性评估,并生成与样本对应的模型评估结果;确定与各个样本对应的内容标签,并确定与内容标签对应的标注方,以触发由标注方根据与样本对应的模型评估结果,对样本进行正确性评估,并根据评估结果对样本进行标注;基于与各个样本对应的模型评估结果和标注结果,确定第一大语言模型的模型效果。

【技术实现步骤摘要】

本申请一个或多个实施例涉及人工智能,尤其涉及一种大语言模型的评测方法、装置、设备和存储介质


技术介绍

1、现如今,智能对话系统(intelligent dialogue system)在客户服务、法律援助、在线教育、医疗咨询等众多领域都有着广泛的应用。以快速发展的医疗咨询领域为例,智能对话系统已成为提高医疗服务质量和效率的关键工具,它通过模拟人类的交流方式,为用户提供与医疗相关的对话、问答、查询等服务,例如疾病诊断、治疗建议、药物说明等服务。

2、智能对话系统是大语言模型面向用户的一种具体应用形式,它旨在理解和解答用户以自然语言形式提出的问题,并能生成简洁明了的答案。具体地,智能对话系统以大语言模型为基础,由大语言模型针对用户提出的问题进行理解和解答,并生成相应的答案。因此,大语言模型的模型效果直接决定了智能对话的内容准确度,包括事实性、相关性、地域和时间正确性等。大语言模型的评测指的是通过特定的模型测试方法和模型效果指标,衡量大语言模型的模型效果好坏,这已成为确保大语言模型在实际应用中的可靠性、有效性和公平性的重要环节。


<本文档来自技高网...

【技术保护点】

1.一种大语言模型的评测方法,所述方法包括:

2.根据权利要求1所述的方法,所述确定与所述样本集合中的各个样本对应的内容标签,包括:

3.根据权利要求1所述的方法,所述确定与所述内容标签对应的标注方,包括:

4.根据权利要求1所述的方法,所述方法还包括:

5.根据权利要求1所述的方法,所述将所述提示文本输入至少一个第二大语言模型,以由各个第二大语言模型在所述提示文本的引导下,根据所述提示文本中的评估规则,以及所述样本中的查询文本和标准答案文本,对所述样本中的生成答案文本进行正确性评估,并生成与所述样本对应的模型评估结果,包括:

...

【技术特征摘要】

1.一种大语言模型的评测方法,所述方法包括:

2.根据权利要求1所述的方法,所述确定与所述样本集合中的各个样本对应的内容标签,包括:

3.根据权利要求1所述的方法,所述确定与所述内容标签对应的标注方,包括:

4.根据权利要求1所述的方法,所述方法还包括:

5.根据权利要求1所述的方法,所述将所述提示文本输入至少一个第二大语言模型,以由各个第二大语言模型在所述提示文本的引导下,根据所述提示文本中的评估规则,以及所述样本中的查询文本和标准答案文本,对所述样本中的生成答案文本进行正确性评估,并生成与所述样本对应的模型评估结果,包括:

6.根据权利要求5所述的方法,所述评估规则包括至少一种子规则;

7.根据权利要求1所述的方法,所述基于与所述样本集合中的各个样本对应的模型...

【专利技术属性】
技术研发人员:郭春晓张雍男
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1