大语言模型的评测方法、装置、设备和存储介质制造方法及图纸

技术编号：46095870 阅读：8 留言：0更新日期：2025-08-12 18:15

本申请一个或多个实施例提供一种大语言模型的评测方法、装置、设备和存储介质，该方法包括：获取样本集合；样本包括查询文本、对应的生成答案文本和标准答案文本；生成答案文本由第一大语言模型基于查询文本进行推理而生成；基于各个样本生成提示文本，并将提示文本输入至少一个第二大语言模型，以由各个第二大语言模型在提示文本的引导下，对样本进行正确性评估，并生成与样本对应的模型评估结果；确定与各个样本对应的内容标签，并确定与内容标签对应的标注方，以触发由标注方根据与样本对应的模型评估结果，对样本进行正确性评估，并根据评估结果对样本进行标注；基于与各个样本对应的模型评估结果和标注结果，确定第一大语言模型的模型效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请一个或多个实施例涉及人工智能，尤其涉及一种大语言模型的评测方法、装置、设备和存储介质。

技术介绍

1、现如今，智能对话系统(intelligent dialogue system)在客户服务、法律援助、在线教育、医疗咨询等众多领域都有着广泛的应用。以快速发展的医疗咨询领域为例，智能对话系统已成为提高医疗服务质量和效率的关键工具，它通过模拟人类的交流方式，为用户提供与医疗相关的对话、问答、查询等服务，例如疾病诊断、治疗建议、药物说明等服务。

2、智能对话系统是大语言模型面向用户的一种具体应用形式，它旨在理解和解答用户以自然语言形式提出的问题，并能生成简洁明了的答案。具体地，智能对话系统以大语言模型为基础，由大语言模型针对用户提出的问题进行理解和解答，并生成相应的答案。因此，大语言模型的模型效果直接决定了智能对话的内容准确度，包括事实性、相关性、地域和时间正确性等。大语言模型的评测指的是通过特定的模型测试方法和模型效果指标，衡量大语言模型的模型效果好坏，这已成为确保大语言模型在实际应用中的可靠性、有效性和公平性的重要环节。

<本文档来自技高网...

【技术保护点】

1.一种大语言模型的评测方法，所述方法包括：

2.根据权利要求1所述的方法，所述确定与所述样本集合中的各个样本对应的内容标签，包括：

3.根据权利要求1所述的方法，所述确定与所述内容标签对应的标注方，包括：

4.根据权利要求1所述的方法，所述方法还包括：

5.根据权利要求1所述的方法，所述将所述提示文本输入至少一个第二大语言模型，以由各个第二大语言模型在所述提示文本的引导下，根据所述提示文本中的评估规则，以及所述样本中的查询文本和标准答案文本，对所述样本中的生成答案文本进行正确性评估，并生成与所述样本对应的模型评估结果，包括：

...

【技术特征摘要】

1.一种大语言模型的评测方法，所述方法包括：

2.根据权利要求1所述的方法，所述确定与所述样本集合中的各个样本对应的内容标签，包括：

3.根据权利要求1所述的方法，所述确定与所述内容标签对应的标注方，包括：

4.根据权利要求1所述的方法，所述方法还包括：

6.根据权利要求5所述的方法，所述评估规则包括至少一种子规则；

7.根据权利要求1所述的方法，所述基于与所述样本集合中的各个样本对应的模型...

【专利技术属性】
技术研发人员：郭春晓，张雍男，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人