一种针对大模型多轮对话能力的测试方法以及装置制造方法及图纸

技术编号：43584205 阅读：49 留言：0更新日期：2024-12-06 17:48

本说明书公开了一种针对大模型多轮对话能力的测试方法以及装置。获取主题问题文本，并确定对待测模型进行测试所需的对话轮数。根据对话轮数，执行针对待测模型的多轮输入操作，其中，针对每轮对话，将该轮对话对应的输入数据输入到待测模型中，得到待测模型在该轮对话输出的回答文本，并将待测模型在该轮对话输出的回答文本以及预设的提示语句输入到预设的辅助模型中，以通过辅助模型得到下一轮对话输入到待测模型中的输入数据，当该轮对话为首轮对话时，该轮对话对应的输入数据为主题问题文本。将每轮对话对应的输入数据以及预设的评测文本输入到预设的评测模型，以得到针对待测模型的测试结果，评测文本记录有对待测模型进行评测的评测规则。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书涉及计算机，尤其涉及一种针对大模型多轮对话能力的测试方法以及装置。

技术介绍

1、目前，随着人工智能的高速发展，由此训练出的大语言模型在虚拟助手、客服系统以及聊天机器人等领域都取得了巨大的成功，如内置了大语言模型的虚拟助手可通过模拟自然语言交流的方式为用户提供服务与帮助。

2、然而，巨大的成功也伴随着一个问题：尽管许多大语言模型设计时考虑了多轮对话的能力，并能够维持一定的对话历史，但随着对话轮数的增加，大语言模型可能会逐渐忘记之前的对话内容，导致回答不再连贯或失去先前讨论过的细节，甚至会出现错误。

3、因此，为了确保训练出的大语言模型的多轮对话能力，给用户以更好的服务，在大语言模型部署上线之前，需要对大语言模型的多轮对话能力进行测试与评估。

4、在现有技术中，通常通过人工的方式对大语言模型的多轮对话能力进行测试与评估，这种方式耗费巨大的人力成本且效率低下。

5、为此，本说明书提供了一种针对大模型多轮对话能力的测试方法以及装置。

技术实现思路>

1、本说明书本文档来自技高网...

【技术保护点】

1.一种针对大模型多轮对话能力的测试方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，所述方法还包括：

4.如权利要求3所述的方法，其特征在于，根据保存的测试用例，对所述待测模型进行测试，具体包括：

5.如权利要求4所述的方法，其特征在于，根据所述替换问题文本，重新对所述待测模型进行测试，具体包括：

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

7.如权利要求1所述的方法，其特征在于，所述方法还包括：