大语言模型系统的评估方法、装置及相关设备制造方法及图纸

技术编号:43809318 阅读:17 留言:0更新日期:2024-12-27 13:25
本公开提供了一种大语言模型系统的评估方法、装置及相关设备,涉及计算机技术领域。该方法包括:生成多组问答对,每组问答对包括:评估问题和标准答案;将每组问答对的评估问题输入至待评估的大语言模型问答系统中,获取大语言模型问答系统输出的问题答案;基于预先构建的量化评估模型,根据多组问答对的评估问题和标准答案,对大语言模型问答系统输出的问题答案进行评估。本公开利用预先构建的量化评估模型,根据标准答案对模型输出的答案进行评分,解决了传统评估方法中主观性和不一致性的问题,提高了评估的效率,自动化处理大量数据,节省了人力和时间成本。增强了评估的客观性,减少了人为误差,确保了评估结果的可靠性。

【技术实现步骤摘要】

所属的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。下面参照图8来描述根据本公开的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元810可以执行上述方法实施例的如下步骤:生成多组问答对,每组问答对包括:评估问题和标准答案;将每组问答对的评估问题输入至待评估的大语言模型问答系统中,获取所述大语言模型问答系统输本文档来自技高网...

【技术保护点】

1.一种大语言模型系统的评估方法,其特征在于,包括:

2.根据权利要求1所述的大语言模型系统的评估方法,其特征在于,所述大语言模型问答系统包括检索增强生成RAG系统。

3.根据权利要求2所述的大语言模型系统的评估方法,其特征在于,所述多组问答对的评估问题和标准答案基于RAG系统的知识库人工编撰生成或基于RAG系统的知识库以及大语言模型生成,生成的多组问答对的评估问题和标准答案经过人工核验。

4.根据权利要求2所述的大语言模型系统的评估方法,其特征在于,在将每组问答对的评估问题输入至待评估的大语言模型问答系统中,获取所述大语言模型问答系统输出的问题答案之...

【技术特征摘要】

1.一种大语言模型系统的评估方法,其特征在于,包括:

2.根据权利要求1所述的大语言模型系统的评估方法,其特征在于,所述大语言模型问答系统包括检索增强生成rag系统。

3.根据权利要求2所述的大语言模型系统的评估方法,其特征在于,所述多组问答对的评估问题和标准答案基于rag系统的知识库人工编撰生成或基于rag系统的知识库以及大语言模型生成,生成的多组问答对的评估问题和标准答案经过人工核验。

4.根据权利要求2所述的大语言模型系统的评估方法,其特征在于,在将每组问答对的评估问题输入至待评估的大语言模型问答系统中,获取所述大语言模型问答系统输出的问题答案之后,所述方法还包括:

5.根据权利要求4所述的大语言模型系统的评估方法,其特征在于,所述量化评估模型包括至少一种预先定义的评估指标以及每种评估指标对应的...

【专利技术属性】
技术研发人员:王学敏李馨迟夏晓晴刘康
申请(专利权)人:中国电信股份有限公司技术创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1