【技术实现步骤摘要】
所属的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。下面参照图8来描述根据本公开的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元810可以执行上述方法实施例的如下步骤:生成多组问答对,每组问答对包括:评估问题和标准答案;将每组问答对的评估问题输入至待评估的大语言模型问答系统中,获取所述
...【技术保护点】
1.一种大语言模型系统的评估方法,其特征在于,包括:
2.根据权利要求1所述的大语言模型系统的评估方法,其特征在于,所述大语言模型问答系统包括检索增强生成RAG系统。
3.根据权利要求2所述的大语言模型系统的评估方法,其特征在于,所述多组问答对的评估问题和标准答案基于RAG系统的知识库人工编撰生成或基于RAG系统的知识库以及大语言模型生成,生成的多组问答对的评估问题和标准答案经过人工核验。
4.根据权利要求2所述的大语言模型系统的评估方法,其特征在于,在将每组问答对的评估问题输入至待评估的大语言模型问答系统中,获取所述大语言模型问答
...【技术特征摘要】
1.一种大语言模型系统的评估方法,其特征在于,包括:
2.根据权利要求1所述的大语言模型系统的评估方法,其特征在于,所述大语言模型问答系统包括检索增强生成rag系统。
3.根据权利要求2所述的大语言模型系统的评估方法,其特征在于,所述多组问答对的评估问题和标准答案基于rag系统的知识库人工编撰生成或基于rag系统的知识库以及大语言模型生成,生成的多组问答对的评估问题和标准答案经过人工核验。
4.根据权利要求2所述的大语言模型系统的评估方法,其特征在于,在将每组问答对的评估问题输入至待评估的大语言模型问答系统中,获取所述大语言模型问答系统输出的问题答案之后,所述方法还包括:
5.根据权利要求4所述的大语言模型系统的评估方法,其特征在于,所述量化评估模型包括至少一种预先定义的评估指标以及每种评估指标对应的...
【专利技术属性】
技术研发人员:王学敏,李馨迟,夏晓晴,刘康,
申请(专利权)人:中国电信股份有限公司技术创新中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。