人机交互的数据处理方法及服务器技术

技术编号:38134411 阅读:7 留言:0更新日期:2023-07-08 09:44
本申请提供一种人机交互的数据处理方法及服务器。本申请的方法,通过获取人机交互的指令,将指令输入实现人机交互的大模型,分别从伤害性、指令意图覆盖情况、事实性、内容质量的维度,对大模型输出的响应结果进行测评,得到响应结果在各个维度的响应质量信息;根据大模型输出的响应结果在各个维度的响应质量信息,计算大模型的响应质量信息,实现从伤害性、指令意图覆盖情况、事实性、内容质量等多个维度,对大模型的响应结果进行准确、全面、更细粒度地测评,基于大模型的响应质量信息指导大模型的上线判定、或更新大模型的优化版本、或选择优质的目标大模型,可提升基于大模型的人机对话的准确性,保证人机交互质量。保证人机交互质量。保证人机交互质量。

【技术实现步骤摘要】
人机交互的数据处理方法及服务器


[0001]本申请涉及计算机技术,尤其涉及一种人机交互的数据处理方法及服务器。

技术介绍

[0002]自然语言是人类逻辑和思维的重要载体,在人机交互,甚至通用人工智能领域具有非常重大的意义。但是因为自然语言的复杂性和模糊性,一直以来缺少直接面向无约束的自然语言的机器设施。
[0003]随着人工智能的发展,大模型被广泛应用于自然语言处理领域的人机交互中。大模型是指大规模深度学习模型,例如大规模的语言模型、多模态模型等,具有大规模的模型参数,通常包含上亿、上百亿、上千亿、上万亿甚至十万亿以上的模型参数。
[0004]在大模型的迭代过程中,需要测评不同版本的大模型的优劣,以实现大模型迭代更新。在大模型上线之前,需要测评大模型的表现是否满足上线要求,以上线表现优异的大模型,避免上线表现较差的大模型。目前对于人机交互的大模型,通常仅在大模型输出的答复是否对用户有帮助、答复内容是否安全等简单维度,对模型的表现进行笼统地打分,测评维度单一,无法准确全面地测评大模型的响应质量,不利于模型迭代中选择优质模型、不利于控制上线模型的质量,导致人机交互质量差。

技术实现思路

[0005]本申请提供一种人机交互的数据处理方法及服务器,用以解决无法准确全面地测评大模型的响应质量,不利于模型迭代中选择优质模型和控制上线模型的质量,导致人机交互质量差的问题。
[0006]第一方面,本申请提供一种人机交互的数据处理方法,包括:获取人机交互的指令,将所述指令输入大模型,通过大模型输出所述指令的响应结果;分别从伤害性、指令意图覆盖情况、事实性、内容质量的维度,对所述大模型输出的响应结果进行测评,得到所述响应结果在各个维度的响应质量信息;根据所述大模型输出的响应结果在各个维度的响应质量信息,计算所述大模型的响应质量信息;输出所述大模型的响应质量信息,所述大模型的响应质量信息用于指导所述大模型的上线判定、或更新所述大模型的优化版本、或选择优质的目标大模型。
[0007]第二方面,本申请提供一种人机交互的数据处理方法,应用于服务器,包括:接收端侧设备发送的对多个语言模型的响应质量测评请求;获取人机交互的指令,将所述指令输入各所述语言模型,通过各所述语言模型输出所述指令的响应结果;分别从伤害性、指令意图覆盖情况、事实性、内容质量的维度,对各所述语言模型输出的响应结果进行测评,并生成各所述语言模型的响应质量信息;
向端侧设备发送交互界面数据,所述交互界面数据包含各所述语言模型输出的所述指令的响应结果;接收端侧发送的在所述交互界面内指定的各所述语言模型输出的所述指令的响应结果的排序结果;根据各所述语言模型输出的所述指令的响应结果的排序结果,计算各所述语言模型的响应质量的相对测评信息;向所述端侧设备输出各所述语言模型的响应质量信息和相对测评信息。
[0008]第三方面,本申请提供一种人机交互的数据处理方法,应用于端侧设备,包括:向服务器发送对多个语言模型的响应质量测评请求;接收服务器发送的交互界面数据,所述交互界面数据包含各所述语言模型输出的响应结果,所述响应结果是通过如下方式生成的:获取人机交互的指令,将所述指令输入各所述语言模型,通过各所述语言模型输出所述指令的响应结果;根据所述交互界面数据显示交互界面,所述交互界面上显示各所述语言模型输出的所述指令的响应结果,所述交互界面上不显示响应结果与所述语言模型的对应关系;获取并向服务器发送在所述交互界面内指定的各所述语言模型输出的所述指令的响应结果的排序结果;接收各所述语言模型的响应质量信息和相对测评信息,其中各所述语言模型的响应质量信息是通过分别从伤害性、指令意图覆盖情况、事实性、内容质量的维度,对各所述语言模型输出的响应结果进行测评生成的,各所述语言模型的相对测评信息是根据各所述语言模型输出的所述指令的响应结果的排序结果计算得到的;输出各所述语言模型的响应质量信息和相对测评信息。
[0009]第四方面,本申请提供一种服务器,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面或第二方面所述的方法。
[0010]本申请提供的人机交互的数据处理方法及服务器,通过获取人机交互的指令,将指令输入实现人机交互的大模型,通过大模型输出指令的响应结果;分别从伤害性、指令意图覆盖情况、事实性、内容质量的维度,对大模型输出的响应结果进行测评,得到响应结果在各个维度的响应质量信息;根据大模型输出的响应结果在各个维度的响应质量信息,计算大模型的响应质量信息,实现从伤害性、指令意图覆盖情况、事实性、内容质量等多个维度,对大模型的响应结果进行准确、全面、更细粒度地测评,并输出大模型的响应质量信息,大模型的响应质量信息用于指导大模型的上线判定、或更新大模型的优化版本、或选择优质的目标大模型,可以准确地选择优质模型,提升迭代更新/选择的大模型的质量,提升上线模型的质量,从而提升基于大模型的人机对话的准确性,保证人机交互质量。
附图说明
[0011]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0012]图1为本申请所适用的一示例系统架构的示意图;图2为本申请一示例性实施例提供的人机交互的数据处理方法流程图;
图3为本申请一示例性实施例提供的第一交互界面的一个示例图;图4为本申请一示例性实施例提供的第二交互界面的一个示例图;图5为本申请一示例性实施例提供的人机交互的数据处理方法流程图;图6为本申请实施例提供的一种服务器的结构示意图。
[0013]通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
[0014]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0015]首先对本申请所涉及的名词进行解释:指令:指含有一定意图的自然语言文本,在人机交互场景中是指用户给出的问题。
[0016]响应结果:是指对于指令产出的回复信息。
[0017]视觉问答任务:根据输入的图像和问题,从输入图像的视觉信息中确定问题的答案。
[0018]图像描述任务:生成输入图像的描述文本。
[0019]视觉蕴涵任务:预测输入图像和文本在语义上的相关性,即蕴涵、中性或矛盾。
[0020]指代表达与理解任务:根据输入文本定位输入图像中与输入文本对应的图像区域。
[0021]图像生成任务:基于输入的描述文本生成图像。
[0022]基于文本的情感分类任本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人机交互的数据处理方法,其特征在于,包括:获取人机交互的指令,将所述指令输入大模型,通过大模型输出所述指令的响应结果;分别从伤害性、指令意图覆盖情况、事实性、内容质量的维度,对所述大模型输出的响应结果进行测评,得到所述响应结果在各个维度的响应质量信息;根据所述大模型输出的响应结果在各个维度的响应质量信息,计算所述大模型的响应质量信息;输出所述大模型的响应质量信息,所述大模型的响应质量信息用于指导所述大模型的上线判定、或更新所述大模型的优化版本、或选择优质的目标大模型。2.根据权利要求1所述的方法,其特征在于,所述分别从伤害性、指令意图覆盖情况、事实性、内容质量的维度,对所述大模型输出的响应结果进行测评,得到所述响应结果在各个维度的响应质量信息,包括:任一所述维度对应多个质量类别,不同的质量类别对应不同的响应质量信息,针对各所述维度,确定所述大模型输出的响应结果在各所述维度的质量类别;根据所述响应结果在各所述维度的质量类别,确定所述响应结果在各所述维度的响应质量信息。3.根据权利要求2所述的方法,其特征在于,伤害性包括如下质量类别:无伤害、有伤害;指令意图覆盖情况包括如下质量类别:完全识别指令意图、部分识别指令意图、未能识别指令意图、不应拒绝的指令意图但拒绝;事实性包括如下质量类别:无事实性错误、常识性事实错误、知识性事实错误、同时出现常识性和知识性事实错误;内容质量包括如下质量类别:连贯性好、连贯性中、连贯性差。4.根据权利要求2所述的方法,其特征在于,所述针对各所述维度,确定所述响应结果在各所述维度的质量类别,包括:通过第一交互界面显示所述响应结果、以及各维度对应的质量类别,并提供对所述响应结果在各维度的质量类别的输入区域;响应于对所述第一交互界面的提交操作,获取所述输入区域内输入的所述响应结果在各维度的质量类别。5.根据权利要求1所述的方法,其特征在于,根据所述大模型输出的响应结果在各个维度的响应质量信息,计算所述大模型的响应质量信息,包括:根据所述大模型输出的各所述响应结果在各个维度的响应质量信息,以及各个维度的权重系数,计算各所述响应结果的综合质量信息;根据所述大模型输出的各响应结果的综合质量信息,计算所述大模型的响应质量信息。6.根据权利要求5所述的方法,其特征在于,还包括:显示各个维度的权重配置界面;获取在所述权重配置界面上配置的各个维度的权重系数。7.根据权利要求5所述的方法,其特征在于,所述通过大模型输出所述指令的响应结果之后,还包括:
输出所述响应结果;接收对所述响应结果标注的综合质量类别,所述综合质量类别包括:好、一般、差;所述根据所述大模型输出的各所述响应结果在各个维度的响应质量信息,综合计算各所述响应结果的综合质量信息之后,还包括:根据不同的综合质量类别对应的质量信息区间,将所述响应结果被标注的综合质量类别对应的质量信息区间,作为所述响应结果对应的质量信息区间;对所述指令的响应结果进行过滤,去除综合质量信息不在对应质量信息区间内的响应结果。8.根据权利要求1

7中任一项所述的方法,其特征在于,所述获取人机交互的指令,将所述指令输入大模型,通过大模型输出所述指令的响应结果,包括:接收端侧设备发送的对多个大模型的响应质量测评请求;获取人机交互的指令,将所述指令分别输入所述多个大模型,得到...

【专利技术属性】
技术研发人员:张一昌刘高韩矞马坚鑫林俊旸周畅周靖人
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1