System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 问题回答模型的评测方法及相关装置、设备、平台和介质制造方法及图纸_技高网

问题回答模型的评测方法及相关装置、设备、平台和介质制造方法及图纸

技术编号:41089904 阅读:4 留言:0更新日期:2024-04-25 13:50
本申请公开了一种问题回答模型的评测方法及相关装置、设备、平台和介质,其中,问题回答模型的评测方法包括:获取用于模拟用户与问题回答模型进行交互的交互模拟模型,并获取评测人员在首轮交互时模拟用户而输入的问题;获取问题回答模型响应于问题而输出的回答,并获取交互模拟模型响应于回答而输出新一轮的问题,以使问题回答模型响应于新一轮的问题与交互模拟模型开始新一轮的交互,直至交互结束;基于回答检测模型对问答数据进行检测,得到问题回答模型的评测结果;其中,问答数据包括各轮问答。上述方案,能够提升问题回答模型的评测效率。

【技术实现步骤摘要】

本申请涉及人工智能,特别是涉及一种问题回答模型的评测方法及相关装置、设备、平台和介质


技术介绍

1、近年来,随着人工智能技术的快速发展,通过问题回答模型来对用户问题进行自动回答并与用户进行交互,已经受到越来越多关注。。

2、目前,问题回答模型的传统评估方式都完全依赖于人工,即让问题回答模型所涉领域的专业人员进行肉眼评测。这种方法存在费时费力的问题,从而影响问题回答模型的评测效率。有鉴于此,如何提升问题回答模型的评测效率,成为亟待解决的问题。


技术实现思路

1、本申请提供一种型问题回答模型的评测方法及相关装置、设备、平台和介质。

2、本申请第一方面提供了一种问题回答模型的评测方法,包括:获取用于模拟用户与问题回答模型进行交互的交互模拟模型,并获取评测人员在首轮交互时模拟用户而输入的问题;获取问题回答模型响应于问题而输出的回答,并获取交互模拟模型响应于回答而输出新一轮的问题,以使问题回答模型响应于新一轮的问题与交互模拟模型开始新一轮的交互,直至交互结束;基于回答检测模型对问答数据进行检测,得到问题回答模型的评测结果;其中,问答数据包括各轮问答。

3、因此,获取用于模拟用户与问题回答模型进行交互的交互模拟模型,并获取评测人员在首轮交互时模拟用户而输入的问题,基于此再获取问题回答模型响应于问题而输出的回答,并获取交互模拟模型响应于回答而输出新一轮的问题,以使问题回答模型响应于新一轮的问题与交互模拟模型开始新一轮的交互,直至交互结束,从而基于回答检测模型对问答数据进行检测,得到问题回答模型的评测结果,且问答数据包括各轮问题,故一方面在交互层面通过构建交互模拟模型与问题回答模型进行自动交互,仅需在首轮交互时评测人员输入问题即可,另一方面在评测层面通过构建回答检测模型对问答数据进行检测,即可得到问题回答模型的评测结果,而无需人工肉眼评测。故此,能够提升问题回答模型的评测效率。

4、其中,在基于回答检测模型对问答数据进行检测,得到问题回答模型的评测结果之前,方法还包括:获取问题回答模型的目标评测标准;基于回答检测模型对问答数据进行检测,得到问题回答模型的评测结果,包括:基于回答检测模型按照目标评测标准对问答数据进行检测,得到问题回答模型的评测结果。

5、因此,在基于回答检测模型对问答数据进行检测之前,先获取问题回答模型的目标评测标准,再基于回答检测模型按照目标评测标准对问答数据进行检测,得到问题回答模型的评测结果,从而能够按照与问题回答模型适配的评测标准进行问答数据进行检测,进而能够有助于提升对问题回答模型的评测准确性。

6、其中,目标评测标准包含从不同维度评测问题回答模型的若干一级条目,一级条目下包含至少一个二级条目,基于回答检测模型按照目标评测标准对问答数据进行检测,得到问题回答模型的评测结果,包括:获取回答检测模型分别按照各个二级条目对问答数据的二级维度分值;基于相同一级条目下各个二级条目的二级维度分值进行融合,得到对应一级条目下的一级维度分值;基于若干一级条目下的一级维度分值,得到问题回答模型的评测结果。

7、因此,目标评测标准包含从不同维度评测问题回答模型的若干一级条目,一级条目下包含至少一个二级条目,从而在基于回答检测模型按照目标评测标准对问答数据进行检测时,先获取回答检测模型分别按照各个二级条目对问答数据的二级维度分值,再基于相同一级条目下各个二级条目的二级维度分值进行融合,得到对应一级条目下的一级维度分值,基于此即可基于若干一级条目下的一级维度分值,得到问题回答模型的评测结果,进而能够按照条目级别由低到高的顺序检测并汇总评测分值,有助于提升对问题回答模型评测的全面性和准确性。

8、其中,获取问题回答模型的目标评测标准,包括:基于由目标人员对第一评测标准的函询结果,对第一评测标准进行修改,得到第二评测标准;在至少一个方面对第二评测标准进行分析,得到分析结果;响应于分析结果满足预设标准条件,选择第二评测标准,作为新的第一评测标准,并对新的第一评测标准,重新执行基于由目标人员对第一评测标准的函询结果,对第一评测标准进行修改,得到第二评测标准的步骤,直至满足函询结束条件为止;选择最新第一评测标准,作为目标评测标准。

9、因此,基于由目标人员对第一评测标准的函询结果,对第一评测标准进行修改,得到第二评测标准,在至少一个方面对第二评测标准进行分析,得到分析结果,响应于分析结果满足预设标准条件,选择第二评测标准,作为新的第一评测标准,并对新的第一评测标准,重新执行基于由目标人员对第一评测标准的函询结果,对第一评测标准进行修改,得到第二评测标准的步骤,直至满足函询结束条件为止,故能够综合目标人员的专业知识和在至少一个方面对修改后评测标准的分析,经过多轮循环得到目标评测标准,有助于尽可能地提升目标评测标准的客观性、全面性和准确性。

10、其中,至少一个方面包括信度,在至少一个方面对第二评测标准进行分析,得到分析结果,包括:对于第二评测标准中各个条目,获取表征对应条目自身一致性的第一信度,并获取表征删除对应条目之后一致性的第二信度,以及基于第一信度和第二信度,得到对应条目的信度值;基于各个条目的信度值,得到第二评测标准的分析结果。

11、因此,在至少一个方面包括信度的情况下,对于第二评测标准中各个条目,获取表征对应条目自身一致性的第一信度,并获取表征删除对应条目之后一致性的信度,以及基于第一信度和第二信度,得到对应条目的信度值,从而基于各个条目的信度值,得到第二评测标准的分析结果,故能够在至少一个方面包括信度的情况下,在信度方面从两个维度分析第二评测标准的信度值,有助于提升信度分析的全面性和准确性。

12、其中,至少一个方面包括效度,在至少一个方面对第二评测标准进行分析,得到分析结果,包括:对于第二评测标准中各个条目,获取表征对应条目内容效度的第一效度,并获取表征对应条目结构效度的第二效度,以及基于第一效度和第二效度,得到对应条目的效度值;基于各个条目的效度值,得到第二评测标准的分析结果。

13、因此,在至少一个方面包括效度的情况下,对于第二评测标准中各个条目,获取表征对应条目内容效度的第一效度,并获取表征对应条目结构效度的第二效度,以及基于第一效度和第二效度,得到对应条目的效度值,从而基于各个条目的效度值,得到第二评测标准的分析结果,故能够在至少一个方面包括效度的情况下,在效度方面从内容和结构两个维度分析第二评测标准的效度值,有助于提升效度分析的全面性和准确性。

14、本申请第二方面提供了一种问题回答模型的评测装置,包括:获取模块、问答模块和检测模块,获取模块,用于获取用于模拟用户与问题回答模型进行交互的交互模拟模型,并获取评测人员在首轮交互时模拟用户而输入的问题;问答模块,用于获取问题回答模型响应于问题而输出的回答,并获取交互模拟模型响应于回答而输出新一轮的问题,以使问题回答模型响应于新一轮的问题与交互模拟模型开始新一轮的交互,直至交互结束;检测模块,用于基本文档来自技高网...

【技术保护点】

1.一种问题回答模型的评测方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在所述基于回答检测模型对问答数据进行检测,得到所述问题回答模型的评测结果之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述目标评测标准包含从不同维度评测所述问题回答模型的若干一级条目,所述一级条目下包含至少一个二级条目,所述基于所述回答检测模型按照所述目标评测标准对所述问答数据进行检测,得到所述问题回答模型的评测结果,包括:

4.根据权利要求2所述的方法,其特征在于,所述获取问题回答模型的目标评测标准,包括:

5.根据权利要求4所述的方法,其特征在于,所述至少一个方面包括信度,所述在至少一个方面对所述第二评测标准进行分析,得到分析结果,包括:

6.根据权利要求4所述的方法,其特征在于,所述至少一个方面包括效度,所述在至少一个方面对所述第二评测标准进行分析,得到分析结果,包括:

7.一种问题回答模型的评测装置,其特征在于,包括:

8.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至6任一项所述的问题回答模型的评测方法。

9.一种问题回答模型的评测平台,其特征在于,包括彼此之间通信连接的第一设备和第二设备,所述第一设备运行有交互模拟模型和回答检测模型,所述第二设备为权利要求8所述的电子设备,且所述第一设备和所述第二设备还与运行有问题回答模型的第三设备通信连接。

10.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至6任一项所述的问题回答模型的评测方法。

...

【技术特征摘要】

1.一种问题回答模型的评测方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在所述基于回答检测模型对问答数据进行检测,得到所述问题回答模型的评测结果之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述目标评测标准包含从不同维度评测所述问题回答模型的若干一级条目,所述一级条目下包含至少一个二级条目,所述基于所述回答检测模型按照所述目标评测标准对所述问答数据进行检测,得到所述问题回答模型的评测结果,包括:

4.根据权利要求2所述的方法,其特征在于,所述获取问题回答模型的目标评测标准,包括:

5.根据权利要求4所述的方法,其特征在于,所述至少一个方面包括信度,所述在至少一个方面对所述第二评测标准进行分析,得到分析结果,包括:

6.根据权利要求4所述的方法,其...

【专利技术属性】
技术研发人员:张少霆刘思辰
申请(专利权)人:上海商汤善萃医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1