一种公平高效的多对话系统测评系统及方法技术方案

技术编号:39836487 阅读:8 留言:0更新日期:2023-12-29 16:20
本发明专利技术属于人工智能技术领域,涉及一种公平高效的多对话系统测评系统及方法,所述测评系统包括:人机交互窗口,用于供标注人员输入标注问题

【技术实现步骤摘要】
一种公平高效的多对话系统测评系统及方法


[0001]本专利技术属于人工智能
,涉及一种对话系统测评系统及方法,尤其涉及一种公平高效的多对话系统测评系统及方法


技术介绍

[0002]设计可靠

高效的评测系统及方法对于改进开放域对话系统具有重要的指导作用

在以生成式大语言模型(
LLM
)构建的对话系统为主导的时代,这一挑战变得越来越严峻

这些对话系统生成的回复具有丰富

多样的信息,如何准确

公正地评测这些回复是一个紧迫的问题

[0003]现有的对话系统评测方法主要分为两类:自动评测和人工评测

其中,自动评测方法通常将对话系统的回复与人工编写的参考回复进行比较,计算二者之间的相似度

然而,由于开放域对话没有明确的“正确”答案,已有的指标无法很好的识别与参考回复不同但仍然比较合适的回复

尽管研究者可以使用语言模型直接对回复打分来缓解这个问题,但是语言模型通常更倾向于选择与自己给出的回复相似的回复,造成了评测公平性的偏差

因此,招募标注人员与对话系统进行交互并给出得分是目前评测对话系统实际上的黄金标准

然而,人工评测也有其缺陷

对于标注人员来说,完成多维度的主观评分是十分困难且耗时的

虽然有研究者提出通过让标注人员在一对模型中进行偏好选择来提高效率,但是,这种方法仍然需要大量的标注才能获得稳定的对话系统排名

[0004]因此,针对上述现有技术中存在的缺陷,需要研发一种新型的对话系统测评系统及方法


技术实现思路

[0005]为了克服现有技术的缺陷,本专利技术提出一种公平高效的多对话系统评测系统及方法,其在标注时只需要进行偏好选择,且能够同时完成多个对话系统的评测,更高效

更节省人力

[0006]为了实现上述目的,本专利技术提供如下技术方案:一种公平高效的多对话系统测评系统,其特征在于,包括:人机交互窗口,其用于供标注人员输入标注问题

显示多对话系统针对所述标注问题生成的各自的回复以及供标注人员从多个回复中选择最佳回复;共享对话历史模块,其用于存储标注人员历史输入的标注问题及其对应的最佳回复以及最新输入的标注问题并将它们输入到对话系统中;多对话系统,其用于分别基于所述共享对话历史模块的输入而生成各自的回复;回复处理模块,其用于对所述多对话系统生成的各自的回复进行处理并将处理后的回复发送到所述人机交互窗口以供标注人员选择最佳回复;排名模块,其用于基于各个对话系统被选中的最佳回复的次数确定所述多对话系统的排名;
排行榜模块,其用于使用
TrueSkill
算法,基于所述多对话系统的排名计算各个对话系统的分数,并基于分数更新所述多对话系统的排行榜

[0007]优选地,所述回复处理模块对所述多对话系统生成的各自的回复进行处理包括:对所述多对话系统生成的各自的回复都进行匿名化处理,并将所述多对话系统生成的各自的回复打乱顺序

[0008]优选地,所述回复处理模块对所述多对话系统生成的各自的回复进行处理还包括:识别和替换所述多对话系统生成的各自的回复中暴露对话系统身份的句子或单词,并且,等待所有对话系统的回复就绪后同时发送到所述人机交互窗口进行显示

[0009]优选地,标注人员从多个回复中选择最佳回复的评测标准包括:回复的上下文一致性

信息量和内容的真实性

[0010]优选地,
TrueSkill
算法将各对话系统的能力建模为包含两个参数的高斯分布,其中一个参数 为均值,另一参数 为标准差,所述排行榜模块通过如下公式计算各个对话系统的分数;式中, K=3。
[0011]此外,本专利技术还提供一种采用上述公平高效的多对话系统测评系统的测评方法,其特征在于,包括以下步骤:1)

标注人员通过所述人机交互窗口输入标注问题;2)

将标注人员输入的所述标注问题加入到所述共享对话历史模块中;3)

所述共享对话历史模块将所述标注问题输入到各个对话系统中,以获得各个对话系统的各自的回复;4)

所述回复处理模块对各个对话系统的各自的回复进行处理后发送到所述人机交互窗口;5)

标注人员通过所述人机交互窗口选择最佳回复并输入新的标注问题;6)

将所述最佳回复和新的标注问题加入到所述共享对话历史模块中;7)

所述共享对话历史模块将所述标注问题及其对应的最佳回复和新的标注问题输入到各个对话系统中,以获得各个对话系统的各自的新的回复;8)

所述回复处理模块对各个对话系统的各自的新的回复进行处理后发送到所述人机交互窗口;9)

标注人员通过所述人机交互窗口选择新的最佳回复并确定是否结束标注,如果确定结束标注,则进入步骤
10
);如果确定不结束标注,则输入新的标注问题并返回到步骤6);
10


所述排名模块基于各对话系统被选中的最佳回复的次数确定所述多对话系统的排名;
11


所述排行榜模块使用
TrueSkill
算法,基于所述多对话系统的排名计算各对话系统的分数,并基于分数更新所述多对话系统的排行榜

[0012]优选地,所述回复处理模块对各个对话系统的各自的回复进行处理包括:对所述多对话系统的各自的回复都进行匿名化处理,并将所述多对话系统生成的各自的回复打乱
顺序

[0013]优选地,所述回复处理模块对各个对话系统的各自的回复进行处理还包括:识别和替换所述多对话系统生成的各自的回复中暴露对话系统身份的句子或单词,并且,等待所有对话系统的回复就绪后同时发送到所述人机交互窗口进行显示

[0014]优选地,标注人员通过所述人机交互窗口选择最佳回复的评测标准包括:回复的上下文一致性

信息量和内容的真实性

[0015]优选地,
TrueSkill
算法将各个对话系统的能力建模为包含两个参数的高斯分布,其中一个参数为均值,另一参数 为标注差,所述排行榜模块通过如下公式计算各个对话系统的分数;式中, K=3。
[0016]与现有技术相比,本专利技术的公平高效的多对话系统测评系统及方法具有如下有益技术效果中的一者或多者:
1、
本专利技术能够同时完成多个对话系统的评测,更高效

更节省人力

[0017]2、
本专利技术为所有参与评测的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种公平高效的多对话系统测评系统,其特征在于,包括:人机交互窗口,其用于供标注人员输入标注问题

显示各个对话系统针对所述标注问题生成的各自的回复以及供标注人员从多个回复中选择最佳回复;共享对话历史模块,其用于存储标注人员历史输入的标注问题及其对应的最佳回复以及最新输入的标注问题并将它们输入到各个对话系统中;多对话系统,其用于分别基于所述共享对话历史模块的输入而生成各自的回复;回复处理模块,其用于对所述多对话系统生成的各自的回复进行处理并将处理后的回复发送到所述人机交互窗口以供标注人员选择最佳回复;排名模块,其用于基于各个对话系统被选中的最佳回复的次数确定所述多对话系统的排名;排行榜模块,其用于使用
TrueSkill
算法,基于所述多对话系统的排名计算各个对话系统的分数,并基于分数更新所述多对话系统的排行榜
。2.
根据权利要求1所述的公平高效的多对话系统测评系统,其特征在于,所述回复处理模块对所述多对话系统生成的各自的回复进行处理包括:对所述多对话系统生成的各自的回复都进行匿名化处理,并将所述多对话系统生成的各自的回复打乱顺序
。3.
根据权利要求2所述的公平高效的多对话系统测评系统,其特征在于,所述回复处理模块对所述多对话系统生成的各自的回复进行处理还包括:识别和替换所述多对话系统生成的各自的回复中暴露对话系统身份的句子或单词,并且,等待所有对话系统的回复就绪后同时发送到所述人机交互窗口进行显示
。4.
根据权利要求3所述的公平高效的多对话系统测评系统,其特征在于,标注人员从多个回复中选择最佳回复的评测标准包括:回复的上下文一致性

信息量和内容的真实性
。5.
根据权利要求4所述的公平高效的多对话系统测评系统,其特征在于,
TrueSkill
算法将各个对话系统的能力建模为包含两个参数的高斯分布,其中一个参数为均值,另一参数 为标准差,所述排行榜模块通过如下公式计算各个对话系统的分数;式中,
。6.
一种采用权利要求1‑5中任一项所述的公平高效的多对话系统测评系统的测评方法,其特征在于,包括以下步骤:1)

标注人员通过所述人机交互窗口输入标注问题;2)

将标注人员输入的所述标注问题加入到所述共享对话历史模块中;3)

所述共享对话历史模块将所述标注问题输入到各个对话系统中,以...

【专利技术属性】
技术研发人员:张静马泽尧姚子骏于济凡张笑涵
申请(专利权)人:北京智谱华章科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1