【技术实现步骤摘要】
一种公平高效的多对话系统测评系统及方法
[0001]本专利技术属于人工智能
,涉及一种对话系统测评系统及方法,尤其涉及一种公平高效的多对话系统测评系统及方法
。
技术介绍
[0002]设计可靠
、
高效的评测系统及方法对于改进开放域对话系统具有重要的指导作用
。
在以生成式大语言模型(
LLM
)构建的对话系统为主导的时代,这一挑战变得越来越严峻
。
这些对话系统生成的回复具有丰富
、
多样的信息,如何准确
、
公正地评测这些回复是一个紧迫的问题
。
[0003]现有的对话系统评测方法主要分为两类:自动评测和人工评测
。
其中,自动评测方法通常将对话系统的回复与人工编写的参考回复进行比较,计算二者之间的相似度
。
然而,由于开放域对话没有明确的“正确”答案,已有的指标无法很好的识别与参考回复不同但仍然比较合适的回复
。
尽管研究者可以使用语言模型直接对回复打分来缓解这个问题,但是语言模型通常更倾向于选择与自己给出的回复相似的回复,造成了评测公平性的偏差
。
因此,招募标注人员与对话系统进行交互并给出得分是目前评测对话系统实际上的黄金标准
。
然而,人工评测也有其缺陷
。
对于标注人员来说,完成多维度的主观评分是十分困难且耗时的
。
虽然有研究者提出通过让标注人员在一对模型中进行偏好选 ...
【技术保护点】
【技术特征摘要】
1.
一种公平高效的多对话系统测评系统,其特征在于,包括:人机交互窗口,其用于供标注人员输入标注问题
、
显示各个对话系统针对所述标注问题生成的各自的回复以及供标注人员从多个回复中选择最佳回复;共享对话历史模块,其用于存储标注人员历史输入的标注问题及其对应的最佳回复以及最新输入的标注问题并将它们输入到各个对话系统中;多对话系统,其用于分别基于所述共享对话历史模块的输入而生成各自的回复;回复处理模块,其用于对所述多对话系统生成的各自的回复进行处理并将处理后的回复发送到所述人机交互窗口以供标注人员选择最佳回复;排名模块,其用于基于各个对话系统被选中的最佳回复的次数确定所述多对话系统的排名;排行榜模块,其用于使用
TrueSkill
算法,基于所述多对话系统的排名计算各个对话系统的分数,并基于分数更新所述多对话系统的排行榜
。2.
根据权利要求1所述的公平高效的多对话系统测评系统,其特征在于,所述回复处理模块对所述多对话系统生成的各自的回复进行处理包括:对所述多对话系统生成的各自的回复都进行匿名化处理,并将所述多对话系统生成的各自的回复打乱顺序
。3.
根据权利要求2所述的公平高效的多对话系统测评系统,其特征在于,所述回复处理模块对所述多对话系统生成的各自的回复进行处理还包括:识别和替换所述多对话系统生成的各自的回复中暴露对话系统身份的句子或单词,并且,等待所有对话系统的回复就绪后同时发送到所述人机交互窗口进行显示
。4.
根据权利要求3所述的公平高效的多对话系统测评系统,其特征在于,标注人员从多个回复中选择最佳回复的评测标准包括:回复的上下文一致性
、
信息量和内容的真实性
。5.
根据权利要求4所述的公平高效的多对话系统测评系统,其特征在于,
TrueSkill
算法将各个对话系统的能力建模为包含两个参数的高斯分布,其中一个参数为均值,另一参数 为标准差,所述排行榜模块通过如下公式计算各个对话系统的分数;式中,
。6.
一种采用权利要求1‑5中任一项所述的公平高效的多对话系统测评系统的测评方法,其特征在于,包括以下步骤:1)
、
标注人员通过所述人机交互窗口输入标注问题;2)
、
将标注人员输入的所述标注问题加入到所述共享对话历史模块中;3)
、
所述共享对话历史模块将所述标注问题输入到各个对话系统中,以...
【专利技术属性】
技术研发人员:张静,马泽尧,姚子骏,于济凡,张笑涵,
申请(专利权)人:北京智谱华章科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。