聊天机器人多轮对话能力测评方法及系统技术方案

技术编号:41438114 阅读:55 留言:0更新日期:2024-05-28 20:32
本发明专利技术公开了一种聊天机器人多轮对话能力测评方法及系统,属于聊天机器人测评领域。测评过程包括构建测试集,所述测试集包括输入信息、机器读白和机器回复结果;以及将输入信息输入至聊天机器人,生成输出结果,根据所述输出结果和对应的机器读白、机器回复结果,按预设测评项及对应测评标准进行测评。本发明专利技术公开的对话能力测评方法可以实现对聊天机器人的多伦对话能力进行全面、系统性的定量测评。

【技术实现步骤摘要】

本专利技术涉及机器人测评,更具体的说是涉及一种聊天机器人多轮对话能力测评方法及系统


技术介绍

1、聊天机器人在与用户建立联系时,被要求能够正确理解对话上下文,合理利用相关知识,检测用户的情绪和个性,最终生成与对话内容连贯一致的友好合理的响应。然而,聊天机器人能否实现上述目的,需要对其进行有效的测评。

2、早期的聊天机器人普遍采用检索匹配技术,由于机器人的回复都是事先配置好的,因此可以做到机器自动测评,构建测试集评价单轮准确率即可;但该方法缺点也很直观,即只支持简单的单轮对话,而且单轮的理解和回复能力也很有限。

3、随后,生成技术促使更自然的多轮对话成为可能。由于采用的是生成技术,而生成内容存在一定不确定性,因此普遍采用机器自动测评(辅)与人工测评(主)相结合的方式;

4、具体地,机器评价指标有bleu1/bleu2,distinct1/distent2,perplexity;

5、人工评价指标有:一致性,有信息性等。实际上,机器评价指标借鉴了机器翻译的评价指标,在聊天机器人评价上面比较牵强,因为聊天机器人不本文档来自技高网...

【技术保护点】

1.一种聊天机器人多轮对话能力测评方法,其特征在于,包括:

2.根据权利要求1所述的聊天机器人多轮对话能力测评方法,其特征在于,基于对话连贯性、对话一致性、对话可信性,和/或对话安全性构建测试集。

3.根据权利要求2所述的聊天机器人多轮对话能力测评方法,其特征在于,

4.根据权利要求1所述的聊天机器人多轮对话能力测评方法,其特征在于,对测试集进行数据增强扩充,包括:

5.根据权利要求4所述的聊天机器人多轮对话能力测评方法,其特征在于,采用yaml格式对测试集的输出规范进行形式约束。

6.根据权利要求1所述的聊天机器人多轮对话能力...

【技术特征摘要】

1.一种聊天机器人多轮对话能力测评方法,其特征在于,包括:

2.根据权利要求1所述的聊天机器人多轮对话能力测评方法,其特征在于,基于对话连贯性、对话一致性、对话可信性,和/或对话安全性构建测试集。

3.根据权利要求2所述的聊天机器人多轮对话能力测评方法,其特征在于,

4.根据权利要求1所述的聊天机器人多轮对话能力测评方法,其特征在于,对测试集进行数据增强扩充,包括:

5.根据权利要求4所述的聊天机器人多轮对话能力测评方法,其特征在于,采用yaml格式对测试集的输出规范进行形式约束。

6.根据权利要求1所述的聊天机器人多轮对话能力测评方法,其特征在于,所述测评项包括语言理解、决策信息、工具返回信息,以及机器回复。

7.根据权利要求6所述的聊天机器人多轮对话能力测评方法,其特征在于,所述语言理解和所述决策信息采用机器测评的方法进行测评,其中语言理解对应的测评标准包括:

8.根据权利要求6所述的聊天机器人多轮对话能力测评...

【专利技术属性】
技术研发人员:章彦博苏江
申请(专利权)人:暗物质北京智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1