【技术实现步骤摘要】
本专利技术涉及机器人测评,更具体的说是涉及一种聊天机器人多轮对话能力测评方法及系统。
技术介绍
1、聊天机器人在与用户建立联系时,被要求能够正确理解对话上下文,合理利用相关知识,检测用户的情绪和个性,最终生成与对话内容连贯一致的友好合理的响应。然而,聊天机器人能否实现上述目的,需要对其进行有效的测评。
2、早期的聊天机器人普遍采用检索匹配技术,由于机器人的回复都是事先配置好的,因此可以做到机器自动测评,构建测试集评价单轮准确率即可;但该方法缺点也很直观,即只支持简单的单轮对话,而且单轮的理解和回复能力也很有限。
3、随后,生成技术促使更自然的多轮对话成为可能。由于采用的是生成技术,而生成内容存在一定不确定性,因此普遍采用机器自动测评(辅)与人工测评(主)相结合的方式;
4、具体地,机器评价指标有bleu1/bleu2,distinct1/distent2,perplexity;
5、人工评价指标有:一致性,有信息性等。实际上,机器评价指标借鉴了机器翻译的评价指标,在聊天机器人评价上面比较牵
...【技术保护点】
1.一种聊天机器人多轮对话能力测评方法,其特征在于,包括:
2.根据权利要求1所述的聊天机器人多轮对话能力测评方法,其特征在于,基于对话连贯性、对话一致性、对话可信性,和/或对话安全性构建测试集。
3.根据权利要求2所述的聊天机器人多轮对话能力测评方法,其特征在于,
4.根据权利要求1所述的聊天机器人多轮对话能力测评方法,其特征在于,对测试集进行数据增强扩充,包括:
5.根据权利要求4所述的聊天机器人多轮对话能力测评方法,其特征在于,采用yaml格式对测试集的输出规范进行形式约束。
6.根据权利要求1所述的聊
...【技术特征摘要】
1.一种聊天机器人多轮对话能力测评方法,其特征在于,包括:
2.根据权利要求1所述的聊天机器人多轮对话能力测评方法,其特征在于,基于对话连贯性、对话一致性、对话可信性,和/或对话安全性构建测试集。
3.根据权利要求2所述的聊天机器人多轮对话能力测评方法,其特征在于,
4.根据权利要求1所述的聊天机器人多轮对话能力测评方法,其特征在于,对测试集进行数据增强扩充,包括:
5.根据权利要求4所述的聊天机器人多轮对话能力测评方法,其特征在于,采用yaml格式对测试集的输出规范进行形式约束。
6.根据权利要求1所述的聊天机器人多轮对话能力测评方法,其特征在于,所述测评项包括语言理解、决策信息、工具返回信息,以及机器回复。
7.根据权利要求6所述的聊天机器人多轮对话能力测评方法,其特征在于,所述语言理解和所述决策信息采用机器测评的方法进行测评,其中语言理解对应的测评标准包括:
8.根据权利要求6所述的聊天机器人多轮对话能力测评...
【专利技术属性】
技术研发人员:章彦博,苏江,
申请(专利权)人:暗物质北京智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。