【技术实现步骤摘要】
测试集的生成方法、测试方法、装置、设备及介质
[0001]本申请涉及人工智能
,具体涉及一种测试集的生成方法、测试方法、装置、设备及介质。
技术介绍
[0002]随着人工智能技术在自然语言理解方面的发展,对话系统越来越多地被应用于各类场景,例如语音助手、智能音箱、对话机器人等。对话系统需要准确地理解用户所表达的意图,才能更好地与用户交流、满足用户的需求以及提高用户体验。一般通过对对话系统进行测试,可以了解对话系统的语义识别效果。现有的测试方法成本太高。
技术实现思路
[0003]有鉴于此,本申请实施例提供了一种测试集的生成方法、测试方法、装置、设备及介质,能够有效地扩大语义识别正确的测试示例的数量。
[0004]第一方面,本申请一实施例提供一种测试集的生成方法,该测试集的生成方法包括:确定第一对话样本中的语义识别正确的至少一个第一意图;在流程图中确定经过至少一个第一意图的至少一个预设路径,流程图包括多个节点,多个节点中的每个节点对应一轮对话,且节点包括至少一个意图,流程图进一步包括各个节点和意图 ...
【技术保护点】
【技术特征摘要】
1.一种测试集的生成方法,其特征在于,包括:确定第一对话样本中的语义识别正确的至少一个第一意图;在流程图中确定经过所述至少一个第一意图的至少一个预设路径,所述流程图包括多个节点,所述多个节点中的每个节点对应一轮对话,且所述节点包括至少一个意图,所述流程图进一步包括各个节点和意图之间的连接关系;基于所述至少一个预设路径生成至少一个测试示例,所述至少一个测试示例用于构成测试集,所述至少一个测试示例中的每个测试示例包括所述测试示例对应的路径信息。2.根据权利要求1所述的测试集的生成方法,其特征在于,所述基于所述至少一个预设路径生成至少一个测试示例,包括:在所述至少一个预设路径中的每个预设路径中确定位于所述至少一个第一意图后且与所述至少一个第一意图紧邻的第二意图;从第二对话样本中确定对应所述第二意图的语义识别正确的样本文本内容;基于所述样本文本内容以及所述第一对话样本中与所述至少一个第一意图对应的部分,生成所述预设路径对应的测试示例。3.根据权利要求1所述的测试集的生成方法,其特征在于,还包括:将所述第一对话样本中带有意图识别错误标记的一轮对话之前的至少一轮对话对应的意图作为所述至少一个第一意图。4.根据权利要求1所述的测试集的生成方法,其特征在于,还包括:随机从所述第一对话样本中的各轮对话中确定至少一轮对话对应的意图作为所述至少一个第一意图。5.根据权利要求1所述的测试集的生成方法,其特征在于,所述至少一个第一意图包括多个第一意图,其中,所述方法还包括:从所述第一对话样本中选取连续的N轮对话对应的意图作为所述多个第一意图,其中,所述基于所述至少一个预设路径生成至少一个测试示例,包括:确定与所述至少一个预设路径中每个预设路径对应的第二对话样本;从所述第二对话样本中确定对应所述多个第一意图的语义识别正确的样本文本内容;基于所述样本文本内容以及所述N轮对话生成所述预设路径对应的测试示例。6.根据权利要求5所述的测试集的生成方法,其特征在于,所述基于所述样本文本内容以及所述N轮对话生成所述预设路径对应的测试示例,包括:确定所述N轮对话与所述样本文本内容之间的相似度;在所述相似度大于或等于第一预设阈值时,将所述第二对话样本中位于所述样本文本内容之后的文本内容与所述N轮对话进行拼接以生成所述测试示例。7.根据权利要求6所述的测试集的生成方法,其特征在于,所述确定所述N轮对话与所述样本文本内容之间的相似度,包括:确定所述N轮对话对应的对话内容的第一结构化信息,并确定所述样本文本内容的第二结构化信息;基于所述第一结构化信息与所述第二结构化信息确定所述相似度。8.根据权利要求7所述的测试集的生成方法,其特征在于,所述确定所述N轮对话对应的对话内容的第一结构化信息,包括:
确定所述N轮对话中每轮对话对应的对话内容的令牌标签树;基于所述N轮对话对应的N个令牌标签树得到所述...
【专利技术属性】
技术研发人员:段纪丁,杜倩云,胡加学,李繁,赵敏志,黄志文,
申请(专利权)人:科大讯飞华南人工智能研究院广州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。