对话系统的数据处理方法、电子设备及可读存储介质技术方案

技术编号:32465737 阅读:19 留言:0更新日期:2022-02-26 09:03
本申请提供一种对话系统的数据处理方法、电子设备及可读存储介质。本申请的方法,通过实时获取对话系统的问答数据,根据问题的句向量与已有语义聚类的中心向量的相似度查找与问题匹配的候选聚类;将属于候选聚类的对话标注数据的标注知识与匹配知识进行匹配,确定对话标注数据中是否存在标注知识与匹配知识一致的第一标注数据;若不存在第一标注数据,则说明候选聚类中所有的对话标注数据的标注知识均与匹配知识不一致,可能存在识别错误,知识问答库中可能存在错误标注数据,生成当前问答数据对应的新的对话标注数据;若知识问答库存在错误标注数据,新的对话标注数据中包含错误标注数据,在进行标注时可以及时地发现错误的标注数据。的标注数据。的标注数据。

【技术实现步骤摘要】
对话系统的数据处理方法、电子设备及可读存储介质


[0001]本申请涉及人工智能技术,尤其涉及一种对话系统的数据处理方法、电子设备及可读存储介质。

技术介绍

[0002]对话系统是一款基于自然语言处理技术和对话管理技术的人机对话产品,如对话机器人等,主要的对话能力包括任务型对话、常见问题解答(Frequently Asked Questions,简称FAQ)、图谱问答、文档问答、表格问答以及对话中控能力等。对于对话系统来说,对话效果是提升核心竞争力最关键的指标,也是最能带来价值的直接因素,因此如何提升对话效果是对话系统最核心的要解决的问题。
[0003]数据标注和算法是保障对话系统的对话效果的必要因素,为了提升对话效果,除了优化自然语言理解算法以外,对话数据标注也非常关键。对话数据标注是将用户的问题标注到对应的知识上,标注后的数据作为算法模型的训练数据,以达到提升对话效果的目的。
[0004]传统的对话数据标注的方案,第一种是基于对话明细数据的标注方案,将将线上产生的问答数据直接存入到待标注数据库中,由标注人员人工逐条进行标注;这本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种对话系统的数据处理方法,其特征在于,包括:实时获取对话系统的问答数据,所述问答数据包括问题和匹配知识;根据所述问题的句向量与已有语义聚类的中心向量的相似度,查找与所述问题匹配的候选聚类;若找到所述候选聚类,则将属于所述候选聚类的对话标注数据的标注知识与所述匹配知识进行匹配,确定所述对话标注数据中是否存在标注知识与所述匹配知识一致的第一标注数据,其中每一所述对话标注数据包括问题、标注知识和聚类标识;若不存在所述第一标注数据,则将所述问答数据归入中心向量与所述句向量的相似度最高的候选聚类,并生成所述问答数据对应的对话标注数据。2.根据权利要求1所述的方法,其特征在于,所述根据所述问题的句向量与已有语义聚类的中心向量的相似度,查找与所述问题匹配的候选聚类之后,还包括:若未找到所述候选聚类,则生成一个以所述句向量为中心向量的新的语义聚类;将所述问答数据归入所述新的语义聚类,并生成所述问答数据对应的对话标注数据。3.根据权利要求1所述的方法,其特征在于,若找到所述候选聚类,则将属于所述候选聚类的对话标注数据的标注知识与所述匹配知识进行匹配,确定所述对话标注数据中是否存在标注知识与所述匹配知识一致的第一标注数据之后,还包括:若存在所述第一标注数据,则将所属语义聚类的中心向量与所述句向量的相似度最大的第一标注数据作为第二标注数据,并确定所述第二标注数据所属的第二聚类;若所述第二聚类的中心向量与所述句向量的相似度小于合并阈值,则将所述问答数据归入所述第二聚类,并生成所述问答数据对应的对话标注数据;若所述第二聚类的中心向量与所述句向量的相似度大于或等于合并阈值,则将所述第二标注数据对应的合并数据量加1。4.根据权利要求1所述的方法,其特征在于,所述将所述问答数据归入中心向量与所述句向量的相似度最高的候选聚类,并生成所述问答数据对应的对话标注数据之前,还包括:确定中心向量与所述句向量的相似度最高的第一聚类;根据所述句向量更新所述第一聚类的中心向量。5.根据权利要求3所述的方法,其特征在于,若存在所述第一标注数据,则将所属语义聚类的中心向量与所述句向量的相似度最大的第一标注数据作为第二标注数据,并确定所述第二标注数据所属的第二聚类之后,还包括:根据所述句向量更新所述第二聚类的中心向量。6.根据权利要求4或5所述的方法,其特征在于,根据所述句向量更新目标聚类的中心向量,包括:确定所述目标聚类对应的合并数据量,所述目标聚类对应的合并数据量等于属于所述目标聚类的所有对话标注数据对应合并数据量之和;将所述目标聚类对应的合并数据量作为所述目标聚类当前的中心向量的权重,对所述目标聚类当前的中心向量和所述句向量加权求均值,...

【专利技术属性】
技术研发人员:罗雪峰谢延
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1