用于知识库问答的数据处理方法及设备技术

技术编号:24938129 阅读:33 留言:0更新日期:2020-07-17 20:57
本公开提供了一种用于知识库问答的数据处理方法及设备,该数据处理方法包括:从知识库获取任一知识条目;在对话记录中选取与知识条目匹配的用户说法形成用户说法的集合;将用户说法的集合与知识条目进行关联;将关联后的用户说法的集合与知识条目作为训练样本对知识库问答模型进行训练,以根据训练结果对后续输入的用户说法进行反馈。该数据处理方法能够提升模型基于线上真实数据优化的实时性,保障模型效果最优;提升运营人员的操作便捷性,提升工作效率;加速发现知识条目中存在的不足,促进知识库不断完善。

【技术实现步骤摘要】
用于知识库问答的数据处理方法及设备
本公开涉及数据处理
,尤其涉及一种用于知识库问答的数据处理方法及设备。
技术介绍
问答系统的历史整体进程是从基于模板的问答专家系统发展到基于信息检索的问答,然后发展到基于社区的问答,再发展到目前的基于知识库的问答。基于信息检索的问答算法是在关键词匹配的基础上结合信息抽取和浅层语义分析。基于社区的问答依赖于网民贡献,问答过程依赖于关键词检索技术。基于知识库的问答则基于语义解析和知识库,通过知识库问答模型将用户输入的问题进行语义解析,并在知识库中选取与用户输入的问题相匹配的知识条目。现有的基于知识库问答的模型优化往往需要离线进行,不能支持运营人员在线实时调优模型,且知识库问答在线标注不够自动化,未对线上大量的真实数据做有效筛选、聚类和推荐,使得运营人员标注工作效率低、工作量大、重复性高。另外,线上用户的许多用户说法的数据,未被模型有效使用。
技术实现思路
为了解决或者至少缓解上述技术问题中的至少一个,本公开提供了一种用于知识库问答的处理方法及设备。根据本公开的一个方面,一种用于知识库问答的数据处理方法,所述数据处理方法包括:从知识库获取任一知识条目;在对话记录中选取与所述知识条目匹配的用户说法形成用户说法的集合;将所述用户说法的集合与所述知识条目进行关联;以及将关联后的所述用户说法的集合与所述知识条目作为训练样本对知识库问答模型进行训练,以根据训练结果对后续输入的用户说法进行反馈。根据本公开的至少一个实施方式,所述在对话记录中选取与所述知识条目匹配的用户说法形成用户说法的集合,包括:如果所述知识条目被知识库问答模型作为近似答案提供给用户,且被用户回复或点击选取过,则将所述对话记录中对应的用户说法设定为A级;如果所述知识条目被知识库问答模型作为近似答案提供给用户,且未被用户回复或点击选取过,则将所述对话记录中对应的用户说法设定为B级;如果所述知识条目既没有被知识库问答模型作为最佳答案也没有作为近似答案提供给用户,但是置信度大于等于预设值,则将所述对话记录中对应的用户说法设定为C级;以及将所述用户说法按照优先级A级>B级>C级的顺序进行排序并去重,以形成所述用户说法的集合。根据本公开的另一个方面,一种用于知识库问答的数据处理方法,所述数据处理方法包括:将对话记录中的用户说法进行聚类,形成至少一类用户说法的集合;针对每一类用户说法的集合,从知识库选出与该类用户说法的集合匹配的知识条目的集合;将该类用户说法的集合与所述知识条目的集合中的其中一个知识条目进行关联;以及将关联后的该类用户说法的集合与所述其中一个知识条目作为训练样本对知识库问答模型进行训练,以根据训练结果对后续输入的用户说法进行反馈。根据本公开的至少一个实施方式,所述将对话记录中的用户说法进行聚类,形成至少一类用户说法的集合,包括:在对话记录中,将知识库问答模型的反馈内容包括近似答案或无答案的用户说法聚为一类;或者在对话记录中,将知识库问答模型给出的置信度小于预设值的用户说法聚为一类。根据本公开的至少一个实施方式,所述将对话记录中的用户说法进行聚类,形成至少一类用户说法的集合,包括:将聚类得到的至少一类用户说法的集合进行排序。根据本公开的至少一个实施方式,所述将聚类得到的至少一类用户说法的集合进行排序,包括:将聚类得到的至少一类用户说法的集合按照提问次数进行降序排列;其中,提问次数是指每一类用户说法的集合中未去重的用户说法的总数。根据本公开的至少一个实施方式,所述将聚类得到的至少一类用户说法的集合进行排序,包括:将提问次数相同的至少一类用户说法的集合按照聚类问题数进行升序排列;聚类问题数是指每一类用户说法的集合中去重后的用户说法的总数。根据本公开的至少一个实施方式,所述将聚类得到的至少一类用户说法的集合进行排序,包括:将聚类问题数相同的至少一类用户说法的集合按照时间由近及远的顺序进行排序。根据本公开的至少一个实施方式,所述针对每一类用户说法的集合,从知识库选出与该类用户说法的集合匹配的知识条目的集合,包括:将知识库中的知识条目与每一类用户说法的集合中的各个用户说法进行逐一匹配;选取知识库问答模型给出的置信度大于等于预设值的知识条目形成所述知识条目的集合;以及在所述知识条目的集合中,按照各个知识条目出现的累计次数降序排列并去重。根据本公开的另一个方面,一种用于知识库问答的处理设备,所述设备包括:存储器,所述存储器存储有执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行前述任一项所述的方法。附图说明附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。图1是本公开用于知识库问答的数据处理方法的一种示例性实施方式的流程示意图。图2是本公开用于知识库问答的数据处理方法的另一种示例性实施方式的流程示意图。图3是本公开用于知识库问答的数据处理方法的另一种示例性实施方式的流程示意图。图4是本公开用于知识库问答的数据处理设备的示例性实施方式的结构示意图。具体实施方式下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开。知识库问答系统包括知识库问答模型和建立的知识库,知识库中包括若干知识条目,知识条目是知识库组成的最小单位。当知识库问答模型接收到一个用户说法(用户提问的问题)时,通过语义模型进行相似度计算,在知识库中获取答案并反馈给用户,常见于FAQ一问一答的问答形式。知识库问答系统可以有多种实现形式,例如设置成智能对话机器人等。在知识库问答系统的在线使用过程中,其中的一个用户说法以及对该用户说法反馈的知识条目组成相应的一条对话记录。在一种应用场景中,用户向知识库问答模型输入用户说法,知识库问答模型可以针对用户说法在知识库中找出匹配的知识条目形成反馈。对于同一个用户说法,知识库问答模型可能会反馈不止一个知识条目。而对于有些用户说法,也可能在知识库中找不到匹配度合适的知识条目,从而得不到答案,这种情况下知识库问答模型会反馈“无法提供答案”等类似的答复。在知识库问答模型将用户说法与知识库中的每个知识条目相匹配的过程中,对于每一个知识条目,知识库问答模型会分别给出相应的置信度,置信度是指知识库问答模型在对该用户说法和对应的一个知识条目进行判断后,得出的该用户说法与该对应的知识条目之间相匹配的可信程度。知识库本文档来自技高网...

【技术保护点】
1.一种用于知识库问答的数据处理方法,其特征在于,所述方法包括:/n从知识库获取任一知识条目;/n在对话记录中选取与所述知识条目匹配的用户说法形成用户说法的集合;/n将所述用户说法的集合与所述知识条目进行关联;以及/n将关联后的所述用户说法的集合与所述知识条目作为训练样本对知识库问答模型进行训练,以根据训练结果对后续输入的用户说法进行反馈。/n

【技术特征摘要】
1.一种用于知识库问答的数据处理方法,其特征在于,所述方法包括:
从知识库获取任一知识条目;
在对话记录中选取与所述知识条目匹配的用户说法形成用户说法的集合;
将所述用户说法的集合与所述知识条目进行关联;以及
将关联后的所述用户说法的集合与所述知识条目作为训练样本对知识库问答模型进行训练,以根据训练结果对后续输入的用户说法进行反馈。


2.如权利要求1所述的数据处理方法,其特征在于,所述在对话记录中选取与所述知识条目匹配的用户说法形成用户说法的集合,包括:
如果所述知识条目被知识库问答模型作为近似答案提供给用户,且被用户回复或点击选取过,则将所述对话记录中对应的用户说法设定为A级;
如果所述知识条目被知识库问答模型作为近似答案提供给用户,且未被用户回复或点击选取过,则将所述对话记录中对应的用户说法设定为B级;
如果所述知识条目既没有被知识库问答模型作为最佳答案也没有作为近似答案提供给用户,但是置信度大于等于预设值,则将所述对话记录中对应的用户说法设定为C级;以及
将所述用户说法按照优先级A级>B级>C级的顺序进行排序并去重,以形成所述用户说法的集合。


3.一种用于知识库问答的数据处理方法,其特征在于,所述方法包括:
将对话记录中的用户说法进行聚类,形成至少一类用户说法的集合;
针对每一类用户说法的集合,从知识库选出与该类用户说法的集合匹配的知识条目的集合;
将该类用户说法的集合与所述知识条目的集合中的其中一个知识条目进行关联;以及
将关联后的该类用户说法的集合与所述其中一个知识条目作为训练样本对知识库问答模型进行训练,以根据训练结果对后续输入的用户说法进行反馈。


4.如权利要求3所述的数据处理方法,其特征在于,所述将对话记录中的用户说法进行聚类,形成至少一类用户说法的集合,包括:
在对话记录中,将知识库问答模型的反馈内容包括...

【专利技术属性】
技术研发人员:谷博雷欣李志飞
申请(专利权)人:出门问问信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1