用于知识库问答的数据处理方法及设备技术

技术编号：24938129 阅读：33 留言：0更新日期：2020-07-17 20:57

本公开提供了一种用于知识库问答的数据处理方法及设备，该数据处理方法包括：从知识库获取任一知识条目；在对话记录中选取与知识条目匹配的用户说法形成用户说法的集合；将用户说法的集合与知识条目进行关联；将关联后的用户说法的集合与知识条目作为训练样本对知识库问答模型进行训练，以根据训练结果对后续输入的用户说法进行反馈。该数据处理方法能够提升模型基于线上真实数据优化的实时性，保障模型效果最优；提升运营人员的操作便捷性，提升工作效率；加速发现知识条目中存在的不足，促进知识库不断完善。

全部详细技术资料下载

【技术实现步骤摘要】
用于知识库问答的数据处理方法及设备
本公开涉及数据处理
，尤其涉及一种用于知识库问答的数据处理方法及设备。
技术介绍
问答系统的历史整体进程是从基于模板的问答专家系统发展到基于信息检索的问答，然后发展到基于社区的问答，再发展到目前的基于知识库的问答。基于信息检索的问答算法是在关键词匹配的基础上结合信息抽取和浅层语义分析。基于社区的问答依赖于网民贡献，问答过程依赖于关键词检索技术。基于知识库的问答则基于语义解析和知识库，通过知识库问答模型将用户输入的问题进行语义解析，并在知识库中选取与用户输入的问题相匹配的知识条目。现有的基于知识库问答的模型优化往往需要离线进行，不能支持运营人员在线实时调优模型，且知识库问答在线标注不够自动化，未对线上大量的真实数据做有效筛选、聚类和推荐，使得运营人员标注工作效率低、工作量大、重复性高。另外，线上用户的许多用户说法的数据，未被模型有效使用。
技术实现思路
为了解决或者至少缓解上述技术问题中的至少一个，本公开提供了一种用于知识库问答的处理方法及设备。根据本公开的一个方面，一种用于知识库问答的数据处理方法，所述数据处理方法包括：从知识库获取任一知识条目；在对话记录中选取与所述知识条目匹配的用户说法形成用户说法的集合；将所述用户说法的集合与所述知识条目进行关联；以及将关联后的所述用户说法的集合与所述知识条目作为训练样本对知识库问答模型进行训练，以根据训练结果对后续输入的用户说法进行反馈。根据本公开的至少一个实施方式，所...

【技术保护点】
1.一种用于知识库问答的数据处理方法，其特征在于，所述方法包括：/n从知识库获取任一知识条目；/n在对话记录中选取与所述知识条目匹配的用户说法形成用户说法的集合；/n将所述用户说法的集合与所述知识条目进行关联；以及/n将关联后的所述用户说法的集合与所述知识条目作为训练样本对知识库问答模型进行训练，以根据训练结果对后续输入的用户说法进行反馈。/n

【技术特征摘要】
1.一种用于知识库问答的数据处理方法，其特征在于，所述方法包括：
从知识库获取任一知识条目；
在对话记录中选取与所述知识条目匹配的用户说法形成用户说法的集合；
将所述用户说法的集合与所述知识条目进行关联；以及
将关联后的所述用户说法的集合与所述知识条目作为训练样本对知识库问答模型进行训练，以根据训练结果对后续输入的用户说法进行反馈。

2.如权利要求1所述的数据处理方法，其特征在于，所述在对话记录中选取与所述知识条目匹配的用户说法形成用户说法的集合，包括：
如果所述知识条目被知识库问答模型作为近似答案提供给用户，且被用户回复或点击选取过，则将所述对话记录中对应的用户说法设定为A级；
如果所述知识条目被知识库问答模型作为近似答案提供给用户，且未被用户回复或点击选取过，则将所述对话记录中对应的用户说法设定为B级；
如果所述知识条目既没有被知识库问答模型作为最佳答案也没有作为近似答案提供给用户，但是置信度大于等于预设值，则将所述对话记录中对应的用户说法设定为C级；以及
将所述用户说法按照优先级A级＞B级＞C级的顺序进行排序并去重，以形成所述用户说法的集合。

3.一种用于知识库问答的数据处理方法，其特征在于，所述方法包括：
将对话记录中的用户说法进行聚类，形成至少一类用户说法的集合；
针对每一类用户说法的集合，从知识库选出与该类用户说法的集合匹配的知识条目的集合；
将该类用户说法的集合与所述知识条目的集合中的其中一个知识条目进行关联；以及
将关联后的该类用户说法的集合与所述其中一个知识条目作为训练样本对知识库问答模型进行训练，以根据训练结果对后续输入的用户说法进行反馈。

4.如权利要求3所述的数据处理方法，其特征在于，所述将对话记录中的用户说法进行聚类，形成至少一类用户说法的集合，包括：
在对话记录中，将知识库问答模型的反馈内容包括...

【专利技术属性】
技术研发人员：谷博，雷欣，李志飞，
申请(专利权)人：出门问问信息科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人