问题答案对扩充方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:21141201 阅读:24 留言:0更新日期:2019-05-18 05:11
本公开提供了一种问题答案对扩充方法,包括:收集系统日志中的问题;获取网络中的问题和答案;为网络中的问题和答案建立索引;对系统日志中的问题和建立索引后的网络中的问题和答案进行匹配,得到预定数目的候选问题答案对;以及基于候选问题答案对,扩充问题答案对。本公开还提供了问题答案对扩充装置、计算机设备及计算机可读存储介质。

Question Answer to Expansion Method, Device, Equipment and Computer Readable Storage Media

【技术实现步骤摘要】
问题答案对扩充方法、装置、设备及计算机可读存储介质
本公开涉及一种问题答案对扩充方法、装置、计算机设备及计算机可读存储介质。
技术介绍
在人机交互系统例如语言助手系统中,人工创造的问题答案对是十分重要的资源,因为这种数据是人类真实的回复,答案的质量高于通过社交网站获得的答案,这里说的通过社交网站获得的答案的流程大致为爬取社交网站上的用户的真实问题和回复来作为问题和答案,但是这种答案因为是自动爬取的,而且是在一定的上下文中产生的答案,所以常见的问题就是答案与问题不匹配。人工创造的问题答案对一般是由标注团队或产品经理等人员进行手动书写的,这种方式不仅速度慢而且成本高,不适合进行大规模扩充问题答案对。通过社交网站获得的答案,虽然很多与问题不匹配,但是通过人工逐条过滤的方式,也是可以获得高质量的问题答案对的,可是,因为通过网络自动爬取的数据太多,如果每条都要进行人工过滤,花费的时间和收益比很低,所以这种方式也可以视为速度慢且成本高。
技术实现思路
为了解决上述技术问题中的至少一个,本公开提供了一种问题答案对扩充方法、装置、计算机设备及计算机可读存储介质。根据本公开的第一个方面,提供一种问题答案对本文档来自技高网...

【技术保护点】
1.一种问题答案对扩充方法,其特征在于,包括:收集系统日志中的问题;获取网络中的问题和答案;为网络中的问题和答案建立索引;对系统日志中的问题和建立索引后的网络中的问题和答案进行匹配,得到预定数目的候选问题答案对;以及基于所述候选问题答案对,扩充问题答案对。

【技术特征摘要】
1.一种问题答案对扩充方法,其特征在于,包括:收集系统日志中的问题;获取网络中的问题和答案;为网络中的问题和答案建立索引;对系统日志中的问题和建立索引后的网络中的问题和答案进行匹配,得到预定数目的候选问题答案对;以及基于所述候选问题答案对,扩充问题答案对。2.根据权利要求1所述的问题答案对扩充方法,其特征在于,收集系统日志中的问题后,对收集的系统日志中的问题进行过滤;获取网络中的问题和答案后,对获取的网络中的问题和答案进行过滤。3.根据权利要求2所述的问题答案对扩充方法,其特征在于,对收集的系统日志中的问题进行过滤包括:去重、去掉长度小于预定长度阈值的问题、保留含有“你”或“我”的问题、去掉含有数字的问题、去掉含有英文的问题和/或去掉含有公司名称的问题。4.根据权利要求2或3所述的问题答案对扩充方法,其特征在于,对获取的网络中的问题和答案进行过滤包括:去掉含有非法字符的问题和答案、去掉含有政治色情敏感词的问题和答案和/或保留预定长度的问题和答案。5.根据权利要求2至4中任一项所述的问题答案对扩充方法,其特征在于,所述匹配包括:从建立索引后的网络中的问题和答案中提取出答案,与系统日志中的问题组成所述候选问题答案对。...

【专利技术属性】
技术研发人员:祝文博
申请(专利权)人:出门问问信息科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1