一种问答对的提取方法、装置、设备和存储介质制造方法及图纸

技术编号:25835674 阅读:31 留言:0更新日期:2020-10-02 14:16
本发明专利技术实施例公开了一种问答对的提取方法、装置、设备和存储介质,该方法包括:根据历史对话日志中的各个历史答案所对应的第一出现频率,确定多个候选答案以及每个候选答案对应的多个待选问题;确定每个待选问题与相应的候选答案之间的关联度,并基于关联度确定每个候选答案对应的候选问题,获得各个候选问答对;确定候选问答对中的每个答案关键字与每个问题关键字之间的候选相似度;将各候选相似度作为预设匹配网络模型的输入,根据预设匹配网络模型的输出确定候选问答对所对应的匹配结果,并将匹配结果为匹配成功的候选问答对确定为目标问答对。通过本发明专利技术实施例的技术方案,可以提取出较多高质量的问答对,提高提取的准确性。

【技术实现步骤摘要】
一种问答对的提取方法、装置、设备和存储介质
本专利技术实施例涉及计算机技术,尤其涉及一种问答对的提取方法、装置、设备和存储介质。
技术介绍
在电商等服务行业中,客服需要对用户频繁提出的业务知识类问题进行解答。针对于此,通常可以构建一个问答数据库,基于该问答数据库进行自动解答,从而降低人工客服数量和成本。在构建问答数据库时,可以是由运营人员根据线上用户的提问总结出高质量的问答对;也可以是从历史对话数据中自动提取出一些高频问答对,以提高提取效率。现有技术中,提取问答对的过程为:从历史对话数据中提取出比较高频且紧密出现在一起的问答对,并通过检测提取出的问答对中是否包含相同的关键字,来确定将该问答对是否匹配,从而将匹配的问答对添加至问答数据库中,比如:问题Q:“这个免费安装吗”,答案A:“您好安装首次安装免人工费”,可见,问题和答案中均包含关键字“安”、“装”、“免”和“费”,此时可以确定该问答对相匹配,从而可以将该问答对添加至问答数据库中。然而,在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:本文档来自技高网...

【技术保护点】
1.一种问答对的提取方法,其特征在于,包括:/n根据历史对话日志中的各个历史答案所对应的第一出现频率,确定多个候选答案以及每个所述候选答案对应的多个待选问题;/n确定每个所述待选问题与相应的候选答案之间的关联度,并基于所述关联度确定每个所述候选答案对应的候选问题,获得各个候选问答对;/n确定所述候选问答对中的每个答案关键字与每个问题关键字之间的候选相似度;/n将各所述候选相似度作为预设匹配网络模型的输入,根据所述预设匹配网络模型的输出确定所述候选问答对所对应的匹配结果,并将所述匹配结果为匹配成功的候选问答对确定为目标问答对。/n

【技术特征摘要】
1.一种问答对的提取方法,其特征在于,包括:
根据历史对话日志中的各个历史答案所对应的第一出现频率,确定多个候选答案以及每个所述候选答案对应的多个待选问题;
确定每个所述待选问题与相应的候选答案之间的关联度,并基于所述关联度确定每个所述候选答案对应的候选问题,获得各个候选问答对;
确定所述候选问答对中的每个答案关键字与每个问题关键字之间的候选相似度;
将各所述候选相似度作为预设匹配网络模型的输入,根据所述预设匹配网络模型的输出确定所述候选问答对所对应的匹配结果,并将所述匹配结果为匹配成功的候选问答对确定为目标问答对。


2.根据权利要求1所述的方法,其特征在于,根据历史对话日志中的各个历史答案所对应的第一出现频率,确定多个候选答案以及每个所述候选答案对应的多个待选问题,包括:
基于预设过滤规则,对历史对话日志中的各个历史答案进行过滤;
统计过滤出的历史答案所对应的第一出现频率,将所述第一出现频率大于或等于预设频率的历史答案作为候选答案,小于预设频率的历史答案作为第一答案;
确定每个所述第一答案与每个所述候选答案之间的答案相似度,将所述答案相似度大于或等于预设相似度的第一答案也作为候选答案;
根据所述历史对话日志中的各个对话记录,提取在每个所述对话记录中位于所述候选答案之前的用户问题,并根据从各所述对话记录中提取出的用户问题确定所述候选答案对应的多个待选问题。


3.根据权利要求2所述的方法,其特征在于,根据从各所述对话记录中提取出的用户问题确定所述候选答案对应的多个待选问题,包括:
若从所述对话记录中提取出的用户问题为多个,则获得距离所述候选答案最近的第一用户问题;
检测是否存在与所述第一用户问题连续提问的第二用户问题;
若是,则将所述第一用户问题和所述第二用户问题均作为所述候选答案对应的待选问题;
若否,则将所述第一用户问题作为所述候选答案对应的待选问题。


4.根据权利要求1所述的方法,其特征在于,确定每个所述待选问题与相应的候选答案之间的关联度,并基于所述关联度确定每个所述候选答案对应的候选问题,获得各个候选问答对,包括:
对各所述候选答案进行聚类,确定各个候选答案集合,并根据所述候选答案与所述待选问题之间的对应关系,确定每个所述候选答案集合对应的待选问题集合;
对所述待选问题集合中的各个待选问题进行问题关键字提取,确定每个所述待选问题集合对应的问题关键字集合;
根据各所述问题关键字集合,确定所述问题关键字集合中的每个所述问题关键字对应的关键字重要程度,并基于各所述关键字重要程度确定每个待选问题与相应的候选答案之间关联度;
将所述关联度最高的待选问题确定为相应的候选答案所对应的候选问题,获得候选问答对。


5.根据权利要求4所述的方法,其特征在于,根据各所述问题关键字集合,确定所述问题关键字集合中的每个所述问题关键字对应的关键字重要程度,包括:
根据每个所述问题关键字对应的第二出现频率、包含有同一所述问题关键字的问题关键字集合数量,以及问题关键字集合总数量,确定所述问题关键字集合中的每个所述问题关键字对应的关键字重要程度,其中,所述第二出现频率是指出现在同一问题关键字集合的出现频率。


6.根据权利要求5所述的方法,其特征在于,根据如下公式,确定所述问题关键字集合中的每个所述问题关键字对应的关键字重要程度:



其中,Siw是第i个问题关键字集合Di中的问题关键字w对应的关键字重要程度;Fiw是问题关键字w出现在问题关键字集合Di的第二...

【专利技术属性】
技术研发人员:王培英陈蒙
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1