问答模型优化方法及装置、问答机器人系统制造方法及图纸

技术编号:21686218 阅读:38 留言:0更新日期:2019-07-24 14:41
本公开提供用于问答机器人系统的问答模型优化的方法,包括:基于至少一个第二样本数据以及知识数据库进行坏样本原因分析,以确定坏样本原因,第二样本数据是经过标注处理后的至少一个第一样本数据中的被标注为坏样本的样本数据,知识数据库包括至少一个标问‑问法知识数据库和至少一个业务‑语义知识数据库;以及基于坏样本原因,使用知识数据库和至少一个第一样本数据来优化问答模型,其中,第一样本数据是问答装置基于问答模型产生的,每条第一样本数据至少包括问题数据以及对应的答案数据。利用该方法,可以在问答模型优化时引入业务和语义信息,从而使得问答模型的优化能够跟上业务变化的变化,由此大大地提升问答模型优化效率。

Question Answer Model Optimization Method and Device, Question Answer Robot System

【技术实现步骤摘要】
问答模型优化方法及装置、问答机器人系统
本公开通常涉及计算机
,更具体地,涉及用于优化问答机器人的问答模型的方法及装置以及具有该装置的问答机器人系统。
技术介绍
随着互联网技术的不断普及,用户越来越多地使用服务提供商所提供的互联网平台来向客服人员咨询比如服务质量、服务维护之类的问题。为了提高客服效果和节约人力成本,服务提供商通常使用比如客服机器人的问答机器人系统来与用户进行交流沟通并给予答复。例如,客服机器人首先使用具有标准问题/标准问题对和问题/答案对的知识数据库以及历史问题/答案实例来训练问答模型。接着,针对用户所输入的问法,使用所训练的问答模型来给出问题答案。客服机器人的客服效率直接影响服务提供商的客服系统的服务能力以及用户的客服体验。因此,如何提升客服机器人的客服效率对整个客服体系都十分重要。在当前客服机器人中,知识数据库的数据庞大并且缺乏有效组织,维护更新人员对知识数据库的整体很难有清晰的了解,从而使得知识数据库维护和优化困难,以及知识数据库中经常会出现标准问题重复以及相似的标准问法与不同的标准问题对应的问题。此外,在当前客服机器人中,由于在问答模型训练时缺少业务和语义信息,从而使得问答模型的更新无法反映业务变化的变化,难以适应现今业务变化越来越快的趋势,从而导致问答模型优化效率不佳。另外,由于在训练问答模型时不需要业务运营人员参与,从而不能有效将业务运营人员对业务和语义的理解应用于问答模型优化。
技术实现思路
鉴于上述问题,本公开提供了一种问答模型优化方法及装置以及具有该装置的问答机器人系统。利用该问答模型优化方法及装置,通过利用所收集的样本数据中的坏样本数据以及知识数据库中的标问-问法知识和业务-语义知识来分析出坏样本原因分析;然后基于坏样本原因来使用知识数据库以及所收集的经过标注处理后的样本数据来优化问答模型,可以在问答模型优化时引入业务和语义信息,从而使得问答模型的优化能够跟上业务变化的变化,由此大大地提升问答模型优化效率。根据本公开的一个方面,提供了一种用于问答机器人系统的问答模型优化的方法,包括:基于至少一个第二样本数据以及知识数据库进行坏样本原因分析,以确定坏样本原因,所述至少一个第二样本数据是经过标注处理后的至少一个第一样本数据中的被标注为坏样本的样本数据,所述知识数据库包括至少一个标问-问法知识数据库和至少一个业务-语义知识数据库;以及基于所确定出的坏样本原因,使用所述知识数据库和所述经过标注处理后的至少一个第一样本数据来对问答机器人系统的问答模型进行优化,其中,所述至少一个第一样本数据是所述问答装置基于所述问答模型产生的,每条第一样本数据至少包括问题数据以及对应的答案数据。可选地,在上述方面的一个示例中,基于至少一个第二样本数据以及知识数据库进行坏样本原因分析,以确定坏样本原因包括:基于至少一个第二样本数据、与所述至少一个第二样本数据对应的中间处理结果以及知识数据库进行坏样本原因分析,以确定坏样本原因。可选地,在上述方面的一个示例中,在进行坏样本原因分析之前,所述方法还可以包括:对所述至少一个第一样本数据进行标注处理,所述标注处理包括标注为好样本或坏样本。可选地,在上述方面的一个示例中,所述坏样本原因包括知识数据库原因,基于所确定出的坏样本原因,使用所述知识数据库和所述经过标注处理后的至少一个第一样本数据来对问答机器人系统的问答模型进行优化包括:基于所述知识数据库原因来对所述知识数据库进行优化处理;以及使用所述经过优化处理的知识数据库以及所述经过标注处理后的至少一个第一样本数据来训练所述问答模型,以得到优化后的问答模型。可选地,在上述方面的一个示例中,基于所述知识数据库原因来对所述知识数据库进行优化处理包括:使用知识管理平台来基于所述知识数据库原因对所述知识数据库进行优化处理。可选地,在上述方面的一个示例中,所述坏样本原因还包括问答模型原因,所述问答模型原因包括问答模型算法规则原因和/或问答模型参数原因,在所述坏样本原因还包括所述问答模型算法规则原因时,使用所述知识数据库和所述经过标注处理后的至少一个第一样本数据来对问答机器人系统的问答模型进行优化还包括:基于所述问答模型算法规则原因来修改所述问答模型的算法规则,以得到经过算法规则修改后的问题模型,以及使用所述经过优化处理的知识数据库以及所述经过标注处理后的至少一个第一样本数据来训练所述问答模型,以得到优化后的问答模型包括:使用所述经过优化处理的知识数据库以及所述经过标注处理后的至少一个第一样本数据来训练经过算法规则修改后的问答模型,以得到优化后的问答模型。可选地,在上述方面的一个示例中,所述知识数据库原因包括标问-问法知识原因、业务知识原因和/或语义知识原因。可选地,在上述方面的一个示例中,所述坏样本原因仅包括问答模型原因,所述问答模型原因包括问答模型算法规则原因和/或问答模型模型参数原因,在所述坏样本原因包括问答模型算法规则原因或者包括问答模型算法规则原因和问答模型模型参数原因两者时,基于所确定出的坏样本原因,使用所述知识数据库和所述经过标注处理后的至少一个第一样本数据来对问答机器人系统的问答模型进行优化包括:基于所述问答模型算法规则原因来修改所述问答模型的算法规则,以得到经过算法规则修改后的问题模型;以及使用所述知识数据库以及所述经过标注处理后的至少一个第一样本数据来训练经过算法规则修改后的问答模型,以得到优化后的问答模型。可选地,在上述方面的一个示例中,基于至少一个第二样本数据以及知识数据库进行坏样本原因分析,以确定坏样本原因包括:基于至少一个第二样本数据以及知识数据库进行坏样本原因分析,以确定坏样本原因和对应的优化建议,以及基于所确定出的坏样本原因,使用所述知识数据库和所述经过标注处理后的至少一个第一样本数据来对问答机器人系统的问答模型进行优化包括:按照所述确定出的坏样本原因所对应的优化建议,使用所述知识数据库和所述经过标注处理后的至少一个第一样本数据来对所述问答模型进行优化。可选地,在上述方面的一个示例中,所述优化建议是经过人工复核后的优化建议。可选地,在上述方面的一个示例中,所述第一样本数据还包括下述数据中的至少一项:用户访问场景、用户访问路径、用户访问时间、用户ID信息、用户会话ID信息以及用户聊天ID信息。可选地,在上述方面的一个示例中,所述业务知识包括标问业务特征信息,以及所述语义知识包括标问要素的语义信息以及标问要素之间的语义关系信息。可选地,在上述方面的一个示例中,所述知识数据库被设置在所述问答机器人系统中,或者设置在所述问答机器人系统之外。可选地,在上述方面的一个示例中,所述至少一个业务-语义知识数据库被所述至少一个标问-问法数据库复用。根据本公开的另一方面,提供一种用于问答机器人系统的问答模型优化的装置,包括:坏样本原因确定单元,被配置为基于至少一个第二样本数据以及知识数据库进行坏样本原因分析,以确定坏样本原因,所述至少一个第二样本数据是经过标注处理后的至少一个第一样本数据中的被标注为坏样本的样本数据,所述知识数据库包括至少一个标问-问法知识数据库和至少一个业务-语义知识数据库;以及模型优化单元,被配置为基于所确定出的坏样本原因,使用所述知识数据库和所述经过标注处理后的至少一个第本文档来自技高网...

【技术保护点】
1.一种用于问答机器人系统的问答模型优化的方法,包括:基于至少一个第二样本数据以及知识数据库进行坏样本原因分析,以确定坏样本原因,所述至少一个第二样本数据是经过标注处理后的至少一个第一样本数据中的被标注为坏样本的样本数据,所述知识数据库包括至少一个标问‑问法知识数据库和至少一个业务‑语义知识数据库;以及基于所确定出的坏样本原因,使用所述知识数据库和所述经过标注处理后的至少一个第一样本数据来对问答机器人系统的问答模型进行优化,其中,所述至少一个第一样本数据是所述问答装置基于所述问答模型产生的,每条第一样本数据至少包括问题数据以及对应的答案数据。

【技术特征摘要】
1.一种用于问答机器人系统的问答模型优化的方法,包括:基于至少一个第二样本数据以及知识数据库进行坏样本原因分析,以确定坏样本原因,所述至少一个第二样本数据是经过标注处理后的至少一个第一样本数据中的被标注为坏样本的样本数据,所述知识数据库包括至少一个标问-问法知识数据库和至少一个业务-语义知识数据库;以及基于所确定出的坏样本原因,使用所述知识数据库和所述经过标注处理后的至少一个第一样本数据来对问答机器人系统的问答模型进行优化,其中,所述至少一个第一样本数据是所述问答装置基于所述问答模型产生的,每条第一样本数据至少包括问题数据以及对应的答案数据。2.如权利要求1所述的方法,其中,基于至少一个第二样本数据以及知识数据库进行坏样本原因分析,以确定坏样本原因包括:基于所述至少一个第二样本数据、与所述至少一个第二样本数据对应的中间处理结果以及所述知识数据库进行坏样本原因分析,以确定坏样本原因。3.如权利要求1或2所述的方法,在进行坏样本原因分析之前,所述方法还包括:对所述至少一个第一样本数据进行标注处理,所述标注处理包括标注为好样本或坏样本。4.如权利要求1或2所述的方法,其中,所述坏样本原因包括知识数据库原因,基于所确定出的坏样本原因,使用所述知识数据库和所述经过标注处理后的至少一个第一样本数据来对问答机器人系统的问答模型进行优化包括:基于所述知识数据库原因来对所述知识数据库进行优化处理;以及使用所述经过优化处理的知识数据库以及所述经过标注处理后的至少一个第一样本数据来训练所述问答模型,以得到优化后的问答模型。5.如权利要求4所述的方法,其中,基于所述知识数据库原因来对所述知识数据库进行优化处理包括:使用知识管理平台来基于所述知识数据库原因对所述知识数据库进行优化处理。6.如权利要求4所述的方法,其中,所述坏样本原因还包括问答模型原因,所述问答模型原因包括问答模型算法规则原因和/或问答模型参数原因,在所述坏样本原因还包括所述问答模型算法规则原因时,使用所述知识数据库和所述经过标注处理后的至少一个第一样本数据来对问答机器人系统的问答模型进行优化还包括:基于所述问答模型算法规则原因来修改所述问答模型的算法规则,以得到经过算法规则修改后的问题模型,以及使用所述经过优化处理的知识数据库以及所述经过标注处理后的至少一个第一样本数据来训练所述问答模型,以得到优化后的问答模型包括:使用所述经过优化处理的知识数据库以及所述经过标注处理后的至少一个第一样本数据来训练经过算法规则修改后的问答模型,以得到优化后的问答模型。7.如权利要求1或2所述的方法,其中,所述知识数据库原因包括标问-问法知识原因、业务知识原因和/或语义知识原因。8.如权利要求1或2所述的方法,其中,所述坏样本原因仅包括问答模型原因,所述问答模型原因包括问答模型算法规则原因和/或问答模型模型参数原因,在所述坏样本原因包括问答模型算法规则原因或者包括问答模型算法规则原因和问答模型模型参数原因两者时,基于所确定出的坏样本原因,使用所述知识数据库和所述经过标注处理后的至少一个第一样本数据来对问答机器人系统的问答模型进行优化包括:基于所述问答模型算法规则原因来修改所述问答模型的算法规则,以得到经过算法规则修改后的问题模型;以及使用所述知识数据库以及所述经过标注处理后的至少一个第一样本数据来训练经过算法规则修改后的问答模型,以得到优化后的问答模型。9.如权利要求1或2所述的方法,其中,基于至少一个第二样本数据以及知识数据库进行坏样本原因分析,以确定坏样本原因包括:基于至少一个第二样本数据以及知识数据库进行坏样本原因分析,以确定坏样本原因和对应的优化建议,以及基于所确定出的坏样本原因,使用所述知识数据库和所述经过标注处理后的至少一个第一样本数据来对问答机器人系统的问答模型进行优化包括:按照所述确定出的坏样本原因所对应的优化建议,使用所述知识数据库和所述经过标注处理后的至少一个第一样本数据来对所述问答模型进行优化。10.如权利要求9所述的方法,其中,所述优化建议是经过人工复核后的优化建议。11.如权利要求1或2所述的方法,其中,所述第一样本数据还包括下述数据中的至少一项:用户访问场景、用户访问路径、用户访问时间、用户ID信息、用户会话ID信息以及用户聊天ID信息。12.如权利要求1或2所述的方法,其...

【专利技术属性】
技术研发人员:石志伟张家兴李小龙毛德峰胡翔张望舒
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1