一种智能问答知识库构建方法、系统、终端以及存储介质技术方案

技术编号:28978700 阅读:15 留言:0更新日期:2021-06-23 09:24
本申请涉及一种智能问答知识库构建方法、系统、终端以及存储介质。包括:获取问答系统中所有访客与人工客服的聊天日志,根据所述聊天日志生成有效问答对;使用聚类算法对所述有效问答对进行向量聚类操作,将所述有效问答对划分为不同的类别,并取各个类别中任一个有效问答对作为整个类的问答代表;统计所述各个类别中的有效问答对数量,并筛选出所述有效问答对数量超过设定阈值的类别,将所述筛选类别的问答代表添加到智能问答知识库中。本申请能够及时发现出现频率较高的新的知识点并对智能问答知识库进行更新,从而自动拓展智能问答系统的问答范围,有利于提高智能问答系统的回复准确率,并降低了使用者对领域知识的要求。

【技术实现步骤摘要】
一种智能问答知识库构建方法、系统、终端以及存储介质
本申请属于智能问答
,特别涉及一种智能问答知识库构建方法、系统、终端以及存储介质。
技术介绍
智能问答系统是将积累的无序语料信息进行有序和科学的整理,并建立基于知识的分类模型,这些分类模型可以指导新增加的语料咨询和服务信息,节约人力资源,提高信息处理的自动性,降低企业网站运行成本。目前,通常使用人工的方法对知识点进行分类归纳,通过客服人员手动添加或批量导入完成智能问答知识库的构建。该方法对于使用者具有很高的认知要求,并需要对领域知识有充分了解;同时,由于人的知识局限性,分类错误率较高,导致智能问答知识库的问答效果不佳。企业在扩展业务的同时,也会带来更多的问题,因此需要对智能问答知识库进行不断迭代更新和长期维护,依靠客服人员难以发现新出现的知识点,不便于拓展智能问答系统的问答范围。
技术实现思路
本申请提供了一种智能问答知识库构建方法、系统、终端以及存储介质,旨在至少在一定程度上解决现有技术中的上述技术问题之一。为了解决上述问题,本申请提供了如下技术方案:一种智能问答知识库构建方法,包括:获取问答系统中所有访客与人工客服的聊天日志,根据所述聊天日志生成有效问答对;其中,所述聊天日志包括访客的提问内容以及人工客服的回复内容;使用聚类算法对所述有效问答对进行向量聚类操作,将所述有效问答对划分为不同的类别,并取各个类别中任一个有效问答对作为整个类的问答代表;统计所述各个类别中的有效问答对数量,并筛选出所述有效问答对数量超过设定阈值的类别,将所述筛选类别的问答代表添加到智能问答知识库中。本申请实施例采取的技术方案还包括:所述根据所述聊天日志生成有效问答对具体为:通过文本分类模型对所述聊天日志进行意图识别,筛选出非闲聊意图的聊天日志,并根据筛选后的聊天日志生成有效问答对。本申请实施例采取的技术方案还包括:所述使用聚类算法对所述有效问答对进行向量聚类操作包括:对所述有效问答对中的提问内容进行向量编码,将其转化为向量表示;将所述每个有效问答对中的提问内容与对应向量表示进行一一对应,建立所述提问内容与对应向量表示的映射关系;使用DBSCAN聚类算法对所述提问内容的向量表示进行聚类;根据所述向量表示的聚类结果,将所述有效问答对按照对应的映射关系划分为不同的类别。本申请实施例采取的技术方案还包括:所述使用DBSCAN聚类算法对所述提问内容的向量表示进行聚类具体为:计算两个向量在高纬度中的距离,将距离小于设定距离阈值的两个向量划分为同一类。本申请实施例采取的技术方案还包括:所述筛选出所述有效问答对数量超过设定阈值的类别还包括:判断所述智能问答知识库中是否已经存在所述类别的同类问题,如果不存在,将所述筛选类别的问答代表作为新的知识点添加到智能问答知识库中。本申请实施例采取的技术方案还包括:所述将所述筛选类别的问答代表添加到智能问答知识库中之前还包括:对所述类别的问答代表进行优化。本申请实施例采取的技术方案还包括:所述对所述筛选类别的问答代表进行优化具体为:将所述问答代表中口语化的提问内容和回复内容进行书面化修改。本申请实施例采取的另一技术方案为:一种智能问答知识库构建系统,包括:数据获取模块:用于获取问答系统中所有访客与人工客服的聊天日志,根据所述聊天日志生成有效问答对;其中,所述聊天日志包括访客的提问内容以及人工客服的回复内容;数据分类模块:用于使用聚类算法对所述有效问答对进行向量聚类操作,将所述有效问答对划分为不同的类别,并取各个类别中任一个有效问答对作为整个类的问答代表;数据筛选模块:用于统计所述各个类别中的有效问答对数量,并筛选出所述有效问答对数量超过设定阈值的类别,将所述筛选类别的问答代表添加到智能问答知识库中。本申请实施例采取的又一技术方案为:一种终端,所述终端包括处理器、与所述处理器耦接的存储器,其中,所述存储器存储有用于实现所述智能问答知识库构建方法的程序指令;所述处理器用于执行所述存储器存储的所述程序指令以控制智能问答知识库构建。本申请实施例采取的又一技术方案为:一种存储介质,存储有处理器可运行的程序指令,所述程序指令用于执行所述智能问答知识库构建方法。相对于现有技术,本申请实施例产生的有益效果在于:本申请实施例的智能问答知识库构建方法通过获取问答系统中所有访客与人工客服的聊天日志,根据聊天日志生成有效问答对,然后使用聚类算法对有效问答对划分为不同的类别,并将有效问答对数量超过一定值的类别作为新的知识点添加到智能问答知识库中。本申请实施例能够及时发现出现频率较高的新的知识点并对智能问答知识库进行更新,从而自动拓展智能问答系统的问答范围,有利于提高智能问答系统的回复准确率,并降低了使用者对领域知识的要求。附图说明图1是本申请实施例的智能问答知识库构建方法的流程图;图2为本申请实施例的智能问答知识库构建系统结构示意图;图3为本申请实施例的终端结构示意图;图4为本申请实施例的存储介质的结构示意图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。请参阅图1,是本申请实施例的智能问答知识库构建方法的流程图。本申请实施例的智能问答知识库构建方法包括以下步骤:S1:获取问答系统中所有访客与人工客服的聊天日志;其中,聊天日志包括访客的提问内容以及人工客服的回复内容;S2:通过文本分类模型对聊天日志进行意图识别,筛选出非闲聊意图的聊天日志,并根据筛选后的聊天日志生成有效问答对;本步骤中,意图(intention)是指问答过程中访客的提问内容想要达到的目的。问答对为聊天日志中的提问内容与回复内容组成的固定搭配。本申请实施例通过收集业务文本和闲聊文本两类文本语料,并使用lstm和bert等深度学习模型训练出文本分类模型,通过文本分类模型判断聊天日志属于闲聊还是业务问答。S3:对有效问答对中的提问内容进行向量编码(vectorcoding),将其转化为向量表示;本步骤中,向量编码是自然语言处理(NLP)中一组技术的统称,即将句子映射到一个实数向量。S4:将每个有效问答对中的提问内容与其向量表示进行一一对应,建立提问内容与其向量表示的映射关系;S5:使用DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)聚类算法对提问内容的向量表示进行聚类;本步骤中,向量表示的分类方式具体为:计算任意两个向量在高纬度中的距离,将距离小于设定距离阈值的两个向量划分为同一类。S6:根据向量表示的聚类结果,将有效问答对按照对应的映射关系划分为不本文档来自技高网...

【技术保护点】
1.一种智能问答知识库构建方法,其特征在于,包括:/n获取问答系统中所有访客与人工客服的聊天日志,根据所述聊天日志生成有效问答对;其中,所述聊天日志包括访客的提问内容以及人工客服的回复内容;/n使用聚类算法对所述有效问答对进行向量聚类操作,将所述有效问答对划分为不同的类别,并取各个类别中任一个有效问答对作为整个类的问答代表;/n统计所述各个类别中的有效问答对数量,并筛选出所述有效问答对数量超过设定阈值的类别,将所述筛选类别的问答代表添加到智能问答知识库中。/n

【技术特征摘要】
1.一种智能问答知识库构建方法,其特征在于,包括:
获取问答系统中所有访客与人工客服的聊天日志,根据所述聊天日志生成有效问答对;其中,所述聊天日志包括访客的提问内容以及人工客服的回复内容;
使用聚类算法对所述有效问答对进行向量聚类操作,将所述有效问答对划分为不同的类别,并取各个类别中任一个有效问答对作为整个类的问答代表;
统计所述各个类别中的有效问答对数量,并筛选出所述有效问答对数量超过设定阈值的类别,将所述筛选类别的问答代表添加到智能问答知识库中。


2.根据权利要求1所述的智能问答知识库构建方法,其特征在于,所述根据所述聊天日志生成有效问答对具体为:
通过文本分类模型对所述聊天日志进行意图识别,筛选出非闲聊意图的聊天日志,并根据筛选后的聊天日志生成有效问答对。


3.根据权利要求1或2所述的智能问答知识库构建方法,其特征在于,所述使用聚类算法对所述有效问答对进行向量聚类操作包括:
对所述有效问答对中的提问内容进行向量编码,将其转化为向量表示;
将所述每个有效问答对中的提问内容与对应向量表示进行一一对应,建立所述提问内容与对应向量表示的映射关系;
使用DBSCAN聚类算法对所述提问内容的向量表示进行聚类;
根据所述向量表示的聚类结果,将所述有效问答对按照对应的映射关系划分为不同的类别。


4.根据权利要求3所述的智能问答知识库构建方法,其特征在于,所述使用DBSCAN聚类算法对所述提问内容的向量表示进行聚类具体为:
计算两个向量在高纬度中的距离,将距离小于设定距离阈值的两个向量划分为同一类。


5.根据权利要求1所述的智能问答知识库构建方法,其特征在于,所述筛选出所述有效...

【专利技术属性】
技术研发人员:周柳阳蒋林林陈杰
申请(专利权)人:深圳市一号互联科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1