知识库问题挖掘方法、装置、电子设备及存储介质制造方法及图纸

技术编号:27772252 阅读:17 留言:0更新日期:2021-03-23 12:53
本发明专利技术涉及智能决策领域,揭露一种知识库问题挖掘方法,包括:接收原始问题集,对所述原始问题集进行清洗和去重,得到训练问题集,利用问题特征抽取模型对所述训练问题集进行特征提取,得到问题特征集,将所述问题特征集进行聚类,得到聚类问题集,并从所述聚类问题集中提取标准问题集,利用所述标准问题集对预构建的问题挖掘模型进行迭代训练,得到标准问题挖掘模型,利用达到上线标准的标准问题挖掘模型对待挖掘的问题集进行进行问题挖掘,得到扩展问题。发明专利技术还涉及一种区块链技术,所述问题挖掘结果可以存储在区块链节点中。本发明专利技术还提出一种知识库问题挖掘装置、电子设备以及计算机可读存储介质。本发明专利技术可以实现智能挖掘扩展问题。

【技术实现步骤摘要】
知识库问题挖掘方法、装置、电子设备及存储介质
本专利技术涉及智能决策领域,尤其涉及一种知识库问题挖掘方法、装置、电子设备及计算机可读存储介质。
技术介绍
企业的智能客服运营一般都是基于知识库的问答系统。知识库的问答系统中的问题和对应答案都需要人工提前编辑好,但是由于用户输入的问题在语句表述方面具有很大的差异性,且提前编辑好的问题不可能考虑到所有问题,导致智能客服对问题的解答率下降,影响智能客服的服务质量,因此知识库的问题挖掘变得尤为重要。目前企业针对知识库问题挖掘主要依赖于人工操作,通过人工读取知识库的线上日志,根据人工经验编写好标准问题和扩展问题,将编写好的标准问题和扩展问题保存至知识库中。由于人工编写问题的过程繁琐且任务量巨大,因此一般都间隔很长一段时间才去补充和更新知识库中的问题,这样导致对用户提出的问题解答率不高,影响智能客服运营的质量。
技术实现思路
本专利技术提供一种知识库问题挖掘方法、装置、电子设备及计算机可读存储介质,其主要目的在于实现智能挖掘扩展问题。为实现上述目的,本专利技术提供的一种知识库问题挖掘方法,包括:接收原始问题集,对所述原始问题集进行清洗和去重,得到训练问题集;利用预先训练完成的问题特征抽取模型对所述训练问题集进行特征提取,得到问题特征集;将所述问题特征集进行聚类,得到聚类问题集,并从所述聚类问题集中提取标准问题集;利用所述标准问题集对预构建的问题挖掘模型进行迭代训练,得到标准问题挖掘模型;利用测试问题集对所述标准问题挖掘模型进行性能评估,得到所述标准问题挖掘模型的评估分数;根据所述评估分数,评估所述标准问题挖掘模型是否达到上线标准;若所述标准问题挖掘模型未达到所述上线标准,则重新返回利用预先训练完成的问题特征抽取模型对所述训练问题集进行特征提取的步骤;若所述标准问题挖掘模型达到所述上线标准,则利用所述标准问题挖掘模型对待挖掘的问题集进行问题挖掘,得到扩展问题。可选地,所述利用预先训练完成的问题特征抽取模型对所述训练问题集进行特征提取,得到问题特征集,包括:利用所述问题特征抽取模型中的卷积层,对所述训练问题集进行卷积操作,得到特征向量集;利用所述问题特征抽取模型中的目标函数对所述特征向量集进行特征计算,得到问题特征集。可选地,所述将所述问题特征集进行聚类,得到聚类问题集,包括:步骤A、利用预设聚类类别个数选择算法从所述问题特征集中选择K个问题特征作为初始聚类中心;步骤B、计算所述问题特征集中每个问题特征与所述初始聚类中心的距离值,并根据所述距离值将所述问题特征集进行初始聚类,得到初始聚类问题集;步骤C、计算所述初始聚类问题集中每个问题特征的中心,将所述中心作为新聚类中心;步骤D、计算所述问题特征集中每个问题特征与所述新聚类中心的距离值,并根据所述距离值将所述问题特征集再次聚类,并重复执行上述的步骤A至步骤D,直到完成预设循环次数,得到聚类问题集。可选地,所述从所述聚类问题集中提取标准问题集,包括:利用下述匹配度计算方法,计算所述聚类问题集与预构建的标准问题库中标准问题的语句匹配度T(x,y):其中,xi表示聚类问题集的第i个聚类问题,yi表示标准问题库中的第i个标准问题;根据所述语句匹配度,将匹配成功的聚类问题集作为标准问题集。可选地,所述利用所述标准问题集迭代训练预构建的问题挖掘模型,得到标准问题挖掘模型之前,所述方法还包括:将所述训练完成的问题特征抽取模型、预设的自编码问题聚类算法模型以及相对熵损失函数进行合并,得到问题挖掘模型。可选地,所述利用所述标准问题集迭代训练预构建的问题挖掘模型,得到标准问题挖掘模型,包括:利用所述问题特征抽取模型对所述标准问题集进行特征提取,得到标准问题特征集;利用所述自编码问题聚类算法模型对所述标准问题特征集进行压缩降维,得到标准问题特征表征集;计算所述标准问题特征表征集与预设的标准问题中心的距离值,根据所述距离值,利用预设的概率分布函数计算所述标准问题特征表征集的概率分布;利用所述相对熵损失函数计算所述概率分布与预设理想分布的相对熵值;当所述相对熵值不小于预设阈值时,调整所述标准问题挖掘模型的内部参数,直到所述相对熵值小于所述预设阈值时,得到标准问题挖掘模型。可选地,所述利用所述标准问题挖掘模型对待挖掘的问题集进行问题挖掘,得到扩展问题之后,还包括:将所述扩展问题转换成标准问题-扩展问题的格式后添加至预设知识库中。为了解决上述问题,本专利技术还提供一种知识库问题挖掘装置,所述装置包括:问题特征抽取模块,用于接收原始问题集,对所述原始问题集进行清洗和去重,得到训练问题集,利用预先训练完成的问题特征抽取模型对所述训练问题集进行特征提取,得到问题特征集;问题聚类模块,用于将所述问题特征集进行聚类,得到聚类问题集,并从所述聚类问题集中提取标准问题集;模型训练模块,用于利用所述标准问题集对预构建的问题挖掘模型进行迭代训练,得到标准问题挖掘模型,利用测试问题集对所述标准问题挖掘模型进行性能评估,得到所述标准问题挖掘模型的评估分数,根据所述评估分数,评估所述标准问题挖掘模型是否达到上线标准;问题挖掘模块,用于若所述标准问题挖掘模型达到所述上线标准,则利用所述标准问题挖掘模型对待挖掘的问题集进行问题挖掘,得到扩展问题。为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:至少一个处理器:以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够实现上述中任意一项所述的知识库问题挖掘方法。为了解决上述问题,本专利技术还提供一种计算机可读存储介质,包括存储数据区和存储程序区,所述存储数据区存储创建的数据,所述存储程序区存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述所述的知识库问题挖掘方法。本专利技术实施例首先对原始问题集进行清洗和去重,得到训练问题集,并对训练问题集进行特征提取,得到问题特征集,由于特征提取可有效提取出每个目标问题的特征,同时对提取到的特征进行计算,减少了非目标问题特征的干扰;将所述问题特征集进行聚类,得到聚类问题集,并从所述聚类问题集中提取标准问题集,通过标准问题集对预构建的问题挖掘模型进行迭代训练,得到标准问题挖掘模型,由于有效地提取出了标准问题,并根据标准问题训练问题挖掘模型,避免了由于标准问题提取不恰当,导致对整个问题挖掘过程的影响,故可以提高问题挖掘的准确度。进一步地,本专利技术通过测试问题集评估标准问题挖掘模型,根据评估分数评估标准问题集挖掘模型是否达到上线标准,利用达到上线标准的标准问题挖掘模型对待挖掘问题集进行问题挖掘,得到扩展问题,由于将标准问题挖掘模型进行了有效评估,并按照评估结果得到达到上线标准的标准问题挖掘模型本文档来自技高网...

【技术保护点】
1.一种知识库问题挖掘方法,其特征在于,所述方法包括:/n接收原始问题集,对所述原始问题集进行清洗和去重,得到训练问题集;/n利用预先训练完成的问题特征抽取模型对所述训练问题集进行特征提取,得到问题特征集;/n将所述问题特征集进行聚类,得到聚类问题集,并从所述聚类问题集中提取标准问题集;/n利用所述标准问题集对预构建的问题挖掘模型进行迭代训练,得到标准问题挖掘模型;/n利用测试问题集对所述标准问题挖掘模型进行性能评估,得到所述标准问题挖掘模型的评估分数;/n根据所述评估分数,评估所述标准问题挖掘模型是否达到上线标准;/n若所述标准问题挖掘模型未达到所述上线标准,则重新返回利用预先训练完成的问题特征抽取模型对所述训练问题集进行特征提取的步骤;/n若所述标准问题挖掘模型达到所述上线标准,则利用所述标准问题挖掘模型对待挖掘的问题集进行问题挖掘,得到扩展问题。/n

【技术特征摘要】
1.一种知识库问题挖掘方法,其特征在于,所述方法包括:
接收原始问题集,对所述原始问题集进行清洗和去重,得到训练问题集;
利用预先训练完成的问题特征抽取模型对所述训练问题集进行特征提取,得到问题特征集;
将所述问题特征集进行聚类,得到聚类问题集,并从所述聚类问题集中提取标准问题集;
利用所述标准问题集对预构建的问题挖掘模型进行迭代训练,得到标准问题挖掘模型;
利用测试问题集对所述标准问题挖掘模型进行性能评估,得到所述标准问题挖掘模型的评估分数;
根据所述评估分数,评估所述标准问题挖掘模型是否达到上线标准;
若所述标准问题挖掘模型未达到所述上线标准,则重新返回利用预先训练完成的问题特征抽取模型对所述训练问题集进行特征提取的步骤;
若所述标准问题挖掘模型达到所述上线标准,则利用所述标准问题挖掘模型对待挖掘的问题集进行问题挖掘,得到扩展问题。


2.如权利要求1所述的知识库问题挖掘方法,其特征在于,所述利用预先训练完成的问题特征抽取模型对所述训练问题集进行特征提取,得到问题特征集,包括:
利用所述问题特征抽取模型中的卷积层,对所述训练问题集进行卷积操作,得到特征向量集;
利用所述问题特征抽取模型中的目标函数对所述特征向量集进行特征计算,得到问题特征集。


3.如权利要求1所述的知识库问题挖掘方法,其特征在于,所述将所述问题特征集进行聚类,得到聚类问题集,包括:
步骤A、利用预设聚类类别个数选择算法从所述问题特征集中选择K个问题特征作为初始聚类中心;
步骤B、计算所述问题特征集中每个问题特征与所述初始聚类中心的距离值,并根据所述距离值将所述问题特征集进行初始聚类,得到初始聚类问题集;
步骤C、计算所述初始聚类问题集中每个问题特征的中心,将所述中心作为新聚类中心;
步骤D、计算所述问题特征集中每个问题特征与所述新聚类中心的距离值,并根据所述距离值将所述问题特征集再次聚类,并重复执行上述的步骤A至步骤D,直到完成预设循环次数,得到聚类问题集。


4.如权利要求1所述的知识库问题挖掘方法,其特征在于,所述从所述聚类问题集中提取标准问题集,包括:
利用下述匹配度计算方法,计算所述聚类问题集与预构建的标准问题库中标准问题的语句匹配度T(x,y):



其中,xi表示聚类问题集的第i个聚类问题,yi表示标准问题库中的第i个标准问题;
根据所述语句匹配度,将匹配成功的聚类问题集作为标准问题集。


5.如权利要求1所述的知识库问题挖掘方法,其特征在于,所述利用所述标准问题集对预构建的问题挖掘模型进行迭代训练,得到标准问题挖掘模型之前,所述...

【专利技术属性】
技术研发人员:史文鑫
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1