【技术实现步骤摘要】
一种确定知识库中知识点类目的方法及系统
本说明书实施例涉及数据处理领域,特别涉及一种确定知识库中知识点类目的方法及系统。
技术介绍
知识库是针对某些领域问题求解的需要,采用若干知识表示方式在计算机存储器中存储、组织、管理和使用的知识点集合。例如,由问答数据构成的知识点的集合。知识库可以包括一个或多个类目,每个类目可以包含一个或多个具备关联性的知识点。在人工客服或智能客服领域,知识库的类目可以帮助客服快速找到跟用户问题相关的知识点。可以理解,知识库的类目确定的准确性会影响客服回答的准确性,影响用户体验。因此,为提高知识点类目分类的准确性,有必要提出一种确定知识库中知识点类目的方法及系统。
技术实现思路
本说明书实施例的一个方面提供一种确定知识库中知识点类目的方法,所述方法包括:获取至少一个待预测知识点,并确定与所述至少一个待预测知识点分别对应的知识库;判断所述对应的知识库的类目确定方式;其中,所述类目确定方式包括分类模型确定、距离匹配确定以及规则匹配确定方式中的至少两个;当所述类目确定方式为所述分类模型确定时,将所述待预测知识点输入基于所述对应的知识库训练的分类模型,确定所述待预测知识点的类目;当所述类目确定方式为所述距离匹配确定时,基于所述待预测知识点与所述对应的知识库中每个类目的知识点之间的距离关系,确定所述待预测知识点的类目;当所述类目确定方式为所述规则匹配确定时,基于预设规则确定所述待预测知识点的类目。本说明书实施例的另一个方面提供一种确定知识库中知识点类目的系统,所 ...
【技术保护点】
1.一种确定知识库中知识点类目的方法,包括:/n获取至少一个待预测知识点,并确定与所述至少一个待预测知识点分别对应的知识库;/n判断所述对应的知识库的类目确定方式;其中,所述类目确定方式包括分类模型确定、距离匹配确定以及规则匹配确定方式中的至少两个;/n当所述类目确定方式为所述分类模型确定时,将所述待预测知识点输入基于所述对应的知识库训练的分类模型,确定所述待预测知识点的类目;/n当所述类目确定方式为所述距离匹配确定时,基于所述待预测知识点与所述对应的知识库中每个类目的知识点之间的距离关系,确定所述待预测知识点的类目;/n当所述类目确定方式为所述规则匹配确定时,基于预设规则确定所述待预测知识点的类目。/n
【技术特征摘要】
1.一种确定知识库中知识点类目的方法,包括:
获取至少一个待预测知识点,并确定与所述至少一个待预测知识点分别对应的知识库;
判断所述对应的知识库的类目确定方式;其中,所述类目确定方式包括分类模型确定、距离匹配确定以及规则匹配确定方式中的至少两个;
当所述类目确定方式为所述分类模型确定时,将所述待预测知识点输入基于所述对应的知识库训练的分类模型,确定所述待预测知识点的类目;
当所述类目确定方式为所述距离匹配确定时,基于所述待预测知识点与所述对应的知识库中每个类目的知识点之间的距离关系,确定所述待预测知识点的类目;
当所述类目确定方式为所述规则匹配确定时,基于预设规则确定所述待预测知识点的类目。
2.如权利要求1所述的方法,所述判断所述对应的知识库的类目确定方式包括:
将所述对应的知识库输入知识库划分模型,基于输出的结果确定所述类目确定方式。
3.如权利要求2所述的方法,训练所述知识库划分模型包括:
获取多个训练知识库;
确定所述多个训练知识库中每一个的标签,所述标签表征所述训练知识库的类目确定方式;
对所述多个训练知识库中每一个提取特征,所述特征包括:类目总数、知识点总数、类目内聚集程度以及类目间聚集程度;其中,所述类目内聚集程度表示同一个类目包含的不同知识点之间的聚集程度,所述类目间聚集程度表示不同类目包含的知识点之间的聚集程度;
基于所述多个训练知识库中每一个的所述特征和所述标签,训练得到所述知识库划分模型。
4.如权利要求3所述的方法,确定所述类目内聚集程度包括:
从所述训练知识库中获取类目,以及所述类目包含的n个知识点;n为大于等于2的整数;
计算所述n个知识点中任意两个之间的距离,得到n*(n-1)/2个距离;
将所述n*(n-1)/2个距离的平均值作为所述类目内聚集程度。
5.如权利要求3所述的方法,确定所述类目间聚集程度包括:
从所述训练知识库中获取m个类目,以及所述m个类目中每一个包含的n个知识点;m为大于等于2的整数,n为大于等于1的整数;
将所述n个知识点的中心点作为所述类目的代表知识点;
计算所述m个类目的所述代表知识点中任意两个之间的距离,得到m*(m-1)/2个距离;
将所述m*(m-1)/2个距离的平均值作为所述类目间聚集程度。
6.如权利要求3所述的方法,所述确定所述多个训练知识库中每一个的标签包括:
从所述训练知识库中获取多个知识点;
分别基于所述分类模型确定、所述距离匹配确定以及所述规则匹配确定,得到所述多个知识点对应的预测类目,基于所述预测类目和所述多个知识点的真实类目确定准确率;
将所述准确率最高的所述类目确定方式作为所述训练知识库的标签。
7.如权利要求1所述的方法,所述基于所述待预测知识点与所述对应的知识库中每个类目的知识点之间的距离关系,确定所述待预测知识点的类目包括:
获取所述对应的知识库中每个类目包含的至少一个知识点;
将至少一个知识点的中心点作为所述类目的代表知识点;
计算所述待预测知识点与所述每个类目的代表知识点之间的距离;
将所述距离小于第一预设阈值的类目作为所述待预测知识点的类目。
8.如权利要求7所述的方法,确定所述第一预设阈值包括:
从所述对应的知识库中获取多个知识点;
基于所述距离匹配确定,得到所述多个知识点与所述对应知识库中每个类目的知识点之间的距离,并将所述距离小于所述第一预设阈值的类目作为所述多个知识点的预测类目;
基于所述预测类目与所述多个知识点的真实类目,确定准确率、覆盖率以及至少一个预测错误的知识点;
基于所述预测错误的知识点在对应的所述预测类目上的第一预测值,迭代更新所述第一预设阈值,直到所述准确率和所述覆盖率满足预设条件。
9.如权利要求1所述的方法,所述将所述待预测知识点输入基于所述对应的知识库训练的分类模型,确定所述待预测知识点的类目包括:
将所述待预测知识点输入基于所述对应的知识库训练的分类模型,输出所述待预测知识点属于所述对应知识库中每个类目的概率;
将所述概率大于第二预设阈值的类目作为所述待预测知识点的类目。
10.如权利要求9所述的方法,确定所述第二预设阈值包括:
从所述对应的知识库中获取多个知识点;
基于所述分类模型确定,得到所述多个知识点属于所述对应知识库中每个类目的概率,并将所述概率大于所述第二预设阈值的类目作为所述多个知识点的预测类目;
基于所述预测类目与所述多个知识点的真实类目,确定准确率、覆盖率以及至少一个预测错误的知识点;
基于所述预测错误的知识点在对应的所述预测类目上的第一预测值,迭代更新所述第二预设阈值,直到所述准确率和所述覆盖率满足预设条件。
11.如权利要求7所述的方法,确定所述至少一个知识点的中心点包括:
对所述至少一个知识点进行向量表示,得到所述至少一个知识点中每一个的向量;
基于所述至少一个知识点中每一个的所述向量,计算所述至少一个知识点的平均向量;
将所述平均向量代表的知识点作为所述至少一个知识点的中心点。
12.如权利要求1所述的方法,所述分类模型包括编码模型、卷积神经网络和用于分类的模型;
所述编码模型对所述待预测知识点中每个词进行向量表示;
所述卷积神经网络依次对所述待预测知识点的句子矩阵进行卷积和池化,所述句子矩阵由所述待预测知识点中每个词的向量构成;
所述用于分类的模型基于池化的结果计算所述待预测知识点属于所述对应知识库中每个类目的概率。
13.如权利要求12所述的方法,所述分类模型对所述待预测知识点中词进行向量表示之前,将所述待预测知识点的句子长度补齐至预设长度。
14.如权利要求1所述的方法,所述知识库为实体对象的数据。
15.如权利要求1所述的方法,所述实体对象的数据为智能客服数据。
16.一种确定知识库中知识点类目的系统,包括:
获取模块,用于获取至少一个待预测知识点,并确定与所述至少一个待预测知识点分别对应的知识库;...
【专利技术属性】
技术研发人员:金春祥,刘佳,崔恒斌,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。