一种实现自主学习的知识库构建方法技术

技术编号:22308179 阅读:28 留言:0更新日期:2019-10-16 08:17
本发明专利技术公开了一种实现自主学习的知识库构建方法,通过获取多个知识点,将多个知识点输入至知识点识别模型,生成候选知识点集合,再将候选新知识点集合输入至新知识点判定模型,生成新知识点集合,然后对新知识点集合进行过滤处理,生成所有知识点均为新知识点的第一集合,并根据第一集合和新知识点集合,得到学习新知识点的第一准确率,当第一准确率达到预设的阈值时,将知识点识别模型结合新知识点判定模型,得到自主学习知识库,采用本发明专利技术提供的实施例,能够实现知识库自动区分相似知识点,以及从未知数据中发现新知识,并不断减少人工的指导,大大提高了工作效率。

A method of knowledge base construction for autonomous learning

【技术实现步骤摘要】
一种实现自主学习的知识库构建方法
本专利技术涉及人工智能
,尤其涉及一种实现自主学习的知识库构建方法。
技术介绍
对话知识库是对话系统中一个很重要的知识存储库,里面包含了大量人工构想以及实际积累的知识点(用户关心的问题以及对应的回答)。通过各种聚类或分类算法,以及人工查阅的方法可以从大量的对话数据中数据进行归类,每一类对应一种用户关心的问题。然而,在现有的算法中,无法区分相似但不同的知识点,无法发现低频但重要的新知识点,还需要大量人工指导,人力成本过高,无法自行学习。
技术实现思路
本专利技术实施例的目的是提供一种实现自主学习的知识库构建方法,能够区分相似知识点,自动从未知数据中发现新知识,并不断减少人工的指导,大大提高了工作效率。为实现上述目的,本专利技术实施例提供了一种实现自主学习的知识库构建方法,包括以下步骤:获取多个知识点,将所述多个知识点输入至预先建立的知识点识别模型,生成候选知识点集合;其中,知识点包括该知识对应的问题和该知识点问题对应的答案;将所述候选新知识点集合输入至预先建立的新知识点判定模型,生成新知识点集合;对所述新知识点集合进行过滤处理,生成所有知识点均为新知识点的第一集合;根据所述第一集合和所述新知识点集合,得到学习新知识点的第一准确率,并判断所述第一准确率是否达到预设的阈值;若是,则将所述知识点识别模型,结合所述新知识点判定模型,得到自主学习知识库;若否,则对所述知识点识别模型和所述新知识点判定模型进行优化处理,以使学习新知识点的准确率达到所述预设的阈值。进一步的,所述预先建立的知识点识别模型通过以下方法构建:以BERT文本二分类模型作为第一基础模型,获取多个常见知识点集合;对所述多个常见知识点集合中的每个知识点问题进行正负分类,得到属于需要的知识点的正知识点集合,和属于不需要的知识点的负知识点集合;以所述多个常见知识点集合作为所述第一基础模型的输入,以所述正知识点集合作为所述第一基础模型的输出,并当所述第一基础模型的识别准确率达到第一阈值时,将所述第一基础模型作为知识点识别模型。进一步的,所述预先建立的新知识点判定模型通过以下方法构建:以BERT文本相似度模型作为第二基础模型,获取多个新知识点和多个常见知识点集合;根据相似度算法分别计算所述多个新知识点的问题,与所述多个常见知识点集合中每个知识点问题的相似度,得到相似度超过第二阈值的相似集合,和相似度不高于第二阈值的不相似集合;以所述多个新知识点和所述多个常见知识点集合作为所述第二基础模型的输入,以所述不相似集合作为所述第二基础模型的输出,构建新知识点判定模型。进一步的,所述对所述知识点识别模型和所述新知识点判定模型进行优化处理,具体为:当所述第一准确率未达到预设的阈值时,提高所述知识点识别模型中的第一阈值,以使所述知识点识别模型识别出更为需要的知识点;降低所述新知识点判定模型中的第二阈值,以使所述新知识点判定模型判定出更为不相似的知识点。进一步的,所述需要的知识点为用户关心的问题和所述用户关心的问题的答案。进一步的,所述相似度算法为二分类算法。进一步的,所述预设的阈值为0.95。进一步的,所述第一阈值为0.8。进一步的,所述第二阈值为0.2。与现有技术相比,具有如下有益效果:本专利技术实施例提供的实现自主学习的知识库构建方法,通过获取多个知识点,将多个知识点输入至知识点识别模型,生成候选知识点集合,再将候选新知识点集合输入至新知识点判定模型,生成新知识点集合,然后对新知识点集合进行过滤处理,生成所有知识点均为新知识点的第一集合,并根据第一集合和新知识点集合,得到学习新知识点的第一准确率,判断第一准确率是否达到预设的阈值;若是,则将知识点识别模型结合新知识点判定模型,得到自主学习知识库;若否,则对知识点识别模型和新知识点判定模型进行优化处理,以使学习新知识点的准确率达到预设的阈值,采用本专利技术提供的实施例,能够实现知识库自动区分相似知识点,以及从未知数据中发现新知识,并不断减少人工的指导,大大提高了工作效率。附图说明图1是本专利技术提供的实现自主学习的知识库构建方法的一个实施例的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参见图1,图1是本专利技术提供的实现自主学习的知识库构建方法的一个实施例的流程示意图;本专利技术实施例提供一种实现自主学习的知识库构建方法,包括步骤S1-S6;S1,获取多个知识点,将所述多个知识点输入至预先建立的知识点识别模型,生成候选知识点集合。其中,知识点包括该知识对应的问题和该知识点问题对应的答案。在本实施例中,所述预先建立的知识点识别模型通过以下方法构建:以BERT文本二分类模型作为第一基础模型,获取多个常见知识点集合;对所述多个常见知识点集合中的每个知识点问题进行正负分类,得到属于需要的知识点的正知识点集合,和属于不需要的知识点的负知识点集合;以所述多个常见知识点集合作为所述第一基础模型的输入,以所述正知识点集合作为所述第一基础模型的输出,并当所述第一基础模型的识别准确率达到第一阈值时,将所述第一基础模型作为知识点识别模型。需要说明的是,所述需要的知识点为用户关心的问题和所述用户关心的问题的答案,所述第一阈值最优为0.8。在实验中,第一阈值越搞,得到的知识点越为用户所需,但过高的阈值,会使得模型的工作效率过低,得到的知识点越少;但当第一阈值取0.8时,既可得到用户所需求的知识点,也不影响模型的工作效率。S2,将所述候选新知识点集合输入至预先建立的新知识点判定模型,生成新知识点集合。在本实施例中,所述预先建立的新知识点判定模型通过以下方法构建:以BERT文本相似度模型作为第二基础模型,获取多个新知识点和多个常见知识点集合;根据相似度算法分别计算所述多个新知识点的问题,与所述多个常见知识点集合中每个知识点问题的相似度,得到相似度超过第二阈值的相似集合,和相似度不高于第二阈值的不相似集合;以所述多个新知识点和所述多个常见知识点集合作为所述第二基础模型的输入,以所述不相似集合作为所述第二基础模型的输出,构建新知识点判定模型。其中,所述相似度算法为二分类算法,所述第二阈值最优为0.2。在实验中,第二阈值越低,得到的不相似知识点越不相似,但过低的阈值即过低的相似度,会使得模型的工作效率过低,得到的知识点过少;但当第二阈值取0.2时,既可得到用户所需求的不相似知识点,也不影响模型的工作效率。作为本专利技术的优选实施例,本专利技术还可以以BERT文本相似度模型训练另一种新知识点判定模型,用于区分该新知识点与其他知识点为非同类知识点,其训练方法为以同类知识点的问题作为相似文本,不同知识点的问题作为不相似文本,将问题两两拼接在一起,然后通过BERT编码后,通过一个二分类模型判断该两个问题是否相似,模型最终输出的正标签的概率值作为相似度。通过该新知识点判定模型从候选知识点集合对每个候选知识点与常见知识点集合进行区分,选择得分最高的知识点判定为新知识点,得分最低的知识点判定为非新知识点,其中,得分计算方法本文档来自技高网...

【技术保护点】
1.一种实现自主学习的知识库构建方法,其特征在于,包括以下步骤:获取多个知识点,将所述多个知识点输入至预先建立的知识点识别模型,生成候选知识点集合;其中,知识点包括该知识对应的问题和该知识点问题对应的答案;将所述候选新知识点集合输入至预先建立的新知识点判定模型,生成新知识点集合;对所述新知识点集合进行过滤处理,生成所有知识点均为新知识点的第一集合;根据所述第一集合和所述新知识点集合,得到学习新知识点的第一准确率,并判断所述第一准确率是否达到预设的阈值;若是,则将所述知识点识别模型,结合所述新知识点判定模型,得到自主学习知识库;若否,则对所述知识点识别模型和所述新知识点判定模型进行优化处理,以使学习新知识点的准确率达到所述预设的阈值。

【技术特征摘要】
1.一种实现自主学习的知识库构建方法,其特征在于,包括以下步骤:获取多个知识点,将所述多个知识点输入至预先建立的知识点识别模型,生成候选知识点集合;其中,知识点包括该知识对应的问题和该知识点问题对应的答案;将所述候选新知识点集合输入至预先建立的新知识点判定模型,生成新知识点集合;对所述新知识点集合进行过滤处理,生成所有知识点均为新知识点的第一集合;根据所述第一集合和所述新知识点集合,得到学习新知识点的第一准确率,并判断所述第一准确率是否达到预设的阈值;若是,则将所述知识点识别模型,结合所述新知识点判定模型,得到自主学习知识库;若否,则对所述知识点识别模型和所述新知识点判定模型进行优化处理,以使学习新知识点的准确率达到所述预设的阈值。2.如权利要求1所述的实现自主学习的知识库构建方法,其特征在于,所述预先建立的知识点识别模型通过以下方法构建:以BERT文本二分类模型作为第一基础模型,获取多个常见知识点集合;对所述多个常见知识点集合中的每个知识点问题进行正负分类,得到属于需要的知识点的正知识点集合,和属于不需要的知识点的负知识点集合;以所述多个常见知识点集合作为所述第一基础模型的输入,以所述正知识点集合作为所述第一基础模型的输出,并当所述第一基础模型的识别准确率达到第一阈值时,将所述第一基础模型作为知识点识别模型。3.如权利要求2所述的实现自主学习的知识库构建方法,其特征在于,所述预先建立的新知识点判定模型通...

【专利技术属性】
技术研发人员:陈开冉黎展周捷光
申请(专利权)人:广州探迹科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1