基于PRMATC算法的知识库补全方法技术

技术编号：23983754 阅读：27 留言：0更新日期：2020-04-29 12:32

本发明专利技术涉及一种基于PRMATC算法的知识库补全方法，包括以下步骤：步骤S1:将大规模语义网络知识库KB中的所有事实三元组以及实体导入、存储到分布式集群Neo4j图数据库中；步骤S2:构建BILSTM‑CRF模型，并训练；步骤S3:通过训练好的BILSTM‑CRF模型对关系两侧的实体进行识别与分类，转换得到关系的定义域和值域;步骤S4:改进FP‑Growth算法；步骤S5:挖掘出事务间隐含的强关联规则；步骤S6:根据得到的关系的定义域和强关联规则转换成Horn逻辑规则;步骤S7:根据得到Horn逻辑规则，获取新的知识，并添加至知识库KB中。本发明专利技术能够高效地找到代表知识库Horn规则的同时，挖掘规则的数量和准确率方面也更优于其他规则挖掘系统，能更好的补全知识库。

Knowledge base completion method based on prmatc algorithm

全部详细技术资料下载

【技术实现步骤摘要】
基于PRMATC算法的知识库补全方法
本专利技术涉及所属知识图谱下的海量数据存储与推理领域，具体涉及一种基于PRMATC算法的知识库补全方法。
技术介绍
从大规模语义网络知识库中挖掘Horn规则，进而利用这些规则帮助推断和添加知识库中缺少的知识是实现知识库动态增长极其有效的手段之一。关联规则挖掘算法是数据挖掘领域中的重要算法之一，其目的是挖掘事务之间存在的隐含关系。传统的算法包括Apriori算法[1]和FP-Growth算法[2]。传统的关联规则挖掘算法，在小规模数据集中取得了不错的效果，但近年来随着互联网技术的快速发展，网络数据呈现爆炸性增长，传统的关联规则挖掘算法存在单一节点无法计算以及运行内存不足等问题，从而无法满足网络大数据的需求。
技术实现思路
有鉴于此，本专利技术的目的在于提供一种基于PRMATC算法的知识库补全方法，能高效地挖掘出一组可表示知识库语义信息的Horn逻辑规则并更好的补全知识库。为实现上述目的，本专利技术采用如下技术方案：一种基于PRMATC算法的知识库补全方法，包括以下步骤：步骤S1:将大规模语义网络知识库KB中的所有事实三元组以及实体导入、存储到分布式集群Neo4j图数据库中；步骤S2:构建BILSTM-CRF模型，并训练；步骤S3:通过训练好的BILSTM-CRF模型对关系两侧的实体进行识别与分类，进而转换得到关系的定义域和值域；步骤S4:在FP-Growth算法的基础上，优化数据均衡分组以及FP树构建和挖掘，得到改...

【技术保护点】
1.一种基于PRMATC算法的知识库补全方法，其特征在于，包括以下步骤：/n步骤S1:将大规模语义网络知识库KB中的所有事实三元组以及实体导入、存储到分布式集群Neo4j图数据库中；/n步骤S2:构建BILSTM-CRF模型，并训练；/n步骤S3:通过训练好的BILSTM-CRF模型对关系两侧的实体进行识别与分类，进而转换得到关系的定义域和值域；/n步骤S4:在FP-Growth算法的基础上，优化数据均衡分组以及FP树构建和挖掘，得到改进后的FP-Growth算法；/n步骤S5:根据改进后的FP-Growth算法，挖掘出事务间隐含的强关联规则；/n步骤S6:根据得到的关系的定义域和强关联规则转换成Horn逻辑规则；/n步骤S7:根据得到Horn逻辑规则，获取新的知识，并添加至知识库KB中。/n

【技术特征摘要】
1.一种基于PRMATC算法的知识库补全方法，其特征在于，包括以下步骤：
步骤S1:将大规模语义网络知识库KB中的所有事实三元组以及实体导入、存储到分布式集群Neo4j图数据库中；
步骤S2:构建BILSTM-CRF模型，并训练；
步骤S3:通过训练好的BILSTM-CRF模型对关系两侧的实体进行识别与分类，进而转换得到关系的定义域和值域；
步骤S4:在FP-Growth算法的基础上，优化数据均衡分组以及FP树构建和挖掘，得到改进后的FP-Growth算法；
步骤S5:根据改进后的FP-Growth算法，挖掘出事务间隐含的强关联规则；
步骤S6:根据得到的关系的定义域和强关联规则转换成Horn逻辑规则；
步骤S7:根据得到Horn逻辑规则，获取新的知识，并添加至知识库KB中。

2.根据权利要求1所述的基于PRMATC算法的知识库补全方法，其特征在于：所述BILSTM-CRF模型由双向LSTM和CRF两部分组成。

3.根据权利要求2所述的基于PRMATC算法的知识库补全方法，其特征在于：所述双向LSTM由前向的LSTM与后向的LSTM构成；
LSTM计算过程就是通过对细胞状态中信息的遗忘和记忆，其中遗忘、记忆与输出是由上一刻的隐层状态ht-1和当前输入Xt所决定的，具体计算公式4所示。

式(4)中，Xt、Ct、ht、ft、it、Ot分别对应模型t时刻的输入、细胞状态、隐藏层状态、忘记门以及输出门；词向量作为BILSTM层的输入，然后输出值是一句话中每个单词对应的每个标签的预测分数，这些分数便是CRF层的输入。

4.根据权利要求2所述的基于PRMATC算法的知识库补全方法，其特征在于：所述CRF层采用线性条件随机场P(y|x)，如下式所示：

式(5)中λk和μl为权重系数，tk和sl为特征函数，Z(x)是规范化因子

BILSTM层的输出作为CRF层的输入，经过CRF层特征函数运算以及归一化操作之后，输出每个单词的合法预测标签。

5.根据权利要求1所述的基于PRMATC算法的知识库补全方法，其特征在于，所述步骤S3具体为：
步骤S31:将每个输入三元组X＝(x1,x2,...xi,...xn)经过BILSTM层和CRF层，得到所有可能的预测序列y＝(y1,y2,...,yi,...yn)；
每个预测序列y的得分S(X|y)，如下式所示：

式(7)中为第i个位置输出为yi的概率，A为转移概率矩阵
步骤S32:计算序列最大得分y*，如下式所示：
y*＝arg...

【专利技术属性】
技术研发人员：汪璟玢，张梨贤，
申请(专利权)人：福州大学，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人