当前位置: 首页 > 专利查询>福州大学专利>正文

基于PRMATC算法的知识库补全方法技术

技术编号:23983754 阅读:27 留言:0更新日期:2020-04-29 12:32
本发明专利技术涉及一种基于PRMATC算法的知识库补全方法,包括以下步骤:步骤S1:将大规模语义网络知识库KB中的所有事实三元组以及实体导入、存储到分布式集群Neo4j图数据库中;步骤S2:构建BILSTM‑CRF模型,并训练;步骤S3:通过训练好的BILSTM‑CRF模型对关系两侧的实体进行识别与分类,转换得到关系的定义域和值域;步骤S4:改进FP‑Growth算法;步骤S5:挖掘出事务间隐含的强关联规则;步骤S6:根据得到的关系的定义域和强关联规则转换成Horn逻辑规则;步骤S7:根据得到Horn逻辑规则,获取新的知识,并添加至知识库KB中。本发明专利技术能够高效地找到代表知识库Horn规则的同时,挖掘规则的数量和准确率方面也更优于其他规则挖掘系统,能更好的补全知识库。

Knowledge base completion method based on prmatc algorithm

【技术实现步骤摘要】
基于PRMATC算法的知识库补全方法
本专利技术涉及所属知识图谱下的海量数据存储与推理领域,具体涉及一种基于PRMATC算法的知识库补全方法。
技术介绍
从大规模语义网络知识库中挖掘Horn规则,进而利用这些规则帮助推断和添加知识库中缺少的知识是实现知识库动态增长极其有效的手段之一。关联规则挖掘算法是数据挖掘领域中的重要算法之一,其目的是挖掘事务之间存在的隐含关系。传统的算法包括Apriori算法[1]和FP-Growth算法[2]。传统的关联规则挖掘算法,在小规模数据集中取得了不错的效果,但近年来随着互联网技术的快速发展,网络数据呈现爆炸性增长,传统的关联规则挖掘算法存在单一节点无法计算以及运行内存不足等问题,从而无法满足网络大数据的需求。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于PRMATC算法的知识库补全方法,能高效地挖掘出一组可表示知识库语义信息的Horn逻辑规则并更好的补全知识库。为实现上述目的,本专利技术采用如下技术方案:一种基于PRMATC算法的知识库补全方法,包括以下步骤:步骤S1:将大规模语义网络知识库KB中的所有事实三元组以及实体导入、存储到分布式集群Neo4j图数据库中;步骤S2:构建BILSTM-CRF模型,并训练;步骤S3:通过训练好的BILSTM-CRF模型对关系两侧的实体进行识别与分类,进而转换得到关系的定义域和值域;步骤S4:在FP-Growth算法的基础上,优化数据均衡分组以及FP树构建和挖掘,得到改进后的FP-Growth算法;步骤S5:根据改进后的FP-Growth算法,挖掘出事务间隐含的强关联规则;步骤S6:根据得到的关系的定义域和强关联规则转换成Horn逻辑规则;步骤S7:根据得到Horn逻辑规则,获取新的知识,并添加至知识库KB中。进一步的,所述BILSTM-CRF模型由双向LSTM和CRF两部分组成。进一步的,所述双向LSTM由前向的LSTM与后向的LSTM构成;LSTM计算过程就是通过对细胞状态中信息的遗忘和记忆,其中遗忘、记忆与输出是由上一刻的隐层状态ht-1和当前输入Xt所决定的,具体计算公式4所示。式(4)中,Xt、Ct、ht、ft、it、Ot分别对应模型t时刻的输入、细胞状态、隐藏层状态、忘记门以及输出门;词向量作为BILSTM层的输入,然后输出值是一句话中每个单词对应的每个标签的预测分数,这些分数便是CRF层的输入。进一步的,所述CRF层采用线性条件随机场P(y|x),如下式所示:式(5)中λk和μl为权重系数,tk和sl为特征函数,Z(x)是规范化因子BILSTM层的输出作为CRF层的输入,经过CRF层特征函数运算以及归一化操作之后,输出每个单词的合法预测标签。进一步的,所述步骤S3具体为:步骤S31:将每个输入三元组X=(x1,x2,...xi,...xn)经过BILSTM层和CRF层,得到所有可能的预测序列y=(y1,y2,...,yi,...yn);每个预测序列y的得分S(X|y),如下式所示:式(7)中为第i个位置输出为yi的概率,A为转移概率矩阵步骤S32:计算序列最大得分y*,如下式所示:y*=argmaxy∈YS(X|y)步骤S33:通过关系类型约束转换函数进行转换,得到知识库中每个关系的定义域和值域,关系类型约束转换函数f,如下所示:f({t1,t2,...ti,...,tn})=(pd,p,pr)式中ti=(si,pi,oi)、tj=(sj,pj,oj)表示关系p的事实三元组,通过下式,根据关系两侧的实体类别转换得到该关系的定义域和值域siSubClassOfElsi,oiSubClassOfEloi,sjSubClassOfElsj,ojSubClassOfEloj,Elsi,Eloi,Elsj,其中Elsi、Eloi、Elsj、Eloj分别表示实体si、oi、sj、oj所属子类类别,分别表示实体si、oi、sj、oj所属大类类别。进一步的,所述优化数据均衡分组通过聚类算法自动发现高度相关的关系,随后将与该类关系相关的关系路径划分到同一分区,实现数据均衡且独立分组。所述步骤S4具体为:步骤S41;逐条遍历事务Ti,将Ti从前往后遍历,步骤S42:根据项a1确定是否存在以该项为根节点的分块,若存在返回分块编号,否则添加以该项为根节点的分块信息并返回;步骤S44:根据分块编号以及项ai先查找是否存在与该项相同且祖先节点相同的项,若存在该项计数加1,否则添加该项到指定分块。步骤S41:找到拥有的项的集合中存在项m的分块编号,然后在对应的分块中,查找项m的所有祖先节点,即为m的条件模式基步骤S45:m的条件模式基为<(f:2),(c:2),(a:2)>和<(f:1),(c:1),(a:1),(b:1)>,同理p的条件模式基为<(f:2),(c:2),(a:2),(m:2)>和<(c:1),(b:1)>,将每个项的条件模式基作为该项的mapper阶段的输入,创建条件FP树,挖掘该项的频繁项集。进一步的,所述步骤S6具体为:步骤S61:通过步骤S3和S4得到的,挖掘出的强关联规则和关系的定义域和值域Elid,Elir,rjdomainEljd,rirangeEljr,rzdomainElzd,rzrangeElzr;步骤S62:根据下式将强关联规则转换成Horn规则其中Elid、Elir分别表示关系ri的定义域和值域,Eljd、Eljr表示关系rj的定义域和值域,Elzd、Elzr表示关系rz的定义域和值域。本专利技术与现有技术相比具有以下有益效果:本专利技术能够高效地找到代表知识库Horn规则的同时,挖掘规则的数量和准确率方面也更优于其他规则挖掘系统,能更好的补全知识库。附图说明图1是本专利技术一实施例中方法流程图;图2是本专利技术一实施例中应用Horn逻辑规则实现知识库补全示例图;图3是本专利技术一实施例中PRMATC算法框架图;图4是本专利技术一实施例中BILSTM-CRF模型原理图;图5是本专利技术一实施例中簇间重叠度;图6是本专利技术一实施例中优化链头表结构原理图图7是专利技术一实施例中修改的频繁模式树。具体实施方式下面结合附图及实施例对本专利技术做进一步说明。请参照图1,本专利技术提供一种基于PRMATC算法的知识库补全方法,包括以下步骤:步骤S1:将大规模语义网络知识库KB中的所有事实三元组以及实体导入、存储到分布式集群Neo4j图数据库中;步骤S2:构建BILSTM-CRF模型,并训练;步骤S3:通过训练好的BILSTM-CRF模型对关系两侧的实体进行识别与分类,进而转换得到本文档来自技高网...

【技术保护点】
1.一种基于PRMATC算法的知识库补全方法,其特征在于,包括以下步骤:/n步骤S1:将大规模语义网络知识库KB中的所有事实三元组以及实体导入、存储到分布式集群Neo4j图数据库中;/n步骤S2:构建BILSTM-CRF模型,并训练;/n步骤S3:通过训练好的BILSTM-CRF模型对关系两侧的实体进行识别与分类,进而转换得到关系的定义域和值域;/n步骤S4:在FP-Growth算法的基础上,优化数据均衡分组以及FP树构建和挖掘,得到改进后的FP-Growth算法;/n步骤S5:根据改进后的FP-Growth算法,挖掘出事务间隐含的强关联规则;/n步骤S6:根据得到的关系的定义域和强关联规则转换成Horn逻辑规则;/n步骤S7:根据得到Horn逻辑规则,获取新的知识,并添加至知识库KB中。/n

【技术特征摘要】
1.一种基于PRMATC算法的知识库补全方法,其特征在于,包括以下步骤:
步骤S1:将大规模语义网络知识库KB中的所有事实三元组以及实体导入、存储到分布式集群Neo4j图数据库中;
步骤S2:构建BILSTM-CRF模型,并训练;
步骤S3:通过训练好的BILSTM-CRF模型对关系两侧的实体进行识别与分类,进而转换得到关系的定义域和值域;
步骤S4:在FP-Growth算法的基础上,优化数据均衡分组以及FP树构建和挖掘,得到改进后的FP-Growth算法;
步骤S5:根据改进后的FP-Growth算法,挖掘出事务间隐含的强关联规则;
步骤S6:根据得到的关系的定义域和强关联规则转换成Horn逻辑规则;
步骤S7:根据得到Horn逻辑规则,获取新的知识,并添加至知识库KB中。


2.根据权利要求1所述的基于PRMATC算法的知识库补全方法,其特征在于:所述BILSTM-CRF模型由双向LSTM和CRF两部分组成。


3.根据权利要求2所述的基于PRMATC算法的知识库补全方法,其特征在于:所述双向LSTM由前向的LSTM与后向的LSTM构成;
LSTM计算过程就是通过对细胞状态中信息的遗忘和记忆,其中遗忘、记忆与输出是由上一刻的隐层状态ht-1和当前输入Xt所决定的,具体计算公式4所示。



式(4)中,Xt、Ct、ht、ft、it、Ot分别对应模型t时刻的输入、细胞状态、隐藏层状态、忘记门以及输出门;词向量作为BILSTM层的输入,然后输出值是一句话中每个单词对应的每个标签的预测分数,这些分数便是CRF层的输入。


4.根据权利要求2所述的基于PRMATC算法的知识库补全方法,其特征在于:所述CRF层采用线性条件随机场P(y|x),如下式所示:



式(5)中λk和μl为权重系数,tk和sl为特征函数,Z(x)是规范化因子



BILSTM层的输出作为CRF层的输入,经过CRF层特征函数运算以及归一化操作之后,输出每个单词的合法预测标签。


5.根据权利要求1所述的基于PRMATC算法的知识库补全方法,其特征在于,所述步骤S3具体为:
步骤S31:将每个输入三元组X=(x1,x2,...xi,...xn)经过BILSTM层和CRF层,得到所有可能的预测序列y=(y1,y2,...,yi,...yn);
每个预测序列y的得分S(X|y),如下式所示:



式(7)中为第i个位置输出为yi的概率,A为转移概率矩阵
步骤S32:计算序列最大得分y*,如下式所示:
y*=arg...

【专利技术属性】
技术研发人员:汪璟玢张梨贤
申请(专利权)人:福州大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1