基于规则的构建知识图谱的方法及系统技术方案

技术编号:39176333 阅读:14 留言:0更新日期:2023-10-27 08:24
本发明专利技术公开了基于规则的构建知识图谱的方法及系统,属于数据处理技术领域,要解决的技术问题为如何准确识别实体和关系、并提高知识图谱的准确性和完整性。包括如下步骤:对输入的文本进行分词、词性标注、命名实体识别和实体消歧,并进行关系抽取;基于CNN算法构建特征提取模型,以实体和关系为输入、通过训练后的特征提取模型对实体和关系进行特征提取;通过K

【技术实现步骤摘要】
基于规则的构建知识图谱的方法及系统


[0001]本专利技术涉及数据处理
,具体地说是基于规则的构建知识图谱的方法及系统。

技术介绍

[0002]知识图谱是一种表示知识的图形结构,它通过将实体、关系和属性表示为节点和边来描述现实世界中的事物和概念。知识图谱在自然语言处理、信息检索、推荐系统、智能问答等领域有着广泛的应用。目前,构建知识图谱的方法主要包括手工构建、半自动构建和自动化构建三种方式。其中,手工构建需要大量的人力和时间,成本较高;半自动构建需要人工干预,并且存在主观性和误差;自动化构建方法可以提高效率和准确性,但是目前的自动化构建方法还存在一些问题,如对于一些语义复杂、结构多样的实体和关系难以识别以及噪声数据难以避免。
[0003]如何准确识别实体和关系、并提高知识图谱的准确性和完整性,是需要解决的技术问题。

技术实现思路

[0004]本专利技术的技术任务是针对以上不足,提供基于规则的构建知识图谱的方法及系统,来解决如何准确识别实体和关系、并提高知识图谱的准确性和完整性的技术问题。
[0005]第一方面,本专利技术一种基于规则的构建知识图谱的方法,包括如下步骤:
[0006]数据抽取:对输入的文本进行分词、词性标注、命名实体识别和实体消歧,得到实体,并进行关系抽取,得到关系;
[0007]特征提取:基于CNN算法构建特征提取模型,以实体和关系为输入、通过训练后的特征提取模型对实体和关系进行特征提取,得到特征向量矩阵,特征向量矩阵中每一行表示一个实体或关系的特征向量;
[0008]规则学习:通过K

means算法将特征向量矩阵聚类为预定数量的簇,得到每个实体或关系所属簇对应的簇号;
[0009]知识图谱构建:将每个簇作为一个标签、表示一类相关的实体或关系,将同一个簇内的实体和关系连接形成图结构,基于图卷积神经网格构建规则预测模型,通过训练后的规则预测模型分析图结构中规律和关联以学习实体与关系之间的规则,并将实体和关系之间的规则作为预测结果输出。
[0010]作为优选,通过OpenIE库进行关系抽取;
[0011]对输入的文本进行分词、词性标注、命名实体识别和实体消歧,包括如下步骤:
[0012]对输入的文本进行分词处理,得到结构化数据和非结构化数据;
[0013]通过Python的NLTK库对非结构化数据进行词性标注和命名实体识别,得的实体;
[0014]将得到的实体收集起来,通过py_entitymatching库进行实体消歧。
[0015]作为优选,所述特征提取模型包括:
[0016]输入层,对于所述输入层,以实体和关系对应的文本序列作为输入;
[0017]嵌入层,所述嵌入层用于将输入的文本序列转化为词向量;
[0018]卷积层池化层,所述卷积层池化层共多个、且卷积核大小不同,用于根据不同大小的卷积核提取不同大小的特征;
[0019]全连接层,所述全连接层用于将每个卷积层池化层输出的特征连接起来,将得到的特征向量矩阵作为分类结果输出。
[0020]作为优选,对于每个实体或关系所属的簇,基于人工预定义的分类规则对通过K

means算法学习输出的簇进行比对过滤,得到实体或关系最终所属的簇。
[0021]作为优选,所述规则预测模型包括:
[0022]图卷积神经网络层,所述图卷积神经网络层用于以带有标签的实体和关系节点为输入、对图结构进行特征转化,得到实体和关系节点的特征向量;
[0023]池化层,所述池化层用于对实体和关系节点的特征向量进行平均池化操作,并拼接起来得到拼接后特征向量;
[0024]线性层,所述线性层用于对拼接后特征向量进行线性组合,得到实体和关系之间的规则并作为预测结果输出。
[0025]第二方面,本专利技术一种基于规则的构建知识图谱的系统,用于通过如第一方面任一项所述的基于规则的构架知识图谱的方法构建知识图谱,所述系统包括:
[0026]数据抽取模块,所述数据抽取模块用于对输入的文本进行分词、词性标注、命名实体识别和实体消歧,得到实体,并进行关系抽取,得到关系;
[0027]特征提取模块,所述特征提取模块用于基于CNN算法构建特征提取模型,以实体和关系为输入、通过训练后的特征提取模型对实体和关系进行特征提取,得到特征向量矩阵,特征向量矩阵中每一行表示一个实体或关系的特征向量;
[0028]规则学习模块,所述规则学习模块用于通过K

means算法将特征向量矩阵聚类为预定数量的簇,得到每个实体或关系所属簇对应的簇号;
[0029]知识图谱构建模块,所述知识图谱构建模块用于将每个簇作为一个标签、表示一类相关的实体或关系,将同一个簇内的实体和关系连接形成图结构,基于图卷积神经网格构建规则预测模型,通过训练后的规则预测模型分析图结构中规律和关联以学习实体与关系之间的规则,并将实体和关系之间的规则作为预测结果输出。
[0030]作为优选,所述数据抽取模块用于通过OpenIE库进行关系抽取;
[0031]所述数据抽取模块用于执行如下得到实体:
[0032]对输入的文本进行分词处理,得到结构化数据和非结构化数据;
[0033]通过Python的NLTK库对非结构化数据进行词性标注和命名实体识别,得的实体;
[0034]将得到的实体收集起来,通过py_entitymatching库进行实体消歧。
[0035]作为优选,所述特征提取模型包括:
[0036]输入层,对于所述输入层,以实体和关系对应的文本序列作为输入;
[0037]嵌入层,所述嵌入层用于将输入的文本序列转化为词向量;
[0038]卷积层池化层,所述卷积层池化层共多个、且卷积核大小不同,用于根据不同大小的卷积核提取不同大小的特征;
[0039]全连接层,所述全连接层用于将每个卷积层池化层输出的特征连接起来,将得到
的特征向量矩阵作为分类结果输出。
[0040]作为优选,对于每个实体或关系所属的簇,所述规则学习模块还用于基于人工预定义的分类规则对通过K

means算法学习输出的簇进行比对过滤,得到实体或关系最终所属的簇。
[0041]作为优选,所述规则预测模型包括:
[0042]图卷积神经网络层,所述图卷积神经网络层用于以带有标签的实体和关系节点为输入、对图结构进行特征转化,得到实体和关系节点的特征向量;
[0043]池化层,所述池化层用于对实体和关系节点的特征向量进行平均池化操作,并拼接起来得到拼接后特征向量;
[0044]线性层,所述线性层用于对拼接后特征向量进行线性组合,得到实体和关系之间的规则并作为预测结果输出。
[0045]本专利技术的基于规则的构建知识图谱的方法及系统具有以下优点:
[0046]1、将规则匹配、机器学习和图神经网络(GNN)相结合,实现本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于规则的构建知识图谱的方法,其特征在于,包括如下步骤:数据抽取:对输入的文本进行分词、词性标注、命名实体识别和实体消歧,得到实体,并进行关系抽取,得到关系;特征提取:基于CNN算法构建特征提取模型,以实体和关系为输入、通过训练后的特征提取模型对实体和关系进行特征提取,得到特征向量矩阵,特征向量矩阵中每一行表示一个实体或关系的特征向量;规则学习:通过K

means算法将特征向量矩阵聚类为预定数量的簇,得到每个实体或关系所属簇对应的簇号;知识图谱构建:将每个簇作为一个标签、表示一类相关的实体或关系,将同一个簇内的实体和关系连接形成图结构,基于图卷积神经网格构建规则预测模型,通过训练后的规则预测模型分析图结构中规律和关联以学习实体与关系之间的规则,并将实体和关系之间的规则作为预测结果输出。2.根据权利要求1所述的基于规则的构建知识图谱的方法,其特征在于,通过OpenIE库进行关系抽取;对输入的文本进行分词、词性标注、命名实体识别和实体消歧,包括如下步骤:对输入的文本进行分词处理,得到结构化数据和非结构化数据;通过Python的NLTK库对非结构化数据进行词性标注和命名实体识别,得的实体;将得到的实体收集起来,通过py_entitymatching库进行实体消歧。3.根据权利要求1所述的基于规则的构建知识图谱的方法,其特征在于,所述特征提取模型包括:输入层,对于所述输入层,以实体和关系对应的文本序列作为输入;嵌入层,所述嵌入层用于将输入的文本序列转化为词向量;卷积层池化层,所述卷积层池化层共多个、且卷积核大小不同,用于根据不同大小的卷积核提取不同大小的特征;全连接层,所述全连接层用于将每个卷积层池化层输出的特征连接起来,将得到的特征向量矩阵作为分类结果输出。4.根据权利要求1所述的基于规则的构建知识图谱的方法,其特征在于,对于每个实体或关系所属的簇,基于人工预定义的分类规则对通过K

means算法学习输出的簇进行比对过滤,得到实体或关系最终所属的簇。5.根据权利要求1所述的基于规则的构建知识图谱的方法,其特征在于,所述规则预测模型包括:图卷积神经网络层,所述图卷积神经网络层用于以带有标签的实体和关系节点为输入、对图结构进行特征转化,得到实体和关系节点的特征向量;池化层,所述池化层用于对实体和关系节点的特征向量进行平均池化操作,并拼接起来得到拼接后特征向量;线性层,所述线性层用于对拼接后特征向量进行线性组合,得到实体和关系之间的规则并作为预测结果输出。6.一种基于规则的构建知识图谱的系统,其特征在于,用于通过如权利要求1

5任一项所述的基于规则...

【专利技术属性】
技术研发人员:于家晟张峰李照川王彦功王飞田浩路国隋李存冰
申请(专利权)人:浪潮软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1