大规模知识图谱本体自动抽取方法、终端设备及存储介质技术

技术编号:29298009 阅读:16 留言:0更新日期:2021-07-17 01:06
本发明专利技术涉及大规模知识图谱本体自动抽取方法、终端设备及存储介质,该方法中包括:S1:从知识图谱中获取实体;S2:采用规则匹配算法对提取的实体进行初步分类;S3:采用命名实体识别模型对步骤S2中未分类的实体进行命名实体识别,并确认识别到的命名实体的类型;S4:针对步骤S3中命名实体识别后的剩余实体,采用聚类算法进行分类;S5:将步骤S2、S3和S4的分类结果进行合并与调整,得到最终的分类结果。本发明专利技术创新性地融合多种技术手段,有效的实现了工业界大规模知识图谱的本体自动抽取工作,在无任何人工标注数据的情况下,仍可实现对复杂、量级大、脏数据多的知识图谱进行实体的本体抽取。取。取。

【技术实现步骤摘要】
大规模知识图谱本体自动抽取方法、终端设备及存储介质


[0001]本专利技术涉及知识图谱领域,尤其涉及一种大规模知识图谱本体自动抽取方法、终端设备及存储介质。

技术介绍

[0002]知识图谱(Knowledge Graph)的概念由谷歌2012年正式提出,旨在实现更智能的搜索引擎,并且于2013年以后开始在学术界和业界普及。目前,随着智能信息服务应用的不断发展,知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐、情报分析、反欺诈等领域。
[0003]知识图谱有自顶向下和自底向上两种构建方式。所述自顶向下构建为:先定义好本体,再将实体加入到知识库中;所述自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出实体,选择其中置信度较高的,加入到知识库中。目前,主流方式是采用自底向上构建的方式,这就需要在图谱构建后进行本体的抽取构建工作。本体构建方法按照人工介入的程度,可分为手动构建、半自动构建、自动构建,但目前尚未有成熟的技术体系。

技术实现思路

[0004]为了解决上述问题,本专利技术提出了一种大规模知识图谱本体自动抽取方法、终端设备及存储介质。
[0005]具体方案如下:
[0006]一种大规模知识图谱本体自动抽取方法,包括以下步骤:
[0007]S1:从知识图谱中获取实体;
[0008]S2:采用规则匹配算法对提取的实体进行初步分类;
[0009]S3:采用命名实体识别模型对步骤S2中未分类的实体进行命名实体识别,并确认识别到的命名实体的类型;<br/>[0010]S4:针对步骤S3中命名实体识别后的剩余实体,采用聚类算法进行分类;
[0011]S5:将步骤S2、S3和S4的分类结果进行合并与调整,得到最终的分类结果。
[0012]进一步的,步骤S1还包括对获取的实体进行预处理,预处理包括标点符号清洗、异常长度实体过滤和大写字母转换为小写字母。
[0013]进一步的,步骤S4聚类算法采用Kmeans聚类算法。
[0014]进一步的,步骤S4采用聚类算法进行分类的具体过程如下:
[0015]S401:针对每个待分类实体,从知识图谱中提取其属性、标签和关系中的一种或多种后,与实体名称进行拼接,使用自然语言处理词向量技术,获取拼接后的字符串中的每个字的向量表示,将所有字的向量表示的平均值作为待分类实体的词向量;
[0016]S402:将待分类实体的词向量,输入到Kmeans模型中,使用手肘法确认聚类个数k;
[0017]S403:将待分类实体的词向量表示与聚类个数k同时输入到Kmeans模型中,得到聚
类结果。
[0018]进一步的,步骤S401中采用的自然语言处理词向量技术为在102种语言的语料上进行训练的bert

base

multilingual

uncased模型。
[0019]进一步的,如果最终的分类结果中某种类别的实体数量大于预设的数量阈值,则对该种类别的实体重新执行步骤S2~S5进行进一步分类。
[0020]一种大规模知识图谱本体自动抽取终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本专利技术实施例上述的方法的步骤。
[0021]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术实施例上述的方法的步骤。
[0022]本专利技术采用如上技术方案,并具有以下有益效果:
[0023]1.适用性强:不同领域的知识图谱都可以使用本专利技术。
[0024]2.效果好:创新地进行多技术手段融合,保证了本体抽取的效果;使用规则匹配,进行初步分类,分类质量高;接着使用命名实体识别模型,可选地使用开源命名实体识别模型或自训练命名实体识别模型,无论是开源命名实体识别模型还是自训练命名实体识别模型,都基于大规模带标注的文本语料训练生成,具有很好的文本识别分类效果;创新地使用实体名称拼接实体属性、标签、关系,使用自然语言处理词向量技术获得文本向量表示,比单一使用实体名称提取到更多的特征,大大提升了后续Kmeans模型的学习效果。
[0025]3.速度快:其一,使用规则匹配分类和命名实体识别模型识别分类,处理速度快。其二由于先行使用规则匹配分类和命名实体识别模型识别分类,减少了待分类样本数,从而大大减少了后续转换词向量的时间和Kmeans模型训练、预测的时间。
[0026]4.实施快:命名实体识别模型和自然语言处理词向量模型均可选,可以使用开源模型,初版项目实施快,可快速看到效果。
[0027]5.扩展性强:根据预期可循环迭代操作,结果具有极强的扩展性。
附图说明
[0028]图1所示为本专利技术实施例一的流程图。
[0029]图2所示为该实施例中折线图的示意图。
具体实施方式
[0030]为进一步说明各实施例,本专利技术提供有附图。这些附图为本专利技术揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。
[0031]现结合附图和具体实施方式对本专利技术进一步说明。
[0032]实施例一:
[0033]本专利技术实施例提供了一种大规模知识图谱本体自动抽取方法,如图1所示,其为本专利技术实施例所述的大规模知识图谱本体自动抽取方法的流程图,所述方法包括以下步骤:
[0034]S1:从知识图谱中获取实体。
[0035]该实施例中使用cypher查询语句,从知识图谱中获得40W实体。
[0036]进一步的,由于获取的实体格式不统一,且有一些无用数据,因此还需要对其进行预处理,该实施例中预处理包括标点符号清洗、异常长度实体过滤和大写字母转换为小写字母等,在其他实施例中也可以采用其他处理方式,在此不做限制。
[0037]S2:采用规则匹配算法对提取的实体进行初步分类。
[0038]该实施例中采用了以下规则:
[0039]a.以“舰”、“艇”、“炮”、“雷达”、“坦克”等为结尾的实体,类别为“装备”;
[0040]b.以“军”、“旅”、“团”、“师”、“战区”等为结尾的实体,类别为“组织”。
[0041]上述仅为该实施例中采用的示例规则,在其他实施例中本领域技术人员可以根据需求设定其他规则,在此不做限制。
[0042]经过本步骤,可以完成部分实体的分类,且分类的质量很高。
[0043]S3:采用命名实体识别模型对步骤S2中未分类的实体进行命名实体识别,并确认识别到的命名实体的类型。
[0044]命名实体识别模型可以为开源模型,如Hanlp、Ltp等,也可以为自训练模型。其中开源的Hanlp或Ltp可以识别的类别有:人名、地名、机构名等。自训练命名实体识别模型可识别的类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大规模知识图谱本体自动抽取方法,其特征在于,包括以下步骤:S1:从知识图谱中获取实体;S2:采用规则匹配算法对提取的实体进行初步分类;S3:采用命名实体识别模型对步骤S2中未分类的实体进行命名实体识别,并确认识别到的命名实体的类型;S4:针对步骤S3中命名实体识别后的剩余实体,采用聚类算法进行分类;S5:将步骤S2、S3和S4的分类结果进行合并与调整,得到最终的分类结果。2.根据权利要求1所述的大规模知识图谱本体自动抽取方法,其特征在于:步骤S1还包括对获取的实体进行预处理,预处理包括标点符号清洗、异常长度实体过滤和大写字母转换为小写字母。3.根据权利要求1所述的大规模知识图谱本体自动抽取方法,其特征在于:步骤S4聚类算法采用Kmeans聚类算法。4.根据权利要求3所述的大规模知识图谱本体自动抽取方法,其特征在于:步骤S4采用聚类算法进行分类的具体过程如下:S401:针对每个待分类实体,从知识图谱中提取其属性、标签和关系中的一种或多种后,与实体名称进行拼接,使用自然语言处理词向量技术,获取拼接后的字符串中的每个字的向量表示,将所有字的向量表示的平均值作为待分类实体的词向量;S402:...

【专利技术属性】
技术研发人员:洪万福张林娜
申请(专利权)人:厦门渊亭信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1