大规模知识图谱本体自动抽取方法、终端设备及存储介质技术

技术编号：29298009 阅读：16 留言：0更新日期：2021-07-17 01:06

本发明专利技术涉及大规模知识图谱本体自动抽取方法、终端设备及存储介质，该方法中包括：S1：从知识图谱中获取实体；S2：采用规则匹配算法对提取的实体进行初步分类；S3：采用命名实体识别模型对步骤S2中未分类的实体进行命名实体识别，并确认识别到的命名实体的类型；S4：针对步骤S3中命名实体识别后的剩余实体，采用聚类算法进行分类；S5：将步骤S2、S3和S4的分类结果进行合并与调整，得到最终的分类结果。本发明专利技术创新性地融合多种技术手段，有效的实现了工业界大规模知识图谱的本体自动抽取工作，在无任何人工标注数据的情况下，仍可实现对复杂、量级大、脏数据多的知识图谱进行实体的本体抽取。取。取。

全部详细技术资料下载

【技术实现步骤摘要】
大规模知识图谱本体自动抽取方法、终端设备及存储介质

[0001]本专利技术涉及知识图谱领域，尤其涉及一种大规模知识图谱本体自动抽取方法、终端设备及存储介质。

技术介绍

[0002]知识图谱(Knowledge Graph)的概念由谷歌2012年正式提出，旨在实现更智能的搜索引擎，并且于2013年以后开始在学术界和业界普及。目前，随着智能信息服务应用的不断发展，知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐、情报分析、反欺诈等领域。
[0003]知识图谱有自顶向下和自底向上两种构建方式。所述自顶向下构建为：先定义好本体，再将实体加入到知识库中；所述自底向上构建，则是借助一定的技术手段，从公开采集的数据中提取出实体，选择其中置信度较高的，加入到知识库中。目前，主流方式是采用自底向上构建的方式，这就需要在图谱构建后进行本体的抽取构建工作。本体构建方法按照人工介入的程度，可分为手动构建、半自动构建、自动构建，但目前尚未有成熟的技术体系。

技术实现思路

[0004]为了解决上述问题，本专利技术提出了一种大规模知识图谱本体自动抽取方法、终端设备及存储介质。
[0005]具体方案如下：
[0006]一种大规模知识图谱本体自动抽取方法，包括以下步骤：
[0007]S1：从知识图谱中获取实体；
[0008]S2：采用规则匹配算法对提取的实体进行初步分类；
[0009]S3：采用命名实体识别模型对步骤S2中未分类的实体进行命名实体识别，并确认识别到的命名实体的类型；<...

【技术保护点】

【技术特征摘要】
1.一种大规模知识图谱本体自动抽取方法，其特征在于，包括以下步骤：S1：从知识图谱中获取实体；S2：采用规则匹配算法对提取的实体进行初步分类；S3：采用命名实体识别模型对步骤S2中未分类的实体进行命名实体识别，并确认识别到的命名实体的类型；S4：针对步骤S3中命名实体识别后的剩余实体，采用聚类算法进行分类；S5：将步骤S2、S3和S4的分类结果进行合并与调整，得到最终的分类结果。2.根据权利要求1所述的大规模知识图谱本体自动抽取方法，其特征在于：步骤S1还包括对获取的实体进行预处理，预处理包括标点符号清洗、异常长度实体过滤和大写字母转换为小写字母。3.根据权利要求1所述的大规模知识图谱本体自动抽取方法，其特征在于：步骤S4聚类算法采用Kmeans聚类算法。4.根据权利要求3所述的大规模知识图谱本体自动抽取方法，其特征在于：步骤S4采用聚类算法进行分类的具体过程如下：S401：针对每个待分类实体，从知识图谱中提取其属性、标签和关系中的一种或多种后，与实体名称进行拼接，使用自然语言处理词向量技术，获取拼接后的字符串中的每个字的向量表示，将所有字的向量表示的平均值作为待分类实体的词向量；S402：...

【专利技术属性】
技术研发人员：洪万福，张林娜，
申请(专利权)人：厦门渊亭信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人