基于多源数据信息的知识图谱构建方法、设备及系统技术方案

技术编号：37855192 阅读：14 留言：0更新日期：2023-06-14 22:48

本发明专利技术公开了一种基于多源数据信息的知识图谱构建方法、设备及系统，属于人工智能技术领域，包括步骤：S1，数据获取；S2，信息抽取；S3，知识融合；S4，知识存储。本发明专利技术以在获取的多源数据信息中实体冗余繁杂、事件类型多样的情况下，提升了知识融合准确率，完成知识图谱的构建。的构建。的构建。

全部详细技术资料下载

【技术实现步骤摘要】
基于多源数据信息的知识图谱构建方法、设备及系统

[0001]本专利技术涉及人工智能
，更为具体的，涉及一种基于多源数据信息的知识图谱构建方法、设备及系统。

技术介绍

[0002]知识图谱是指显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱结构化存储的特点使得其具有非常广阔的应用前景，随着知识图谱的兴起，数据库的存储方式进入了新的发展阶段。目标知识图谱已逐步被应用于搜索软件、电商软件等服务类软件中用于实现信息检索等，同时，还可应用于针对多种来源的复杂舆情信息的即时监测与报告生成等，并且能够带来巨大的经济价值。而知识图谱的构建作为知识图谱的重要步骤，需要不断地进行探索与实践。
[0003]关于知识图谱构建的研究，主要包括信息抽取、知识融合及知识加工等方面的研究，目前最大的知识图谱构建方面的障碍是机器在知识融合的实现中，准确率不高带来的知识图谱中冗余实体较多，增加数据存储所需资源。而知识图谱本身的特点被认为是下一代数据存储的重要方式，因此知识图谱构建也是人工智能中数据存储的重要研究领域。
[0004]由于知识图谱对数据存储应用的重要性，因此使得知识图谱构建方法的随着知识图谱的广泛推广过程中受到大量的关注。但是正因为多源数据中的实体存在冲突与歧义，因此构建的过程具有挑战性，知识图谱构建方法的进展都很慢。因而如何以更有效的方式将多源数据中的大量具有冲突与歧义的实体进行对齐，消岐等方式实现知识图谱的构建，提升实...

【技术保护点】

【技术特征摘要】
1.一种基于多源数据信息的知识图谱构建方法，其特征在于，包括以下步骤：S1，数据获取；S2，信息抽取；S3，知识融合，将多个知识库中的知识进行整合，形成一个知识库的过程，在这个过程中，包括指代消解、实体消歧、实体对齐；其中，指代消解用于针对指代不明的情况，不同地方出现的代词到底指向前文中出现过的哪个实体的情况采用Span BERT模型进行处理；利用实体消歧针对一词多义现象，根据当前的语境，联系上下文信息，准确找到对应实体，建立实体链接；利用实体对齐针对多个实体具有不同的名称，但实际是同一种事物，会出现实体的重复和冗余的情况，利用Levenshtein距离和jacard距离来进行实体对齐，相似度大于某设定的阈值则判断为相似实体；S4，知识存储。2.根据权利要求1所述的基于多源数据信息的知识图谱构建方法，其特征在于，在步骤S1中，所述数据获取，包括子步骤：S11，判断网页是静态网页还是动态网页，静态网页全部的内容都在源代码中，而动态网页则不全是；S12，在区分好网页类型后，判断网页请求方式，分为
‘
get
’
和
‘
post
’
两种方式；判断选取针对不同网页类型的相应爬虫算法获取数据；将获取到的数据，通过python文件存储代码，将获取到的文本，图像，视频数据进行存储，初步建立数据库；S13，通过Python中的re库来进行正则表达式的书写，通过标点符号作为正则表达式判断依据进行分句操作。3.根据权利要求1所述的基于多源数据信息的知识图谱构建方法，其特征在于，在步骤S2中，所述信息抽取，包括子步骤：使用N
‑
Gram模型来进行信息抽取，通过检测文本中报告的事件是否存在，如果存在则从自然语言文本中进行事件元素的抽取，构造事件三元组的成词词性模板，最后以结构化的方式展现出来。4.根据权利要求1所述的基于多源数据信息的...

【专利技术属性】
技术研发人员：王侃，宋丹，刘万里，孙文，刘禄波，吴超蓉，刘鑫，韩迎萍，李晨雨，谷裕，王媛媛，王爽，
申请(专利权)人：中国电子科技集团公司第十研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人