一种基于多源异构大数据分析处理与知识图谱构建方法技术

技术编号:36455498 阅读:24 留言:0更新日期:2023-01-25 22:53
本发明专利技术公开了一种基于多源异构大数据分析处理与知识图谱构建方法,包括如下步骤:步骤一、数据源:先分别借助公知信息数据手段和网络检索数据手段获得结构化数据、半结构化数据和非结构化数据,形成初步知识图谱数据混合库,先通过大范围、多领域和各种渠道获取海量数据源,再由知识抽取对获取的各种海量数据库进行预先知识抽取处理,后依次经过构建领域本体库构建和全局本体库构建获取更为精准的知识图谱数据库,最后经过实体对齐和实体链接规则处理后,以应用平台的方式供与用户操作和管控,实现多领域多需求的海量数据中按照语义一致和结构一致的高精度多数据融合搭建效果,大大降低了知识图谱的使用局限性。大降低了知识图谱的使用局限性。大降低了知识图谱的使用局限性。

【技术实现步骤摘要】
一种基于多源异构大数据分析处理与知识图谱构建方法


[0001]本专利技术涉及知识图谱构建
,具体为一种基于多源异构大数据分析处理与知识图谱构建方法。

技术介绍

[0002]知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
[0003]在海量数据面前,目前借助知识谱图手段最为有效,而现阶段使用的知识谱图在构建时,大多在同一领域数据中进行搭建使用,无法对多领域多需求的海量数据中按照语义一致和结构一致的高精度多数据融合搭建,极大的提高了知识图谱的使用局限性,无法全面对多领域多需求的海量数据进行精准操作和管控,满足不了大环境下知识图谱的全面使用,为此,提出基于多源异构大数据分析处理与知识图谱构建方法。

技术实现思路

[0004]本专利技术的目的在于提供基于多源异构大数据分析处理与知识图谱构建方法,以解决上述
技术介绍
中提出的无法对多领域多需求的海量数据中按照语义一致和结构一致的高精度多数据融合搭建的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种基于多源异构大数据分析处理与知识图谱构建方法,包括如下步骤:
[0006]步骤一、数据源:先分别借助公知信息数据手段和网络检索数据手段获得结构化数据、半结构化数据和非结构化数据,形成初步知识图谱数据混合库;
[0007]步骤二、知识抽取:再从初步形成的知识图谱数据混合库中按照实体数据、语义关系和重点特性条件进行抽取筛选,初步剔除歧义、重合以及错误的数据,进一步形成较为精准的知识图谱数据精简库;
[0008]步骤三、知识图谱本体构建:针对不同领域和不同应用需求,利用OWL从含有多种数据库的知识图谱数据精简库中构建相应的领域本体库,再通过映射成全局本体库;
[0009]A、领域本体库构建:领域本体库的构建数据主要来源于步骤一中的各种数据源,也可利用相关领域的相关官方网站上搜索补充,首先,由于领域内的关系数据库是针对特定领域而创建的,该数据库包含了领域内的表达方法和具体应用的详细信息,因此,先从领域的关系数据库中抽取出关系模式,分析关系数据库中表的信息和字段信息,建立相应的概念模型;其次,由于关系模式包括表与字段之间的关系,以及表与表之间的联系,而本体库则是包括概念与概念之间的关系、概念与属性间的联系,因此,要利用一定的规则将关系模式映射为本体模型,通过设计一系列转换规则,如:将关系模式中的表名转换为本体中的概念名,表与表间的关系转换为本体中的概念与概念的关系,将关系模式中的字段名转换为本体的属性名等,可以获得领域本体模型;最后,对领域本体模型进行评估和校验,该部
分重点是对所构造的领域本体模型进行检验,查看是否满足本体库的构建原则,本体模型中的术语是否正确,本体模型中的概念及其关系是否完整等,通过对本体模型评估后,即可建立领域内的本体库;
[0010]B、全局本体库构建:为了能便于构建多数据融合的知识图谱,需要将多个领域内的本体库进行融合,在构建的领域本体库基础上,通过相似性检测和冲突解决等规则,将多个领域的本体库融合在一起组成了全局本体库,首先,对不同领域内的本体可能存在一些相同或相似的概念和属性的情况,采用相似性检测规则对它们进行检测,如:语义相似性检测、概念相似性检测、属性相似性检测、数据格式相似性检测等,通过这些相似性检测,能将不同领域内的相同或相似本体进行统一,但还不能解决它们之间的冲突;其次,采用冲突解决规则对上面存在的相似概念或属性等问题进行解决,通过冲突解决规则可以消除概念的歧义,剔除冗余和错误概念,从而保证全局本体库的质量,主要是对上述存在相似的概念或属性进行消除,使其达到统一,并合并为全局本体;最后,将剩余的领域本体经过冲突解决和实体消岐等处理,映射到全局本体库,与各个领域本体库相结合,从而实现全局本体的构建;
[0011]步骤四、实体对齐:首先对开放链接数据及行业领域的百科数据中实体进行提取得到了实体的同义名称集合,再将实体对齐问题看成全局匹配评分目标函数的优化问题进行建模,再通过贪婪优化算法求得其相似解,再通过实体对齐的方法,将这些实体与上述构建的知识图谱中的实体进行匹配,把结果作为实体合并的候选实体集;最后将这些候选实体集中的实体,通过比对它们的上层概念,如果具有相同的上层概念,则将它们合并为一个实体;
[0012]步骤五、实体链接:再从文本中抽取得到的实体对象,将其链接到知识图谱中对应的正确实体对象的操作,且在给定的知识图谱中,预测出缺失的实体间的关系,丰富和拓展知识图谱,后根据给定三元组的头(尾)实体和关系,从知识图谱中或其它相关文本数据中选出一组候选实体对象,然后通过实体链接预测算法,计算出正确的尾(头)实体,最后将知识图谱中的实体和关系通过嵌入方式投影到低维向量空间,并在向量空间中通过向量平移转换操作,计算头、尾实体及关系在向量空间中的损失函数值,实现头尾实体的关系链接,同时再基于约束嵌入转换算法,在原有向量嵌入转换算法的基础上,增加关系语义约束条件,使得所预测出实体间的关系要满足关系的语义类型,如:对于关系“出生于”,其头实体通常是人或动物,而尾实体通常是时间或地点;
[0013]步骤六、应用平台:将实体对齐和实体链接处理后的知识图谱数据库中的多数据进行融合,形成最终版知识图谱数据总库,再采用Neo4j作为图的存储数据库,以Bootstrap前端网页框架设计布局,并使用D3.js数据驱动的可视化套件实现实体与关系的动态展示效果,即可完成应用平台搭建,最后用户再通过应用平台从全局层面对融合多个数据源的数据进行管理和使用。
[0014]优选的,所述在步骤一数据源中:公知信息数据由生活、工业、医疗、环境等领域中的基本常识、基本知识以及常规技术中获得,网络检索数据由百度、雅虎、谷歌等搜索引擎中获得数据。
[0015]优选的,所述在步骤一数据源中:结构化数据主要来源于关系数据库,如:政府数据库、各大医院数据库、各厂矿企业数据库、环境数据库等中获得,半结构化数据主要来源
于地理位置信息数据库、厂矿企业信息数据库、医院病人病历数据库、各地环境和气象数据库等,非结构化数据主要来源于文本资料数据、账单发票凭证、音视频数据等。
[0016]优选的,所述在步骤一数据源中:为了扩充和完善数据源汇总的数据库,对互动百科数据、维基百科数据、百度百科数据、贴吧数据、微博数据和短视频数据通过网页爬虫技术获取相应的知识数据,再对获取的知识数据进行实体过滤,筛选歧义、重合和错位的数据信息,再对各渠道获取的数据合并后计入数据源,并将半结构化数据通过转换规则转换为结构化数据,对于分结构化数据和无结构数据,可通过人工抽取方式提取相应知识。
[0017]优选的,所述在步骤三知识图谱本体构建中的领域本体库构建时:选取步骤一中数据源中的结构化数据表格转换成相应的本体概念及属性进行描述,将数据源获取数据库中的关系名转换为本体中的概念本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多源异构大数据分析处理与知识图谱构建方法,其特征在于:包括如下步骤:步骤一、数据源:先分别借助公知信息数据手段和网络检索数据手段获得结构化数据、半结构化数据和非结构化数据,形成初步知识图谱数据混合库;步骤二、知识抽取:再从初步形成的知识图谱数据混合库中按照实体数据、语义关系和重点特性条件进行抽取筛选,初步剔除歧义、重合以及错误的数据,进一步形成较为精准的知识图谱数据精简库;步骤三、知识图谱本体构建:针对不同领域和不同应用需求,利用OWL从含有多种数据库的知识图谱数据精简库中构建相应的领域本体库,再通过映射成全局本体库;A、领域本体库构建:领域本体库的构建数据主要来源于步骤一中的各种数据源,也可利用相关领域的相关官方网站上搜索补充,首先,由于领域内的关系数据库是针对特定领域而创建的,该数据库包含了领域内的表达方法和具体应用的详细信息,因此,先从领域的关系数据库中抽取出关系模式,分析关系数据库中表的信息和字段信息,建立相应的概念模型;其次,由于关系模式包括表与字段之间的关系,以及表与表之间的联系,而本体库则是包括概念与概念之间的关系、概念与属性间的联系,因此,要利用一定的规则将关系模式映射为本体模型,通过设计一系列转换规则,如:将关系模式中的表名转换为本体中的概念名,表与表间的关系转换为本体中的概念与概念的关系,将关系模式中的字段名转换为本体的属性名等,可以获得领域本体模型;最后,对领域本体模型进行评估和校验,该部分重点是对所构造的领域本体模型进行检验,查看是否满足本体库的构建原则,本体模型中的术语是否正确,本体模型中的概念及其关系是否完整等,通过对本体模型评估后,即可建立领域内的本体库;B、全局本体库构建:为了能便于构建多数据融合的知识图谱,需要将多个领域内的本体库进行融合,在构建的领域本体库基础上,通过相似性检测和冲突解决等规则,将多个领域的本体库融合在一起组成了全局本体库,首先,对不同领域内的本体可能存在一些相同或相似的概念和属性的情况,采用相似性检测规则对它们进行检测,如:语义相似性检测、概念相似性检测、属性相似性检测、数据格式相似性检测等,通过这些相似性检测,能将不同领域内的相同或相似本体进行统一,但还不能解决它们之间的冲突;其次,采用冲突解决规则对上面存在的相似概念或属性等问题进行解决,通过冲突解决规则可以消除概念的歧义,剔除冗余和错误概念,从而保证全局本体库的质量,主要是对上述存在相似的概念或属性进行消除,使其达到统一,并合并为全局本体;最后,将剩余的领域本体经过冲突解决和实体消岐等处理,映射到全局本体库,与各个领域本体库相结合,从而实现全局本体的构建;步骤四、实体对齐:首先对开放链接数据及行业领域的百科数据中实体进行提取得到了实体的同义名称集合,再将实体对齐问题看成全局匹配评分目标函数的优化问题进行建模,再通过贪婪优化算法求得其相似解,再通过实体对齐的方法,将这些实体与上述构建的知识图谱中的实体进行匹配,把结果作为实体合并的候选实体集;最后将这些候选实体集中的实体,通过比对它们的上层概念,如果具有相同的上层概念,则将它们合并为一个实体;步骤五、实体链接:再从文本中抽取得到的实体对象,将其链接到知识图谱中对应的正
确实体对象的操作,且在给定的知识图谱中,预测出缺失的实体间的关系,丰富和拓展知识图谱,后根据给定三元组的头(尾)实体和关系,从知识图谱中或其它相关文本数据中选出一组候选实体对象,然后通过实体链接预测算法,计算出正确的尾(头)实体,最后将知识图谱中的实体和关系通过嵌入方式投影到低维向量空间,并在向量空间中通过向量平移转换操作,计算头、尾实体及关系在向量空间中的损失函数值,实现头尾实体的关系链接,同时再基于约束嵌入转换算法,在原有向量嵌入转换算法的基础上,增加关系语义约束条件,使得所预测出实体间的关系要满足...

【专利技术属性】
技术研发人员:金仲存田伟郝美萍王沿甲张美晶吴越窦林涛朱威
申请(专利权)人:西安银江智慧城市技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1