一种不可移动文物风险评估知识图谱构建方法技术

技术编号:37261870 阅读:9 留言:0更新日期:2023-04-20 23:35
本发明专利技术公开了一种不可移动文物风险评估知识图谱构建方法,包括本体模型设计、多源异构数据处理、不可移动文物风险评估领域RDF数据到图数据库的映射方法和基于Neo4J图数据库的领域知识图谱构建方法;采用图数据库的方式存储不可移动文物本体及风险评估信息,根据不可移动文物风险评估模型对领域本体建模方法——七步法进行改进,按照改进后的方法建立本体模型。本体模型构建完成后,根据本体模型和领域数据使用图数据库Neo4J构建不可移动文物风险评估领域知识图谱。物风险评估领域知识图谱。物风险评估领域知识图谱。

【技术实现步骤摘要】
一种不可移动文物风险评估知识图谱构建方法


[0001]本专利技术涉及领域知识图谱构建方法研究领域,尤其涉及不可移动文物风险评估领域的知识图谱构建方法。

技术介绍

[0002]不可移动文物风险评估涉及的多源异构数据具有种类多、分布范围广、数据量大、具有时间、空间等多维度的特性,这些特性导致数据管理的复杂度提高。因此需要一种集成方法来将分散的数据组织起来,对不可移动文物的各方面的风险因素进行描述。当进行风险分析时,能够为不可移动文物风险评估提供高效准确的数据支撑。随着知识图谱提出,很多数据集成平台都开始应用知识图谱来将原本没有联系的数据连通,将离散的数据整合在一起,从而提供更有价值的决策支持。因此基于上述原因,本专利技术提出一种不可移动文物风险评估知识图谱构建方法为不可移动文物风险评估
[0003]知识图谱(Knowledge Graph)的概念由谷歌在2012年正式提出,目的是实现更智能的搜索引擎。知识图谱本质上是一种叫做语义网络(Semantic Network)的知识库,即具有有向图结构的一个知识库,其中图的节点代表实体或概念,边代表实体/概念之间的各种语义关系。知识图谱分为通用知识图谱和领域知识图谱。通用知识图谱面向通用领域,主要包含大量的现实世界中的常识性知识,覆盖面广。领域知识图谱是面向某一领域的,由该领域的专业数据构成的行业知识库,对领域知识深度和知识准确性有着很高的要求。领域知识图谱具有很多不同的数据模式以适应不同的业务场景和使用人员。
[0004]构建领域知识图谱的方法主要有自顶向下、自底向上和混合方式三种。自顶向下的构建形式是在知识图谱构建初期先借助百科类网站等结构化数据源,从高品质数据中提取本体和模式信息,加入知识库。自底向上的构建形式在没有定义的组织结构的前提下,应用知识抽取技术,从数据源中不断提取更新概念和概念间的组织结构。自顶向下和自底向上混合的构建方式是在初期有预定义的本体或模式层,同时随着数据源的加入,数据源的组织结构可以对知识图谱模式层进行更新改进,从而提高知识图谱的完整性和可靠性。

技术实现思路

[0005]本专利技术针对不可移动文物风险评估工作中存在的文物风险数据种类繁多,关系复杂,不利于风险评估专家对文物风险进行评估的问题,提出了一种不可移动文物风险评估知识图谱构建方法。该方法基于不可移动文物风险领域领域知识,采用图数据库的方式存储不可移动文物本体及风险评估信息,根据不可移动文物风险评估模型对领域本体建模方法——七步法进行改进,按照改进后的方法建立本体模型。本体模型构建完成后,根据本体模型和领域数据使用图数据库Neo4J构建不可移动文物风险评估领域知识图谱。
[0006]本专利技术所提出的方法主要包括本体模型设计、多源异构数据处理、不可移动文物风险评估领域RDF数据到图数据库的映射方法和基于Neo4J图数据库的领域知识图谱构建方法,详细介绍如下:
[0007]本体模型设计:本体模型是知识图谱的概念模型,为后面不可移动文物风险评估领域知识图谱的构建提供数据的组织架构。本专利技术通过对七步法进行详细分析并结合不可移动文物风险评估领域特点,在七步法的基础上增加了本体评估和迭代的过程完善了七步法忽略内容更新和缺少科学管理和评价机制的缺陷。除此之外,本专利技术在本体构建过程中参考项目组中领域专家所给出的不可移动文物风险评估模型来进行本体的设计,从而降低具有较强主观性的问题。不可移动文物风险评估本体模型总共有八个步骤,分别是明确领域范围、考察复用现有本体的可能性、列出本体中重要术语、定义类与类之间的等级关系、定义类的属性及属性约束、本体实例化、本体评价、本体建立和迭代。本专利技术通过以上步骤,并使用Prot
é
g
é
本体建模工具对不可移动文物风险评估本体模型进行设计与实现。最终将本体模型以RDF格式进行保存。
[0008]多源异构数据处理:构建不可移动文物风险评估知识图谱所涉及的数据来源主要包括:网络数据、结构化数据、文本数据、实地采集数据。从这些数据源中获得的数据大部分格式比较混乱,不符合系统设定的规范,因此需要采用正则匹配、网页解析、数据规范化等手段进一步对数据进行提取、转换。文本数据通过关键字提取、正则匹配以及人工的方式,将文本数据中包含的相关数据进行提取,并保存为Excel表格的形式;网络数据主要包括如中国文化遗产研究院官网等包含不可移动文物数据的网站,通过网页解析技术对这些网站的内容进行数据的提取,将得到的内容以Excel表格的形式进行存储;对于结构化数据,我们根据不可移动文物风险评估领域专家提供的数据标准化规范对其进行标准化的处理。通过以上步骤,我们最终得到用于构建不可移动文物风险评估知识图谱的原始数据。
[0009]不可移动文物风险评估领域RDF数据到图数据库的映射方法:本步骤旨在将不可移动文物风险评估本体模型所生成的RDF数据,映射为Neo4J图数据库所能存储的属性图的格式。在建立好不可移动文物风险评估本体模型后,通常使用RDF文件进行存储。RDF数据使用三元组<主语,谓语,宾语>来表示不可移动文物风险评估知识图谱中节点之间的关系从而构成不可移动文物风险评估语义网络结构。
[0010]r=<s,p,o>
[0011]其中s表示不可移动文物网络结构的主语,p表示不可移动文物网络结构的谓语,o表示不可移动文物网络结构的宾语。
[0012]Neo4J采用属性图的方式进行存储。属性图由节点集合、关系集合、属性键值对集合、路径起点终点映射函数和标签组成。
[0013]G=<V,E,P,src,tgt,lbl>
[0014]其中,V为图数据库中节点集合;E为边集合;P为属性键值对集合;src、tgt和lbl都表示函数关系,分别表示为图中每条边都有一个起点,图中每条边都有一个终点,图模型中每一个节点/边都可以设置零个或多个标签来标识。
[0015]1)节点映射
[0016]S为RDF的主语集合,O为RDF的宾语集合。将S和O映射成V,且V中没有重复元素。将RDF文件中类的集合记为C,将RDF中的S和O中每个元素所属的类c(c∈C)映射为V中对应元素的标签lbl。
[0017]2)关系映射
[0018]本体中两个类之间的关系其实表现的就是这两个类所属的实例之间可能存在的
关系,因此可以映射为Neo4j图数据库中的关系。因为本体中的类对应Neo4j中的标签,因此本体中的关系也就可以映射为这两个标签的节点之间可能存在的关系。
[0019]3)属性映射
[0020]在本体模型中,数据属性是对本体模型中类的特征的描述。可以直接对应到Neo4j节点的属性键值对P。
[0021]基于Neo4J图数据库的领域知识图谱构建方法:依据上述本体到Neo4j的映射规则,本专利技术将不可移动文物风险评估数据根据不可移动文物风险评估本体进行组织并存储到Neo4J图数据库中。
[0022]与现本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种不可移动文物风险评估知识图谱构建方法,其特征在于,包括本体模型设计、多源异构数据处理、不可移动文物风险评估领域RDF数据到图数据库的映射方法和基于Neo4J图数据库的领域知识图谱构建方法;具体实施过程如下,本体模型设计:本体模型是知识图谱的概念模型,为不可移动文物风险评估领域知识图谱的构建提供数据的组织架构;通过对七步法进行详细分析并结合不可移动文物风险评估领域特点,在本体构建过程中参考项目组中领域专家所给出的不可移动文物风险评估模型来进行本体的设计;使用Prot
é
g
é
本体建模工具对不可移动文物风险评估本体模型进行设计与实现,将本体模型以RDF格式进行保存;多源异构数据处理:构建不可移动文物风险评估知识图谱所涉及的数据来源包括:网络数据、结构化数据、文本数据、实地采集数据;采用正则匹配、网页解析、数据规范化对数据进行提取、转换,得到用于构建不可移动文物风险评估知识图谱的原始数据;不可移动文物风险评估领域RDF数据到图数据库的映射方法:将不可移动文物风险评估本体模型所生成的RDF数据,映射为Neo4J图数据库所能存储的属性图的格式;建立不可移动文物风险评估本体模型后,使用RDF文件进行存储;RDF数据使用三元组<主语,谓语,宾语>来表示不可移动文物风险评估知识图谱中节点之间的关系从而构成不可移动文物风险评估语义网络结构;r=<s,p,o>其中s表示不可移动文物网络结构的主语,p表示不可移动文物网络结构的谓语,o表示不可移动文物网络结构的宾语;Neo4J采用属性图的方式进行存储;属性图由节点集合、关系集合、属性键值对集合、路径起点终点映射函数和标签组成;G=<V,E,P,src,tgt,lbl>其中,V为图数据库中...

【专利技术属性】
技术研发人员:黄英健高红雨苏航
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1