基于中间层核心本体的领域知识图谱的构建方法和装置制造方法及图纸

技术编号:21477626 阅读:27 留言:0更新日期:2019-06-29 04:49
本发明专利技术公开了基于中间层核心本体的领域知识图谱的构建方法和装置,属于知识图谱技术领域,构建方法包括以下步骤:步骤S1:构建基于通用形式化本体顶层本体的领域核心本体,即中间层核心本体;步骤S2:按照通用形式化本体自底向上构建领域本体模块,形成模块化的领域本体;步骤S3:对中间层核心本体和模块化的领域本体进行链接处理;步骤S4:以模块集成的方式形成一个具有统一语义规范和通用形式化本体顶层框架的领域知识图谱;步骤S5:对领域知识图谱进行维护和升级,融合了自顶向下和自底向上两种方式,提供一个基于顶层本体框架的具有统一语义规范的知识图谱建模方法。

【技术实现步骤摘要】
基于中间层核心本体的领域知识图谱的构建方法和装置
本专利技术涉及知识图谱
,更具体地说,它涉及一种基于中间层核心本体的领域知识图谱的构建方法和装置。
技术介绍
知识图谱是一种以语义网络形式表示的知识库,用图的形式描述客观世界的概念,实体,事件及其相互之间的关系。其中,概念是指人们在认识世界过程中形成的对客观事物的概念化表示,如人,动物,组织机构等;实体是客观世界中的具体事物;事件是客观世界中可观察或可感受到的某些过程或活动;关系描述概念,实体,事件之间客观存在的关联。这里的图指的是数据结构中的图,也就是由节点(node)和边(edge)组成的。知识图谱以结构化的形式描述客观世界中的概念实体及其关系,将互联网信息表达成人类认知世界的形式,提供了一种更好地组织,管理和理解互联网海量信息的能力。知识图谱与大数据和深度学习一起,成为互联网和人工智能发展的核心驱动力之一。知识图谱技术是指知识图谱建立和应用的技术,它融合了认知计算,知识表示与推理,信息检索与抽取,自然语言处理与语义Web,数据挖掘与机器学习等方向的交叉研究。知识图谱已经在人工和商业智能等领域有了一系列的应用,包括语义搜索,聊天机器人,临床决策支持等。通过知识图谱,可以实现Web从网页链接向概念链接转变,支持用户按主题而不是字符串检索,从而真正实现语义检索,基于知识图谱的搜索引擎,能够以图形方式向用户反馈结构化的知识,用户不必再次自行浏览大量网页链接即可准确地获取和定位目标知识作为答案。现有的知识图谱构建方法有自顶向下和自底向上两种。其中自顶向下构建又分为两种方式,一种是指对构建通用型知识图谱而言,借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库里。而对于构建行业知识图谱或某些垂直领域知识图谱而言,由于其行业术语、行业数据都相对比较清晰规范,可以先确定知识图谱的数据模型,然后根据数据模型约定的框架,再补充数据,完成知识图谱的构建。数据模型的构建,一般会先找到一个基础的参照模型,这个参照模型,可以参考比如行业的具体数据表示标准和规范,整合该标准规范中对各种行业数据的说明要求,逐渐形成一个基础的数据模型,及逐步形成某种行业相关的领域本体,再根据实际收集的数据情况逐步完善数据模型。也可从公开的各种知识图谱或数据库中当中抽取有关数据,结合有关的行业知识进行完善和整合。对于自顶向下的构建方式,随着数据量的不断积累,可能会发现原来的数据模型并不完善,有很多数据可能没有包含在数据模型的体系中,这时候就需要修订数据模型,根据数据的特点,完善数据模型。这个过程往往需要领域专家参与,费时费力,相当繁琐。而且对于不同领域之间,以及同个领域不同数据库或知识库之间的数据集之间进行映射时,横向之间的兼容性较差,从而使得有关知识之间的共享和可复用性受到较大限制。而自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的信息,加入到知识库中。一般包括三个阶段:信息抽取:从各种类型的数据源当中提取出实体,属性以及实体间的相互关系,在此基础上形成本体化的知识表达;知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应多个不同的实体等;知识加工:对于经过融合的新知识,需要经过质量评估之后,才能将合格的部分加入到知识库当中,以确保知识库的质量。这种方式通常是以一种自动化或半自动化的方式来实现的,但是由于缺乏统一的指导方法和标准,难以对领域知识进行广泛的覆盖和深度理解,所提供知识的准确性有时难以保证。
技术实现思路
针对现有技术存在的不足,本专利技术的目的在于提供一种基于中间层核心本体的领域知识图谱的构建方法和装置。为实现上述目的,本专利技术提供了如下技术方案:基于中间层核心本体的领域知识图谱的构建方法,包括以下步骤:步骤S1:构建基于通用形式化本体顶层本体的领域核心本体,即中间层核心本体;步骤S2:按照通用形式化本体自底向上构建领域本体模块,形成模块化的领域本体;步骤S3:对所述中间层核心本体和所述模块化的领域本体进行链接处理,在已经建好的所述中间层核心本体与所述模块化的领域本体之间通过链接建立映射和对应关系;步骤S4:返回步骤S2,通过不断构建更新所述领域本体模块或复用现有所述领域核心本体的方式,通过链接、映射与合并,将新的知识图谱补入到中间层核心本体知识图谱当中,并以模块集成的方式形成一个具有统一语义规范和所述通用形式化本体顶层框架的领域知识图谱;步骤S5:对所述领域知识图谱进行维护和升级。通过上述技术方案,融合了自顶向下和自底向上来构建本体的两种优势特征,能快速对领域建模,基于一个统一的语义框架,知识内容可以在不同领域本体或平台系统之间复用和互操作,知识图谱也具有良好的可扩展性和与兼容性。顶层本体具有普通性和抽象性,它可以作为构建领域本体的基础,并且为不同系统提供一个共同的知识库顶层框架。利用GFO顶层本体中已有的概念集,规范的关系定义和功能定义,以及合理的逻辑结构,通过GFO顶层本体来构建某个行业相关的领域顶层本体,作为中间层本体,可以大大减少知识图谱构建过程中的复杂性和由于数据来源多样化及数据缺失所带来不确定性。同时通过遵循统一的标准规范,能在不同本体库或知识系统之间建立映射(本体对齐)以实现知识的复用共享和互操作性,也可在现有的中医药领域知识库与其他领域知识库之间进行了整合。进一步优选为:在步骤S2中,所述领域本体模块的构建方法包括以下步骤:步骤S21:获取领域本体的覆盖范围;步骤S22:根据所述覆盖范围获取与所述领域本体概念相对应的相关术语;步骤S23:获取与所述相关术语相对应的概念化定义;步骤S24:对所述概念化定义进行公理化表达;步骤S25:通过所述领域本体的公理化表达进行建模,形成模块化的领域本体;步骤S26:对所述模块化的领域本体进行评估和更新。进一步优选为:在步骤S1中,所述领域核心本体构建之后,还包括对所述领域核心本体进行正确性审核。进一步优选为:在步骤S2中,所述模块化的领域本体构建之后,还包括对所述模块化的领域本体进行正确性审核。进一步优选为:在步骤S4中,所述领域知识图谱构建之后,还包括对所述领域知识图谱进行正确性审核。进一步优选为:所述领域核心本体为中医药领域核心本体;所述领域本体所述中医药领域本体;所述领域知识图谱为中医药领域知识图谱。进一步优选为:在步骤S1中,所述领域核心本体构建方法包括以下步骤:步骤S11:获取现有TCMLS-SN顶层框架中的基本概念体系和语义关系;步骤S12:对现有TCMLS-SN顶层框架中的基本概念体系和语义关系进行预处理,并整合到所述通用形式化本体顶层本体的规范与标准中;步骤S13:通过实体合并与重构,将所述TCMLS-SN顶层框架中的顶层节点集合与所述通用形式化本体顶层本体中的顶层抽象节点建立映射关系,形成基于所述通用形式化本体顶层本体的所述领域核心本体。基于中间层核心本体的领域知识图谱的构建装置,包括:领域核心本体构建模块,用于构建基于通用形式化本体顶层本体的领域核心本体,即中间层核心本体;领域本体模块构建模块,用于按照通用形式化本体自底向上构建领域本体模块,形成模块化的领域本体;链接处理模块,用本文档来自技高网
...

【技术保护点】
1.基于中间层核心本体的领域知识图谱的构建方法,其特征在于:包括以下步骤:步骤S1:构建基于通用形式化本体顶层本体的领域核心本体,即中间层核心本体;步骤S2:按照通用形式化本体自底向上构建领域本体模块,形成模块化的领域本体;步骤S3:对所述中间层核心本体和所述模块化的领域本体进行链接处理,在已经建好的所述中间层核心本体与所述模块化的领域本体之间通过链接建立映射和对应关系;步骤S4:返回步骤S2,通过不断构建更新所述领域本体模块或复用现有所述领域核心本体的方式,通过链接、映射与合并,将新的知识图谱补入到中间层核心本体知识图谱当中,并以模块集成的方式形成一个具有统一语义规范和所述通用形式化本体顶层框架的领域知识图谱;步骤S5:对所述领域知识图谱进行维护和升级。

【技术特征摘要】
1.基于中间层核心本体的领域知识图谱的构建方法,其特征在于:包括以下步骤:步骤S1:构建基于通用形式化本体顶层本体的领域核心本体,即中间层核心本体;步骤S2:按照通用形式化本体自底向上构建领域本体模块,形成模块化的领域本体;步骤S3:对所述中间层核心本体和所述模块化的领域本体进行链接处理,在已经建好的所述中间层核心本体与所述模块化的领域本体之间通过链接建立映射和对应关系;步骤S4:返回步骤S2,通过不断构建更新所述领域本体模块或复用现有所述领域核心本体的方式,通过链接、映射与合并,将新的知识图谱补入到中间层核心本体知识图谱当中,并以模块集成的方式形成一个具有统一语义规范和所述通用形式化本体顶层框架的领域知识图谱;步骤S5:对所述领域知识图谱进行维护和升级。2.根据权利要求1所述的基于中间层核心本体的领域知识图谱的构建方法,其特征在于:在步骤S2中,所述领域本体模块的构建方法包括以下步骤:步骤S21:获取领域本体的覆盖范围;步骤S22:根据所述覆盖范围获取与所述领域本体概念相对应的相关术语;步骤S23:获取与所述相关术语相对应的概念化定义;步骤S24:对所述概念化定义进行公理化表达;步骤S25:通过所述领域本体的公理化表达进行建模,形成模块化的领域本体;步骤S26:对所述模块化的领域本体进行评估和更新。3.根据权利要求1所述的基于中间层核心本体的领域知识图谱的构建方法,其特征在于:在步骤S1中,所述领域核心本体构建之后,还包括对所述领域核心本体进行正确性审核。4.根据权利要求1所述的基于中间层核心本体的领域知识图谱的构建方法,其特征在于:在步骤S2中,所述模块化的领域本体构建之后,还包括对所述模块化的领域本体进行正确性审核。5.根据权利要求1所述的基于中间层核心本体的领域知识图谱的构建方法,其特征在于:在步骤S4中,所述领域知识图谱构建之后,还包括对所述领域知识图谱进行正确性审核。6.根据权利要求1所述的基于中间层核心本体的领域知识图谱的构建方法,其特征在于:所述领域核心本体为中医药领域核心本体;所述领域本体所述中医药领域本体;所述领域知识图谱为中医药领域知识图谱。7.根据权利要求6所述的基于中间层核心本体的领域知识图谱的构建方法,其特征在于:在步骤S1中,所述领域核心本体构建方法包括以下步骤:步骤S11:获取现有TCMLS-SN顶层框架中的基本概念体系和语义关系;步骤S12:对现有TCMLS-SN顶层框架中...

【专利技术属性】
技术研发人员:龙海
申请(专利权)人:长沙沃本智能科技有限公司
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1