一种知识本体构建方法、终端设备及存储介质技术

技术编号:28209229 阅读:27 留言:0更新日期:2021-04-24 14:42
本发明专利技术涉及一种知识本体构建方法、终端设备及存储介质,该方法中包括:S1:构建知识本体,并配置本体对应的元数据;S2:根据构建的知识本体和配置的元数据,采集对应的实体数据并存入知识库内;S3:构建规则库;S4:加载实例并根据配置的元数据和规则库内的规则,从实例中提取实例数据;根据实例数据抽取知识节点和三元组数据并添加至知识图库内;S5:根据提取的结构化数据和抽取的三元组数据构建新的规则并更新至规则库内;S6:根据知识库生成知识图谱。本发明专利技术分别利用实例数据的结构化数据以及非结构化数据为基础进行语义化分析,通过元数据对本体的描述以及构建规则库的方式驱动知识数据,构建知识图谱。构建知识图谱。构建知识图谱。

【技术实现步骤摘要】
一种知识本体构建方法、终端设备及存储介质


[0001]本专利技术涉及知识图谱构建领域,尤其涉及一种知识本体构建方法、终端设备及存储介质。

技术介绍

[0002]随着网络普及以及客户对业务理解的逐渐加深,信息化系统也被大量的应用,使得数据之间的互通性、扩展性得到提升,一定程度上提升了办公效率。但是在大量的法律案本信息面前,业务人员如何能够快速的解决定位问题成为迫切需要解决的问题。
[0003]以往的方案都是通过客户或者业务人员的经验来解决问题,但也是由于人员的流动导致执行人员业务经验参差不齐,办案效果不能向预期的方向发展,而分析目前也停留在查询,统计的简单应用,不能够将数据的价值发挥完全。

技术实现思路

[0004]为了解决上述问题,本专利技术提出了一种知识本体构建方法、终端设备及存储介质。
[0005]具体方案如下:
[0006]一种知识本体构建方法,包括以下步骤:
[0007]S1:构建知识本体,并配置本体对应的元数据;
[0008]S2:根据构建的知识本体和配置的元数据,采集对应的实体数据并存入知识库内;
[0009]S3:构建规则库;
[0010]S4:加载实例并根据配置的元数据和规则库内的规则,从实例中提取实例数据,实例数据包括知识实例、结构化数据、标签数据和非结构化数据;根据提取的知识实例抽取知识节点并添加至知识库内;根据配置的元数据将添加至知识库内的知识节点与知识库内原有的实体数据对应的节点进行映射;根据提取的非结构化数据通过依存句法分析进行三元组抽取,将抽取的三元组数据添加至知识图库内;
[0011]S5:根据提取的结构化数据和抽取的三元组数据构建新的规则并更新至规则库内;
[0012]S6:根据知识库生成知识图谱。
[0013]进一步的,步骤S1中元数据包括:资源信息表、资源信息属性描述表、资源属性与本体以及对象属性对照映射表、实例资源关联表和资源信息与本体关联表。
[0014]进一步的,规则库包括推理规则、实体消歧规则和非结构化数据三元组提取规则。
[0015]进一步的,将知识节点添加至知识库内通过执行指定节点CSV文件的neo4jimport脚本进行,节点CSV文件的数据格式从左到右分别为命名标识、属性信息和标签信息三个部分。
[0016]进一步的,将添加至知识库内的知识节点与知识库内原有的实体数据对应的节点进行映射通过执行指定关系CSV文件的neo4j import脚本进行,关系CSV 文件的数据格式包括:关系起始节点、关系终止节点、关系属性信息及关系类型。
[0017]进一步的,步骤S4中对提取的非结构化数据进行依存句法分析之前,还包括对提取的非结构化数据进行预处理,对预处理后的数据进行实体抽取,对抽取的实体进行依存句法分析进而抽取三元组数据。
[0018]进一步的,预处理包括分词处理;分词处理采用开源分词工具包进行分词后,通过对应领域的领域词库进行分词训练,使得分词后的词汇能够与领域词库中的词汇相匹配。
[0019]一种知识本体构建终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本专利技术实施例上述的方法的步骤。
[0020]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术实施例上述的方法的步骤。
[0021]本专利技术采用如上技术方案,分别利用实例数据的结构化数据以及非结构化数据为基础进行语义化分析,达到一组数据两种维度的“一体两维”的方式,通过元数据对本体的描述以及构建规则库的方式驱动知识数据,构建知识图谱。
附图说明
[0022]图1所示为本专利技术实施例一的流程图。
[0023]图2所示为本专利技术实施例一中知识本体构建示意图。
[0024]图3所示为本专利技术实施例一中对象属性构建示意图。
[0025]图4所示为本专利技术实施例一中数据属性构建示意图。
[0026]图5所示为本专利技术实施例一中资源属性与本体以及对象属性对照映射表。
[0027]图6所示为本专利技术实施例一中实例资源关联表。
[0028]图7所示为本专利技术实施例一中同区域案件关系规则文件示意图。
[0029]图8所示为本专利技术实施例一中含同嫌疑人关系规则文件示意图。
[0030]图9所示为本专利技术实施例一中节点CSV文件导入脚本示意图。
[0031]图10所示为本专利技术实施例一中依存标签示意图。
[0032]图11所示为本专利技术实施例一中知识图谱展示效果示意图。
具体实施方式
[0033]为进一步说明各实施例,本专利技术提供有附图。这些附图为本专利技术揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。
[0034]现结合附图和具体实施方式对本专利技术进一步说明。
[0035]实施例一:
[0036]本专利技术实施例提供了一种知识本体构建方法,基于neo4j作为知识库的存储介质,基于Java作为应用级技术,如图1所示,所述方法包括以下步骤:
[0037]S1:构建知识本体,并配置本体对应的元数据。
[0038]通常领域类本体多采用自顶向下的方式构建,一方面,相对于开放域知识图谱,领域知识图谱涉及的概念和范围都是固定或者可控的;另一方面,对于领域知识图谱,我们要求其满足较高的精度。该实施例中通过本体构建工具Protege构建技术开锁入室盗窃案本
体,如图2、图3和图4所示,获得一个用 OWL表示的知识本体文件。
[0039]该实施例中通过jena对owl知识本体文件进行解析后,对其内的元数据进行配置。设定元数据包括:资源信息表(表名,对应本体实例名,对象属性关联键等),资源信息属性描述表(对资源信息字段的描述,字段的字典(CODE)表,是否应用为知识节点等),资源属性与本体以及对象属性对照映射表(资源与本体类对象属性的对齐)如图5,实例资源关联表(资源之间的关系与本体对象关系映射配置)如图6,资源信息与本体关联表,对于已有的案件,线索,损失物品等数据进行数据抽取。
[0040]S2:根据构建的知识本体和配置的元数据,采集对应的实体数据并存入知识库内。
[0041]S3:构建规则库。
[0042]规则库用于知识挖掘和知识推理功能的实现,如可以根据案案关系、人案关系、人人关系、同事件关系、同线索关系、同群体关系等等方面对知识库扩展以及知识多元化产生。
[0043]该实施例中构建的规则库中的规则包括:推理规则、实体消歧规则和非结构化数据三元组提取规则,其中:推理规则为基于元数据的管理以及owl本体片段的解析进行实体推理,实体消歧规则为基于领域词表的同义词、近义词等概念进行歧义消除规则,非结构化数据三元组提取规则为依存句法分析,基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识本体构建方法,其特征在于,包括以下步骤:S1:构建知识本体,并配置本体对应的元数据;S2:根据构建的知识本体和配置的元数据,采集对应的实体数据并存入知识库内;S3:构建规则库;S4:加载实例并根据配置的元数据和规则库内的规则,从实例中提取实例数据,实例数据包括知识实例、结构化数据、标签数据和非结构化数据;根据提取的知识实例抽取知识节点并添加至知识库内;根据配置的元数据将添加至知识库内的知识节点与知识库内原有的实体数据对应的节点进行映射;根据提取的非结构化数据通过依存句法分析进行三元组抽取,将抽取的三元组数据添加至知识图库内;S5:根据提取的结构化数据和抽取的三元组数据构建新的规则并更新至规则库内;S6:根据知识库生成知识图谱。2.根据权利要求1所述的知识本体构建方法,其特征在于:步骤S1中元数据包括:资源信息表、资源信息属性描述表、资源属性与本体以及对象属性对照映射表、实例资源关联表和资源信息与本体关联表。3.根据权利要求1所述的知识本体构建方法,其特征在于:规则库包括推理规则、实体消歧规则和非结构化数据三元组提取规则。4.根据权利要求1所述的知识本体构建方法,其特征在于:将知识节点添加至知识库内通过执行指定节点CSV文件的neo4j import脚本进行,节点CSV文...

【专利技术属性】
技术研发人员:傅金争袁泉王电乔盛
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1