一种基于CI/CD流水线的知识图谱管理方法及存储介质技术

技术编号:37500638 阅读:16 留言:0更新日期:2023-05-07 09:37
本发明专利技术涉及一种基于CI/CD流水线的知识图谱管理方法及存储介质,所述方法包括以下步骤:抽取需要更新的知识数据,并存储为预设格式的文件;将预设格式的文件提交至分布式版本控制系统GIT;分布式版本控制系统GIT的CI/CD流水线启动;CI/CD流水线启动自动配执行置文件预处理部分,进行知识数据更新的前置工作,所述前置工作包括版本标识及停止图数据库;导入处理后的预设格式的文件,进行知识数据更新。通过使用分布式版本控制系统GIT对知识图谱进行版本化管理,通过CI/CD流水线完成知识图谱的自动化更新,只需要一个统一的平台,一次提交,即可同时完成版本管理和自动更新。即可同时完成版本管理和自动更新。即可同时完成版本管理和自动更新。

【技术实现步骤摘要】
一种基于CI/CD流水线的知识图谱管理方法及存储介质


[0001]本申请涉及知识图谱领域,具体涉及一种基于CI/CD流水线的知识图谱管理方法及存储介质。

技术介绍

[0002]知识图谱(KnowledgeGraph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。知识图谱由概念、实体、关系、属性组成,知识更新则是对这些内容进行修订、补充,删除过时或错误内容,因此知识更新是知识图谱维护的重要环节,是长期进行的任务。
[0003]每一次知识更新,都是知识图谱的一个版本,这类似于出版教材,每一次修订后再出版,都是一个新的版本。知识图谱的知识存放在图数据库中,知识更新的过程,主要几个步骤:
[0004]1、将要更新的知识梳理到CSV文件或传统数据库等载体中;
[0005]2、停止图数据库;
[0006]3、通过调用图数据库API、图数据库查询语言等方式,对图数据库进行批量更新;
[0007]4、重新启动图数据库。
[0008]目前业界常用的方案中,这几个步骤是分开进行的,第2~4步骤的实现方案,还可以分为两种:
>[0009]1.编程实现方案:通过编写导入程序进行更新,比如java,python语言编写的程序,调用图数据库提供的开发工具包进行更新;
[0010]2.工具平台方案:通过上传数据到知识图谱平台,然后使用平台提供的调度作业进行更新,比如图数据库提供的可视化平台,或者云服务厂商提供的知识图谱服务平台。
[0011]第1种方案,2,3,4步骤是完全手动的,第2种方案知识的版本信息和知识图谱更新是割裂的,必须维护管理知识的版本与知识图谱更新作业的关系
[0012]程实现方案进行知识图谱更新,每个步骤都是手动进行的,属于低价值的重复劳动,如果需要对版本进行回退或恢复到指定版本,同样也需要大量手动工作,具平台方案,虽然部份更新步骤实现了自动化,但有一定的人工操作,并未实现全流程自动化,如文件上传到平台,以及创建调度作业,此外还需要另行维护知识图谱版本。如果需要对版本进行回退,需要重新创建调度作业。

技术实现思路

[0013]鉴于上述问题,本申请提供了一种基于CI/CD流水线的知识图谱管理方法及存储
介质,解决现有的知识图谱更新过程中需要人工操作而无法实现全自动化更新的问题。
[0014]为实现上述目的,专利技术人提供了一种基于CI/CD流水线的知识图谱管理方法,包括以下步骤:
[0015]抽取需要更新的知识数据,并存储为预设格式的文件;
[0016]将预设格式的文件提交至分布式版本控制系统GIT;
[0017]分布式版本控制系统GIT的CI/CD流水线启动;
[0018]CI/CD流水线启动自动配执行置文件预处理部分,进行知识数据更新的前置工作,所述前置工作包括版本标识及停止图数据库;
[0019]导入处理后的预设格式的文件,进行知识数据更新。
[0020]在一些实施例中,所述预设格式包括excel格式或csv格式。
[0021]在一些实施例中,还包括以下步骤:
[0022]将预设格式的文件通过分布式对象存储进行共享。
[0023]在一些实施例中,还包括以下步骤:
[0024]执行更新后脚本,验证知识数据更新情况;
[0025]若出错,则进行回滚;
[0026]若未出错,则提示更新成功。
[0027]在一些实施例中,所述步骤“执行更新后脚本,验证知识数据更新情况;若出错,则进行回滚;若未出错,则提示更新成功”具体包括以下步骤:
[0028]当知识数据更新完成后,CI/CD流水线的执行器就会执行after_scipt脚本;
[0029]after_scipt脚本读取知识数据更新时生成的日志,使用字符串正则匹配命令捕获异常信息;
[0030]如有异常数据,则表示更新失败;
[0031]若未有异常数据,则通过图数据库的Cli工具,查询实体和关系数量,与通过分布式对象存储进行共享的文件进行核对,确认更新是否完整;
[0032]若更新成功且完整,则通过配置的通知方式,发布知识更新成功的信息;
[0033]否则调用图数据库的Cli工具,进行还原操作;
[0034]重新启动图数据库。
[0035]还提供了另一个技术方案:一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器运行时执行以下步骤:
[0036]抽取需要更新的知识数据,并存储为预设格式的文件;
[0037]将预设格式的文件提交至分布式版本控制系统GIT;
[0038]分布式版本控制系统GIT的CI/CD流水线启动;
[0039]CI/CD流水线启动自动配执行置文件预处理部分,进行知识数据更新的前置工作,所述前置工作包括版本标识及停止图数据库;
[0040]导入处理后的预设格式的文件,进行知识数据更新。
[0041]在一些实施例中,所述预设格式包括excel格式或csv格式。
[0042]在一些实施例中,还包括以下步骤:
[0043]将预设格式的文件通过分布式对象存储进行共享。
[0044]在一些实施例中,还包括以下步骤:
[0045]执行更新后脚本,验证知识数据更新情况;
[0046]若出错,则进行回滚;
[0047]若未出错,则提示更新成功。
[0048]在一些实施例中,所述步骤“执行更新后脚本,验证知识数据更新情况;若出错,则进行回滚;若未出错,则提示更新成功”具体包括以下步骤:
[0049]当知识数据更新完成后,CI/CD流水线的执行器就会执行after_scipt脚本;
[0050]after_scipt脚本读取知识数据更新时生成的日志,使用字符串正则匹配命令捕获异常信息;
[0051]如有异常数据,则表示更新失败;
[0052]若未有异常数据,则通过图数据库的Cli工具,查询实体和关系数量,与通过分布式对象存储进行共享的文件进行核对,确认更新是否完整;
[0053]若更新成功且完整,则通过配置的通知方式,发布知识更新成功的信息;
[0054]否则调用图数据库的Cli工具,进行还原操作;
[0055]重新启动图数据库。
[0056]区别于现有技术,上述技术方案,当需要对知识图谱中的知识数据进行更新时,通过抽取需要更新的知识数据,并存储为预设格式的文件,接着将预设格式的文件提交至分布式版本控制系统G本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于CI/CD流水线的知识图谱管理方法,其特征在于,包括以下步骤:抽取需要更新的知识数据,并存储为预设格式的文件;将预设格式的文件提交至分布式版本控制系统GIT;分布式版本控制系统GIT的CI/CD流水线启动;CI/CD流水线启动自动配执行置文件预处理部分,进行知识数据更新的前置工作,所述前置工作包括版本标识及停止图数据库;导入处理后的预设格式的文件,进行知识数据更新。2.根据权利要求1所述的基于CI/CD流水线的知识图谱管理方法,其特征在于,所述预设格式包括excel格式或csv格式。3.根据权利要求1所述的基于CI/CD流水线的知识图谱管理方法,其特征在于,还包括以下步骤:将预设格式的文件通过分布式对象存储进行共享。4.根据权利要求3所述的基于CI/CD流水线的知识图谱管理方法,其特征在于,还包括以下步骤:执行更新后脚本,验证知识数据更新情况;若出错,则进行回滚;若未出错,则提示更新成功。5.根据权利要求4所述的基于CI/CD流水线的知识图谱管理方法,其特征在于,所述步骤“执行更新后脚本,验证知识数据更新情况;若出错,则进行回滚;若未出错,则提示更新成功”具体包括以下步骤:当知识数据更新完成后,CI/CD流水线的执行器就会执行after_scipt脚本;after_scipt脚本读取知识数据更新时生成的日志,使用字符串正则匹配命令捕获异常信息;如有异常数据,则表示更新失败;若未有异常数据,则通过图数据库的Cli工具,查询实体和关系数量,与通过分布式对象存储进行共享的文件进行核对,确认更新是否完整;若更新成功且完整,则通过配置的通知方式,发布知识更新成功的信息;否则调用图数据库的Cli...

【专利技术属性】
技术研发人员:吴弘毅徐能通林永清苏晋吉吕志平
申请(专利权)人:四创科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1