基于人机结合的知识图谱标准化方法、装置及其存储介质制造方法及图纸

技术编号:37621808 阅读:12 留言:0更新日期:2023-05-18 12:13
本发明专利技术提供了一种人机结合的知识图谱标准化方法、装置及其存储介质,所述知识图谱标准化方法:根据历史文本数据按照相似度算法得到归一化文本;根据所述归一化文本和对应的预置矫正信息生成标准化文本词汇信息,其中,所述预置矫正信息为用户根据所述归一化文本录入的矫正信息;根据所述标准化文本词汇信息得到标准化知识图谱。通过归一化文本后利用人机结合的方式矫正文本,最终通过矫正后的文本得到标准化知识图谱,有助于解决现有技术中缺乏一种基于人机结合形成更加优化知识图谱的技术问题。术问题。术问题。

【技术实现步骤摘要】
基于人机结合的知识图谱标准化方法、装置及其存储介质


[0001]本专利技术涉及标准化领域,尤其是指一种人机结合的知识图谱标准化方法、装置及其存储介质。

技术介绍

[0002]标准是为了在一定范围内获得最佳秩序,经协商一致制定并由公认机构批准,为各种活动或其结果提供规则、指南或特性,供共同使用和重复使用的一种文件,对于产业发展进步具有重要作用。随着生产生活所需及时间推移,标准种类不断增多、数量规模逐渐增大,标准编制周期长、专家依赖性强,标准使用者及相关行业标准化人员更加难以从规模庞大的标准数据库中检索应用标准,且现阶段的标准文本多以纸质文本与PDF等电子文件全文形式存在,标准之间关联性差,不利于标准的进一步分析利用。这促使着研究者们不断推进标准数据的数字化组织方法研究和智能应用方法研究。知识图谱作为新一代知识存储数据库,具有层次结构清晰、语义知识丰富、关联推理性强等特点,本文采用知识图谱作为标准数据智能建模存储及应用的主要技术方向,结合“自上而下”与“自下而上”的知识图谱的构建思路。
[0003]所以急需一种人机结合的知识图谱标准化方法,有助于解决现有技术中缺乏一种基于人机结合形成更加优化知识图谱的技术问题。

技术实现思路

[0004]在一实施例中,本专利技术提供了一种人机结合的知识图谱标准化方法,通过归一化文本后利用人机结合的方式矫正文本,最终通过矫正后的文本得到标准化知识图谱,有助于解决现有技术中缺乏一种基于人机结合形成更加优化知识图谱的技术问题。
[0005]所述知识图谱标准化方法
[0006]根据历史文本数据按照相似度算法得到归一化文本;
[0007]根据所述归一化文本和对应的预置矫正信息生成标准化文本词汇信息,其中,所述预置矫正信息为用户根据所述归一化文本录入的矫正信息;
[0008]根据所述标准化文本词汇信息得到标准化知识图谱。
[0009]在一实施例中,所述归一化文本包括分层级的概念和关系词表,以及同义词表。
[0010]在一实施例中,所述根据历史文本数据按照相似度算法得到归一化文本包括:
[0011]根据历史文本数据按照层级进行归一去重生成不同层级对应的概念和关系词表,以及同义词表;
[0012]加载预训练词向量模块,以获取标题词汇对应内容的句子级别或段落级别的语义表示,并进而二次归一化处理形成归一化文本。
[0013]在一实施例中,所述根据所述标准化文本词汇信息得到标准化知识图谱步骤后,该方法还包括:
[0014]按照标准文本内容规则根据所述标准化知识图谱生成标准文本。
[0015]在一实施例中,述根据历史文本数据按照相似度算法得到归一化文本步骤后,该方法还包括:
[0016]采用tf

idf或LDA或LSA主题抽取模型进行核心词抽取;
[0017]根据所述核心词和所述归一化文本进行匹配和词扩展。
[0018]在一实施例中,所述相似度算法包括编辑距离或Jaccard方法。
[0019]在一实施例中,所述加载预训练词向量模块步骤后,该方法还包括:
[0020]采用词间聚类算法如K

means等进行聚类抽象为统一概念。
[0021]在一实施例中,本专利技术还提供了一种基于人机结合的知识图谱标准化装置,所述装置包括:
[0022]计算模块,用于根据历史文本数据按照相似度算法得到归一化文本;
[0023]生成模块,用于根据所述归一化文本和对应的预置矫正信息生成标准化文本词汇信息,其中,所述预置矫正信息为用户根据所述归一化文本录入的矫正信息;
[0024]标准化模块,用于根据所述标准化文本词汇信息得到标准化知识图谱。
[0025]在一实施例中,本专利技术还提供了一种基于人机结合的知识图谱标准化装置,所述装置包括:处理器和存储器;
[0026]所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如基于人机结合的知识图谱标准化方法的步骤。
[0027]在一实施例中,本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现基于人机结合的知识图谱标准化方法的步骤。
附图说明
[0028]图1为本专利技术一实施例中知识图谱标准化方法的数据结构示意图;
[0029]图2为本专利技术另一实施例中一种人机结合的知识图谱标准化方法的流程100示意图;
[0030]图3为本专利技术另一实施例中一种人机结合的知识图谱标准化方法的流程200示意图;
[0031]图4为本专利技术另一实施例中一种人机结合的知识图谱标准化方法的流程300示意图。
具体实施例
[0032]行业产品标准对行业生产和发展具有辩证的限制和促进作用,既为行业产学研链条中的诸多节点提供基本遵循,又为行业发展提供指导性的规则及方向。知识图谱作为一种结构特征明显、语义知识丰富的数据结构,其内包含有大量更贴近于人类认知的以RDF三元组形式存在的逻辑事实集合,能够快速便捷的实现知识检索与事实推理。知识图谱被业界认为是认知智能的起点,自2012年Google正式提出知识图谱的概念以来,国内高新科技公司纷纷基于自身业务平台对知识图谱在搜索、电商、医学等领域进行了探索、研究和应用并取得了显著的成就,其积累的丰富经验给传统行业逐步走向智能化提供了高价值的方向指引。
[0033]知识图谱,根据其应用范围及数据来源可分为开放知识图谱与领域知识图谱。从
逻辑角度来看,知识图谱可分为数据层及模式层。数据层是指以三元组形式存在的客观事实的集合,模式层是抽象出来的以本体模型为核心的知识的积累沉淀结果。根据构建两者的先后顺序可分为:先定义本体和数据规范再抽取事实元组的“自上而下”构建方法以及先抽取事实元组再逐层搭建知识本体的“自下而上”构建方法。上述两种构建方法分别适用于场景较为固定、可量化行业逻辑的金融医疗等专用业务领域及具有大量数据积累的、难以量化具体逻辑关系的开源领域。
[0034]在行业产品标准领域,标准文件编制需遵循如GB/T 1.1

2020《标准化工作导则第1部分:标准化文件的起草规则》及GJB 6000

2001《标准编写规定》等文件的相关规定,具有鲜明的行业特征及业务逻辑,适用于“自上而下”的知识图谱构建方法。构建产品标准知识图谱,先在专家业务知识的参与下进行领域本体的构建及数据规范的撰写,而后将标准文件进行结构化拆分以及进行事实三元组类型的知识单元的抽取,进而与标准本体进行匹配、根据其显式或隐式的知识关联进行连结,最终形成具有层次特征的网状知识结构。这种对标准文件的智能化建模对于解决一直以来的标准查询准确性不够,效率不高、同类型标准协调一致性不足、标准编制依赖性过高等问题以及标准文件体系缺失的问题具有重要意义。然而领域数据专业性强、数据建模及标注难度大、成本高,所以需要充分利用机器智能的辅助作用,以人机结合的方式最大限度的提升领域数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人机结合的知识图谱标准化方法,其特征在于,所述知识图谱标准化方法:根据历史文本数据按照相似度算法得到归一化文本;根据所述归一化文本和对应的预置矫正信息生成标准化文本词汇信息,其中,所述预置矫正信息为用户根据所述归一化文本录入的矫正信息;根据所述标准化文本词汇信息得到标准化知识图谱。2.根据权利要求1所述的基于人机结合的知识图谱标准化方法,其特征在于,所述归一化文本包括分层级的概念和关系词表,以及同义词表。3.根据权利要求2所述的基于人机结合的知识图谱标准化方法,其特征在于,所述根据历史文本数据按照相似度算法得到归一化文本包括:根据历史文本数据按照层级进行归一去重生成不同层级对应的概念和关系词表,以及同义词表;加载预训练词向量模块,以获取标题词汇对应内容的句子级别或段落级别的语义表示,并进而二次归一化处理形成归一化文本。4.根据权利要求3所述的基于人机结合的知识图谱标准化方法,其特征在于,所述根据所述标准化文本词汇信息得到标准化知识图谱步骤后,该方法还包括:按照标准文本内容规则根据所述标准化知识图谱生成标准文本。5.根据权利要求4所述的基于人机结合的知识图谱标准化方法,其特征在于,所述根据历史文本数据按照相似度算法得到归一化文本步骤后,该方法还包括:采用tf
...

【专利技术属性】
技术研发人员:郑佳明陈家宾胡杰鑫杨洪杰穆天杨杨玉婷
申请(专利权)人:中国船舶集团有限公司综合技术经济研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1