一种基于语义树的多领域知识融合方法技术

技术编号:38428098 阅读:12 留言:0更新日期:2023-08-07 11:25
本发明专利技术公开了一种基于语义树的多领域知识融合方法,它主要涉及知识图谱在多来源、多领域知识交叉融合的技术领域。本发明专利技术基于多个领域知识语义树的建立,提出与之相适应的关联规则挖掘方法,语义树之间进行关联分析,找到不同领域的关联规则,并基于图运算理论进行关联元素的挖掘与计算,可实现多领域知识的有机融合。本发明专利技术可以解决不同领域语义树由于异构性不易对齐、关联和合并问题,将多来源、多领域知识融合为有机整体,以提供更全面、统一、协作的知识共享,特别适用于“知识密集型”领域统一技术架构的理论性、系统性设计。系统性设计。系统性设计。

【技术实现步骤摘要】
一种基于语义树的多领域知识融合方法


[0001]本专利技术涉及知识图谱在多来源、多领域知识交叉融合的
,反映各领域知识体系及其要素的关联及相互作用,特别适用于“知识密集型”领域统一技术架构的理论性、系统性设计。

技术介绍

[0002]在人工智能、大数据、深度学习等先进科学技术快速发展的时代,知识图谱作为知识体系构建、融合、应用的有效工具,可通过对所获取各领域大规模数据的整合、集成处理以及应用,建立相应的知识语义树,以便于知识的获取提炼。为实现跨领域知识的深度融合,需要将不同来源、不同领域的知识语义树进行合并处理,但是由于不同领域的知识语义树存在异构性,之间的关联关系错综复杂,层级划分不一致,导致无法直接对其进行简单的合并处理。

技术实现思路

[0003]本专利技术的目的在于针对上述
技术介绍
中的不足之处,提供一种基于语义树的多领域知识融合方法,在建立多个领域语义树的基础上,通过知识关联对多棵语义树进行对齐、关联和合并,使其成为一个有机整体,以提供更全面、统一、协作的知识共享。
[0004]本专利技术所采取的技术方案为:基于多个领域知识语义树的建立,提出与之相适应的关联规则挖掘方法,语义树之间进行关联分析,找到不同领域的关联规则

并基于图运算理论进行关联元素的挖掘与计算,可实现多领域知识的有机融合。包括以下步骤:
[0005]步骤1,基于大数据的文字资料,针对需要研究的多个知识领域进行建模以及属性填充,并拓展各实体之间的联系,构建层次化的知识语义树,反映不同层次知识的上下级和从属结构;
[0006]步骤2,建立多个领域语义树的基础上,针对不同领域的知识特点,提出与之相适应的关联规则挖掘方法,利用已有的文字资料,形成跨层次、跨领域的关联规则,并在此基础上给出关联度强弱的指标;
[0007]步骤3,采用FP

growth算法对多领域的知识语义树进行关联分析,快速扫描得出之间的关联规则;
[0008]步骤4,基于图运算理论进行关联元素的挖掘与计算,从海量结点中寻找最权威节点和距离目标节点最近的次权威节点;
[0009]步骤5,综合多领域的知识树以及针对知识语义树挖掘出的关联规则,融合各领域多方面的特征,根据元素之间的关联关系,构建多领域融合的综合性知识图谱体系,其知识图谱中主干与各分支的统一与相互作用反映各领域知识体系及其要素的关联;
[0010]步骤6,采用图数据库进行存储。
[0011]进一步的,所述步骤2中,关联规则用于反应一个事物与其他事物之间的相互依存性和关联性,用于从大量数据中挖掘出有价值的数据项之间的相关关系;
[0012]关联规则的关联强度通过支持度、置信度和提升度来进行描述;
[0013]确定关联规则的提取过程是找出所有支持度>=最小支持度、置信度>=最小置信度的关联规则;
[0014]挖掘出满足条件的关联规则,可以分两步进行:首先生成频繁项集,即找出所有满足最小支持度的项集,然后在频繁项集的基础上生成满足最小置信度的规则;
[0015]通过关联规则挖掘得到不同领域知识之间的相关性,直观反映出多领域知识体系的整体关联程度,为综合知识图谱的建立奠定理论基础。
[0016]进一步的,所述步骤4中,采用互投票方法确定最权威节点,如果知识图谱的数据量非常庞大,采用分块式的方式来实现,先计算每个分块图的PageRank值,根据各数据块之间的相关性,得到新图PageRank值,再反复迭代,分析权威节点;
[0017]采用基于节点属性及节点间关系的多特征方法,将节点属性和关系综合分析来进行权威节点分析。
[0018]采用上述技术方案优点在于:
[0019]1、本专利技术构建多领域融合的知识图谱,将多来源、多领域知识融合为有机整体,为统一技术体系架构设计提供系统性的理论指导,以提升综合效能。
[0020]2、本专利技术采用知识图谱技术进行跨领域知识融合的设计方法,基于大数据的文字材料,采用人工智能的数据挖掘方式,让机器能够理解文本的含义,避免了人为主观因素的影响和个人知识面的局限性,分析结果更加客观、全面、合理,更具有理论可行性。
[0021]3、本专利技术选用的算法相对来说耗时短、效率高、计算复杂度低、工作量小,通过优化处理,技术可行性强。
附图说明
[0022]图1是本专利技术的流程示意图;
[0023]图2是Dijkstra算法流程图。
具体实施方式
[0024]下面结合附图和实施例对本专利技术的做进一步说明。
[0025]如图1所示,本专利技术包括以下步骤:
[0026](1)多个领域知识语义树的构建
[0027]基于大数据的文字资料,针对需要研究的多个知识领域进行建模以及属性填充,并拓展各实体之间的联系,构建层次化的知识语义树,能够清晰的反映不同层次知识的上下级和从属结构,从而能够从多个角度梳理领域知识。
[0028]将不同领域原始的文本知识转化成为结构化的语义树进行表示,于是文本原理得以分解,正如树干和其分支,向下寻求其树叶与细节,使之形成层级和层间关系。这样原始知识被转化成更深层次和抽象的语义树,有利于学习迁移。
[0029](2)关联规则的挖掘
[0030]在建立多个领域语义树的基础上,针对不同领域的知识特点,提出与之相适应的关联规则挖掘方法,利用已有的文字资料,形成跨层次、跨领域的关联规则,并在此基础上给出关联度强弱的指标。
[0031]关联规则反映一个事物与其他事物之间的相互依存性和关联性,用于从大量数据中挖掘出有价值的数据项之间的相关关系。本专利技术基于不同词汇之间的相关性,通过同一棵树的不同层次与不同树之间的模块关系进行挖掘,发现层间或树间的不同词汇之间的关联特质与属性,从而实现跨领域和跨层次之间的关联性挖掘。
[0032]关联规则的关联强度可以用支持度和置信度来进行描述。在关联规则的分析中有三个关键性的概念:支持度(Support)、置信度(Confidence)和提升度(Lift)。
[0033]支持度是指几个关联的数据在数据集中出现的次数占总数据集的比重:
[0034][0035]其中,Y为关联规则的前项,或被称作先决条件;X为关联规则的后项,也称作关联结果;当项集Y发生时,项集X也有一定概率发生。而置信度是指一个数据出现后,另一个数据出现的概率,或者说数据的条件概率:
[0036][0037]提升度则表示含有Y的条件下同时含有X的概率,与X总体发生的概率之比:
[0038][0039]基于上述定义,确定关联规则的提取过程是找出所有支持度>=最小支持度、置信度>=最小置信度的关联规则。为了快速挖掘出满足条件的关联规则,可以分两步进行:首先生成频繁项集,即找出所有满足最小支持度的项集,然后生成规则,在频繁项集的基础上生成满足最小置信度的规则,产生的规则称为强规则。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义树的多领域知识融合方法,其特征在于,具体步骤如下:步骤1,基于大数据的文字资料,针对需要研究的多个知识领域进行建模以及属性填充,并拓展各实体之间的联系,构建层次化的知识语义树,反映不同层次知识的上下级和从属结构;步骤2,建立多个领域语义树的基础上,针对不同领域的知识特点,提出与之相适应的关联规则挖掘方法,利用已有的文字资料,形成跨层次、跨领域的关联规则,并在此基础上给出关联度强弱的指标;步骤3,采用FP

growth算法对多领域的知识语义树进行关联分析,快速扫描得出之间的关联规则;步骤4,基于图运算理论进行关联元素的挖掘与计算,从海量结点中寻找最权威节点和距离目标节点最近的次权威节点;步骤5,综合多领域的知识树以及针对知识语义树挖掘出的关联规则,融合各领域多方面的特征,根据元素之间的关联关系,构建多领域融合的综合性知识图谱体系,其知识图谱中主干与各分支的统一与相互作用反映各领域知识体系及其要素的关联;步骤6,采用图数据库进行存储。2.根据权利要求1所述的一种基于语义树的多领域知识融合方法,其特征...

【专利技术属性】
技术研发人员:刘春冉权安葛蕾陈玮戎强刘刚
申请(专利权)人:中国电子科技集团公司第五十四研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1