一种电力知识图谱本体自动构建方法及系统技术方案

技术编号:26342449 阅读:20 留言:0更新日期:2020-11-13 20:34
本发明专利技术公开了一种电力知识图谱本体自动构建方法及系统,通过对多源关系型数据库SQL语言描述和表结构信息的分析,将电力系统各类应用的关系型数据库进行本体抽取与融合,形成电力本体候选集,利用基于图方法的本体聚类和消歧方法,形成本体图模型并自动更新本体及关系表达;根据不同业务需求,采用本体分层技术进行本体模型层级结构优化,将多个图模型进行融合形成具有分层描述功能的本体模型,充分利用了电力系统的数据结构与潜在知识连接,节约了大量的人力投入;能实现电力领域内本体的自动融合,构建的分层描述功能的本体模型将各类应用的知识进行统一表达,有助于进一步进行人工调整,大幅降低电力系统知识图谱构建的难度和复杂度。

An automatic construction method and system of power knowledge map Ontology

【技术实现步骤摘要】
一种电力知识图谱本体自动构建方法及系统
本专利技术涉及电力
,具体涉及一种电力知识图谱本体自动构建方法及系统。
技术介绍
随着能源互联网的不断建设和发展,电力系统日常运行、监管、运维等不同业务部门所产生的电力数据规模已超过亿级并持续增长,不同业务部门信息系统之间存在专业壁垒凸显、跨专业流程不贯通、数据共享实时性不强、数据价值未充分挖掘等问题,而目前普遍采用的关系型数据库技术已无法支撑多源海量数据的存储、查询分析与应用。电力知识图谱是有效解决电力数据管理跨业务协同与信息共享能力不足、数据集成与访问效率受限、智能推理维度单一等问题的重要技术手段之一。本体模型作为一个知识图谱的骨架和基础,定义了领域概念集合以及集合在该领域所具有的特性、规律、关联关系等的一种层次结构化描述。电力知识图谱的本体构建是建立一个面向电力领域的本体模型,明确电力领域内概念、术语及其相互关联关系。现有的领域本体自动化构建技术主要针对半结构或非结构化数据,通过自然语言处理和大量领域内语料知识的训练确定实体的定义和其关联关系,没有一套针对结构化数据(关系型数据库)的领本文档来自技高网...

【技术保护点】
1.一种电力知识图谱本体自动构建方法,其特征在于,包括如下步骤:/n获取电力系统多源关系型数据库,并对多源数据结构进行关系解析,生成初始候选本体集;/n对所述初始候选集候选依次进行本体聚类和本体消歧,更新本体及关系表达,生成知识模型本体;/n基于业务需求,采用本体分层技术对知识模型本体分层,形成电力知识图谱的分层描述的本体模型。/n

【技术特征摘要】
1.一种电力知识图谱本体自动构建方法,其特征在于,包括如下步骤:
获取电力系统多源关系型数据库,并对多源数据结构进行关系解析,生成初始候选本体集;
对所述初始候选集候选依次进行本体聚类和本体消歧,更新本体及关系表达,生成知识模型本体;
基于业务需求,采用本体分层技术对知识模型本体分层,形成电力知识图谱的分层描述的本体模型。


2.根据权利要求1所述的电力知识图谱本体自动构建方法,其特征在于,对多源数据结构进行关系解析,生成初始候选本体集的过程,包括:
获取所有预构建本体模型的结构化数据表的表名和主键名,针对每一张数据表的表名和主键名,基于中文文本分类训练文本集训练出的语料库作为初始语料库;在初始语料库基础上,添加自定义的电力专业词语及原始数据表中涉及到的专业词语,作为完善语的语料库;基于完善的语料库,对表名和主键名进行分词,并对分词统计结果进行排序,通过对比排序量化值,确定数据表名称或主键所抽象出的主本体名称;
识别每一张数据表中sheet名称,根据sheet名称判断该数据表是否存在SQLStatement,对于SQLStatement的数据表,解析其SQL语句,总结并判断外键描述模式,提取数据表外键名,生成主外键本体候选;对于无SQLStatement的数据表,提取数据表中的所有属性及各属性对应的行内容,根据数据内容与含有SQL语句的结构化数据表进行模式识别,判断主外键并生成表属性本体候选,结合生成的主本体,生成初始候选本体集;基于已构建的主外键本体候选,提取每张数据表所包含的属性信息并对比,将非重复的属性设置为该数据表主本体的属性。


3.根据权利要求1所述的电力知识图谱本体自动构建方法,其特征在于,对所述初始候选本体集进行本体聚类的过程,包括:
将初始候选本体集,分别通过word2vec词向量模型训练和动态字符串距离计算的方法,进行词语相似度分析,再根据分词统计结果,进行唯一性和关联性分析,设置相似度、唯一性和关联性阈值,通过初始候选本体集内容的相似度、唯一性和关联性进行本体聚类,形成初始本体图模型。


4.根据权利要求3所述的电力知识图谱本体自动构建方法,其特征在于,进行本体消歧的过程,包括:
基于本体聚类的结果,将所有本体指称的候选本体作为图的节点,通过对节点进行拓展,并将其连接起来构成图模型,并采用PageRank和词频统计的消歧算法为本体指称选择出排序结果排名最高的本体名称,作为知识模型本体。


5.根据权利要求4所述的电力知识图谱本体自动构建方法,其特征在于,所述采用消歧算法为本体候选集选择本体的策略包括:
对候选本体构成的图进行pagerank,从各个本体指称的候选本体集合中选择一个pagerank值最高的候选本体;或,
每次通过pagerank选择出得分最高的候选本体,将其选择为对应的本体指称的本体,并移除相应本体指称的其它候选本体,在剩下的子图中再次通过pa...

【专利技术属性】
技术研发人员:汤亚宸刘广一韩海韵刘婷婷张华敏王强
申请(专利权)人:全球能源互联网研究院有限公司国网山西省电力公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1