【技术实现步骤摘要】
一种电网主设备的知识图谱构建方法及设备
本专利技术涉及一种电网主设备的知识图谱构建方法及设备,属于电网运检
技术介绍
中国专利(公开号CN111984643A)公开了一种知识图谱构建方法、装置、知识图谱系统及设备,该方法包括:接收基础知识图谱,并存储至第一存储区,基础知识图谱用于生成具有时效性的推理知识图谱;获取推理规则集,推理规则集用于示出根据基础知识图谱生成推理知识图谱需要使用的规则;根据基础知识图谱和推理规则集,生成推理知识图谱,并将推理知识图谱存储至第二存储区;合并基础知识图谱和推理知识图谱,以得到第一知识图谱;每间隔第一设定时间,根据基础知识图谱及推理规则集,更新推理知识图谱,以更新第一知识图谱。本专利技术实施例充分保证知识图谱的时效性的同时,仅需间隔设定时间对推理知识图谱进行更新,即可保证知识图谱的时效性,有效避免了大量的数据处理。但上述方案没有公开如何把知识图谱应用在电网设备上,导致智能运检管控平台无法应用知识图谱来为运检指挥人员提供辅助决策,无法有效提升人员设备异常和故障的处置能力,进而影响 ...
【技术保护点】
1.一种电网主设备的知识图谱构建方法,其特征在于,/n将电网主设备基础信息、运行数据、作业内容进行结构化处理,实现电网主设备的知识三元组抽取、本体构建、知识图谱的补全及推理,进而构建出电网主设备的知识图谱;/n其包括以下内容:/nS1 建立结构化的语义知识库,用于迅速描述电网各设备的概念及其相互关系,通过将数据粒度从文档级别降到数据级别,聚合电网主设备的多维度信息数据,从而实现知识的快速响应和推理;/nS2 对知识图谱进行补全,预测出三元组中缺失的部分,在知识库系统中实现知识表示、知识挖掘、知识融合,通过处理固定的场景实体以及关系、处理含有新实体或者新关系的场景,动态更新知 ...
【技术特征摘要】
1.一种电网主设备的知识图谱构建方法,其特征在于,
将电网主设备基础信息、运行数据、作业内容进行结构化处理,实现电网主设备的知识三元组抽取、本体构建、知识图谱的补全及推理,进而构建出电网主设备的知识图谱;
其包括以下内容:
S1建立结构化的语义知识库,用于迅速描述电网各设备的概念及其相互关系,通过将数据粒度从文档级别降到数据级别,聚合电网主设备的多维度信息数据,从而实现知识的快速响应和推理;
S2对知识图谱进行补全,预测出三元组中缺失的部分,在知识库系统中实现知识表示、知识挖掘、知识融合,通过处理固定的场景实体以及关系、处理含有新实体或者新关系的场景,动态更新知识图谱,从而使知识图谱变得更加完整;
S3对知识图谱进行推理,其包括以下内容:
发现数据分类和聚类的电网主设备知识以及关联规则挖掘的电网主设备知识;
推理规则学习的电网主设备知识以及表示学习的电网主设备知识;
S4通过对使用人员语义的理解和知识图谱的应用,实现现场运检人员和技术管理人员对设备某一知识点的快速、精准的搜索和定位;
S5实现运检作业智能支撑,通过对使用人员语义的理解和知识图谱的应用,在对设备某一知识点的快速、精准的搜索和定位的基础上,通过知识图谱的算法,对现场运检作业智能推送针对性的运检方案或者辅助判断。
2.如权利要求1所述的一种电网主设备的知识图谱构建方法,其特征在于,
S1中:结构化的语义知识库通过语料库存储、知识三元组抽取及知识图谱存储来完成建立;其具体包括以下内容:
第一步,建立结构化的语义知识库过程中语料数据是关键部分,其分为结构化数据、半结构化数据和非结构化数据,其来源于电力领域生产工作中形成的各系统或文档中;
结构化的语义知识库包括语料库定义、词表定义、建立索引、数据存储、语料搜索;
具体内容如下:
语料库定义让用户定义语料库的数据结构,包括命名元数据字段名称、数据类型、数据宽度;语料库的字段数据类型包括:字符型、日期型、文本型、声音数据;
词表定义提供一些基本的词表,也提供词表的定义、编辑、查找、排序、统计功能;
建立索引能够实现按数据项进行检索,还能按照语料的样本文字按字或按词建索引,从而提高关键词查找速度;
数据存储提供用户以二维表的形式呈现视图,用户能够对关系进行直接操作;
语料搜索实现语料搜索及统计功能;
第二步,通过知识三元组抽取,进一步发现实体间的关联关系;
第三步,在知识库系统开发知识图谱存储功能,提供图谱计算引擎服务,具体如下:
支持对图点、边属性进行各种查询,包括精确检索、模糊检索、范围查询,兼容Gremlin查询语言;
提供算法定制接口,支持用户定制算法;
支持从大数据集群以不同的数据组织方式做数据导入,支持多达百亿点、边存储规模;
提供视化图数据库实例运维界面,支持对图实例运维包括部署、升级、重启、关闭;
提供视化图数据库管理界面,支持对图实例的数据和元数据进行管理。
3.如权利要求2所述的一种电网主设备的知识图谱构建方法,其特征在于,
所述知识三元组抽取管理的主要步骤包括:
步骤一,使用电力领域分词算法对输入文本进行预处理,包括分句、分词、词性标注、实体识别步骤;经过文本预处理,能够得到句子中的实体、关系以及句子结构信息;
步骤二,采用常用的分类技术,对输入的实体进行分类,能够得到实体在已知实体类型上的概率分布,将两个实体的概率分布向量拼接后作为分类模型生成的最终特征;通过数据分类和数据聚类生成的向量作为实体间距离的输入参与后续计算;
步骤三,候选三元组生成阶段,通过排列组合的方式构建生成实体关系三元组;在排列组合的过程中,需要三元组中的元素满足一些约束:
①实体间的距离不能高于阈值;
②关系指示词的位置需要在一定范围之内;
步骤四,对于三元组根据其关系指示词的信息增益以及关系指示词对三元组内实体的形容能力进行排序;对于排序好的三元组,根据其排序结果过滤出部分三元组,并将这部分三元组的关系指示词的集合作为关系词词表;
步骤五,三元组后处理阶段包括:
三元组滤掉:使用关系词词表以及固定句式过滤掉错误的三元组;
②补全关系指示词:根据固定句式补全关系指示词中缺失的部分。
4.如权利要求1所述的一种电网主设备的知识图谱构建方法,其特征在于,
S2中:对知识图谱进行补全的具体内容如下:
通过知识表示管理电网主设备领域简单关系以及复杂关系;
对于简单关系的知识表示方法,在知识库系统中使用TransE模型;
对于一对多和多对一关系的问题,在知识库系统中使用TransH模型进行处理;
所述知识挖掘从已有的数据或者图谱中,配合事件抽取工具,能够自动化或半自动化地挖掘出更多的领域知识与规则,实现自动长链推理、意图识别、因果分析;根据对电力行业已有的了解,开发二类算法;
知识融合主要包括本体构建技术、实体抽取技术和知识表示技术,其主要是面向电网主设备领域的设备信息、运检任务、故障辅助处理的知识图谱和视图;在此基础上,将进一步研究各个知识图谱之间,以及与百科知识图谱之间和知识更新时的扩展知识图谱的融合,从而获得电网主设备领域的一个一致的知识图谱。
5.如权利要求4所述的一种电网主设备的知识图谱构建方法,其特征在于,
所述知识融合能够实现领域内多个知识图谱的融合管理,通过实体识别和关系抽取得到的设备信息、运检任务的知识图谱;实现数据层的融合,数据层的融合包括实体对齐、实体属性融合;其具体包括以下内容:
(1)实体对齐也称为实体匹配或实体解析或者实体链接,从顶层创建一个大规模的统一知识库,从而帮助机器理解多源异质的数据,形成高质量的知识;
对于实体对齐,针对不同来源的数据采用不同的对齐手段;在构建知识图谱时,实体优先从结构化的数据中获取,对于结构化的数据,通常有对实体进行唯一标识的主键,对于从非结构化的数据中得到的实体,仍然能够使用基于启发式规则的方法进行对齐和集成;
(2)实体属性融合对于具有时态特性的属性,能够使用新的数据覆盖旧的数据,其次对于有冲突的属性,能够根据数据源的可靠性进行选取;对于给定的属性,能够通过相似度计算来衡量属性对的匹配程度,相似性包括属性名称相似性,这一点使用编辑距离衡量;同义词相似性,能够借用外部同义词词典进行对比;
通过相关性分析以及构建约束规则的方法,对外部知识源中...
【专利技术属性】
技术研发人员:蔺家骏,李晨,郑一鸣,丁敬,胡俊华,钱平,徐宁,金涌涛,王劭鹤,陈孝信,王绍安,杨智,
申请(专利权)人:国网浙江省电力有限公司电力科学研究院,国网浙江省电力有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。