基于多源异构电力设备数据的知识图谱自动化构建方法技术

技术编号:28623331 阅读:12 留言:0更新日期:2021-05-28 16:19
本申请提出了一种基于多源异构电力设备数据的知识图谱自动化构建方法,针对结构化数据如表格数据,通过将各类型表格数据转存到Excel表格中,并定义数据的转换规则和处理规则,完成从结构化数据到知识图谱到映射,实现从数据库向知识库的自动化抽取,针对非结构化的文本数据,主要采用深度学习的方法,对电力文本和网页信息进行信息抽取,完成实体识别关系抽取的过程,实现对非结构化数据的SPO三元组抽取,最终整合的数据以RDF文件的形式存入到Neo4j中,通过Neo4j图数据库实现知识图谱的可视化展示并使用cypher查询语言进行语义化查询。

【技术实现步骤摘要】
基于多源异构电力设备数据的知识图谱自动化构建方法
本申请涉及电力技术以及知识图谱
,尤其涉及一种基于多源异构电力设备数据的知识图谱自动化构建方法。
技术介绍
在电力领域里,我国电力系统进入了高速发展期,为了提高电网的信息化水平,2019年初,国家电网提出打造“三型两网”,将泛在电力物联网上升到与坚强智能电网相同的高度。泛在电力物联网,是指围绕电力系统各环节,充分应用移动互联、人工智能等现代信息技术以及先进通信技术,实现电力系统各环节万物互联以及人机交互,具有状态全面感知、信息高效处理和应用便捷灵活特征的智慧服务系统。在系统架构上,泛在电力物联网包含感知层、网络层、平台层和应用层四层结构。其中感知层主要负责数据的采集、网络层主要负责数据传输,平台层负责数据管理,应用层主要负责数据创造。因此,在电力系统中存在着大量的电力终端设备,而这些电力终端设备又具有大量的异构数据。知识图谱作为一种优秀的知识表示工具,一种揭示实体之间关系的语义网络,得到了应用数学、图形学、信息可视化技术、信息科学,人工智能,图书情报等众多的学科领域的深入研究与应用。为了提高这些电力数据的查询效率,减少数据的冗余存储,实现数据的融合与集成,构建面向电力领域的知识图谱必不可少,但是目前许多构建知识图谱的工具都需要以手工操作的方式进行,一旦数据源比较庞大,会耗费较多的时间与精力,因此,构建知识图谱,减少领域专家的精力消耗,实现自动化的从数据源中获取数据信息抽取数据关系是十分重要的。
技术实现思路
本申请提供了一种基于多源异构电力设备数据的知识图谱自动化构建方法,以解决许多构建知识图谱的工具都需要以手工操作的方式进行,一旦数据源比较庞大,会耗费较多的时间与精力的问题。本申请提供一种基于多源异构电力设备数据的知识图谱自动化构建方法,包括:通过数据获取模块进行数据获取;所述数据包括文档、新闻以及表格;将获取得到的数据进行预处理,得到预处理后的数据;预处理后的数据包括结构化数据和非结构化数据;若所述预处理后的数据为结构化数据,将所述结构化数据发送给数据转换模块;所述数据转换模块通过基于转换规则和基于处理规则进行信息抽取,从所述结构化数据得到三元组第一集合;若所述预处理后的数据为非结构化数据,将所述非结构化数据发送给实体识别模块;所述实体识别模块采用bert-wwm+bi-lstm+crf模型对非结构化数据进行实体识别处理,实现对词的分布式表示,得到实体对;将实体识别后的所述非结构化数据发送给关系抽取模块;所述关系抽取模块构建测试集与训练集并根据softmax分类器输出的不同关系类别的概率值,取最大的概率值即为程序预测得到的关系类型;将所述实体对以及所述关系类型组合得到三元组第二集合;将所述三元组第一集合和所述三元组第二集合融合得到三元组RDF文件;将所述构建好的三元组RDF文件存入到neo4j数据库中。可选的,将获取得到的数据进行预处理的步骤包括:进行数据的无效值的剔除和缺省值的补充以及进行文本中与电力终端设备的相关数据的提取。可选的,所述基于转换规则包括:将数据获取模块获取的结构化数据中的表格转化成知识图谱的类;其中,表格名即类名;将表格中每行数据转换成一个实体;其中,实体名由设备名加上设备ID组成;若表格与表格之间存在主外键关系,则将主外键关系转化成知识图谱概念层中的关系;将表格中属性转换成知识图谱实体层的属性,表格中的属性名即知识图谱实体层的属性名;其中,数据属性的定义域是关系所对应的实体名。可选的,所述基于处理规则包括:若结构化数据中的任意两个表的主键相等,数据集相等,属性集不相交,或者任意两个表的主键相等,数据集不相交,属性集相等那么对知识图谱中已形成的概念进行合并;如果若结构化数据中的任意两个表的主键相等,数据集重叠,属性集不相交,那么重叠的部分组成一个新的类;如果若结构化数据中的任意两个表的主键相等,数据集包含,属性集包含,为这两个类添加包含关系。可选的,对非结构化数据进行实体识别处理包括:通过bert-wwm得到的词嵌入表示融入了更多的语法,词法以及语义信息,采用双向lstm对bert-wmm输出的词向量进行编码;将句子中的语义关联问题视为序列问题,crf通过统计标签直接的转移概率对lstm的输出结果进行限制。可选的,所述关系抽取模块构建测试集与训练集并根据softmax分类器输出的不同关系类别的概率值,取最大的概率值即为程序预测得到的关系类型步骤包括:对非结构化数据进行关系抽取,关系抽取采用bert-wwm+attention+bi-GRU的技术架构,通过sklearn,构建测试集与训练集,使用bert-wwm进行词向量的表示;bert-wwm输出的位置向量用于找出词汇和实体间的相对关系;使用双向GRU神经网络来嵌入句子的语义,对句子进行编码;在特征向量上分别构建基于字级别的注意力机制和基于句子级别的注意力机制,通过softmax分类器输出关系类型;根据softmax分类器输出的不同关系类别的概率值,取最大的概率值即为程序预测得到的关系类型。可选的,还包括使用softmax分类器从句子S的离散集合类Y中预测标签y,分类器将隐藏状态hs*作为输入:p(y|S)=softmax(W(s)hs*+b(S)),y=argmaxp(y|S),损失函数为真是类别标签y的负对然似数值:式中:t是使用one-hot表示的真实值,y是使用softmax函数估计每个类别的概率,λ是正则化参数。由以上技术方案可知,本申请提供一种基于多源异构电力设备数据的知识图谱自动化构建方法,包括:通过数据获取模块进行数据获取;所述数据包括文档、新闻以及表格;将获取得到的数据进行预处理,得到预处理后的数据;预处理后的数据包括结构化数据和非结构化数据;若所述预处理后的数据为结构化数据,将所述结构化数据发送给数据转换模块;所述数据转换模块通过基于转换规则和基于处理规则进行信息抽取,从所述结构化数据得到三元组第一集合;若所述预处理后的数据为非结构化数据,将所述非结构化数据发送给实体识别模块;所述实体识别模块采用bert-wwm+bi-lstm+crf模型对非结构化数据进行实体识别处理,实现对词的分布式表示,得到实体对;将实体识别后的所述非结构化数据发送给关系抽取模块;所述关系抽取模块构建测试集与训练集并根据softmax分类器输出的不同关系类别的概率值,取最大的概率值即为程序预测得到的关系类型;将所述实体对以及所述关系类型组合得到三元组第二集合;将所述三元组第一集合和所述三元组第二集合融合得到三元组RDF文件;将所述构建好的三元组RDF文件存入到neo4j数据库中。本申请提出了一种基于多源异构电力设备数据的知识图谱自动化构建方法,针对结构化数据如表格数据,通过将各类型表格数据转存到Excel表格中本文档来自技高网...

【技术保护点】
1.基于多源异构电力设备数据的知识图谱自动化构建方法,其特征在于,包括:/n通过数据获取模块进行数据获取;所述数据包括文档、新闻以及表格;/n将获取得到的数据进行预处理,得到预处理后的数据;预处理后的数据包括结构化数据和非结构化数据;/n若所述预处理后的数据为结构化数据,将所述结构化数据发送给数据转换模块;/n所述数据转换模块通过基于转换规则和基于处理规则进行信息抽取,从所述结构化数据得到三元组第一集合;/n若所述预处理后的数据为非结构化数据,将所述非结构化数据发送给实体识别模块;/n所述实体识别模块采用bert-wwm+bi-lstm+crf模型对非结构化数据进行实体识别处理,实现对词的分布式表示,得到实体对;/n将实体识别后的所述非结构化数据发送给关系抽取模块;/n所述关系抽取模块构建测试集与训练集并根据softmax分类器输出的不同关系类别的概率值,取最大的概率值即为程序预测得到的关系类型;/n将所述实体对以及所述关系类型组合得到三元组第二集合;/n将所述三元组第一集合和所述三元组第二集合融合得到三元组RDF文件;/n将所述构建好的三元组RDF文件存入到neo4j数据库中。/n

【技术特征摘要】
1.基于多源异构电力设备数据的知识图谱自动化构建方法,其特征在于,包括:
通过数据获取模块进行数据获取;所述数据包括文档、新闻以及表格;
将获取得到的数据进行预处理,得到预处理后的数据;预处理后的数据包括结构化数据和非结构化数据;
若所述预处理后的数据为结构化数据,将所述结构化数据发送给数据转换模块;
所述数据转换模块通过基于转换规则和基于处理规则进行信息抽取,从所述结构化数据得到三元组第一集合;
若所述预处理后的数据为非结构化数据,将所述非结构化数据发送给实体识别模块;
所述实体识别模块采用bert-wwm+bi-lstm+crf模型对非结构化数据进行实体识别处理,实现对词的分布式表示,得到实体对;
将实体识别后的所述非结构化数据发送给关系抽取模块;
所述关系抽取模块构建测试集与训练集并根据softmax分类器输出的不同关系类别的概率值,取最大的概率值即为程序预测得到的关系类型;
将所述实体对以及所述关系类型组合得到三元组第二集合;
将所述三元组第一集合和所述三元组第二集合融合得到三元组RDF文件;
将所述构建好的三元组RDF文件存入到neo4j数据库中。


2.根据权利要求1所述的知识图谱自动化构建方法,其特征在于,将获取得到的数据进行预处理的步骤包括:
进行数据的无效值的剔除和缺省值的补充以及进行文本中与电力终端设备的相关数据的提取。


3.根据权利要求1所述的知识图谱自动化构建方法,其特征在于,所述基于转换规则包括:
将数据获取模块获取的结构化数据中的表格转化成知识图谱的类;其中,表格的名字即类名;
将表格中每行数据转换成一个实体;其中,实体名由设备名加上设备ID组成;
若表格与表格之间存在主外键关系,则将主外键关系转化成知识图谱概念层中的关系;
将表格中属性转换成知识图谱实体层的属性,表格中的属性名即知识图谱实体层的属性名;其中,数据属性的定义域是关系所对应的实体名。


4.根据权利要求1所述的知识图谱自动化构建方法,其特征在于,所述基于处理规则包括:
若结构化数据中的任意两个表...

【专利技术属性】
技术研发人员:赵之晗杨政尹春林
申请(专利权)人:云南电网有限责任公司电力科学研究院
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1