【技术实现步骤摘要】
基于多源异构电力设备数据的知识图谱自动化构建方法
本申请涉及电力技术以及知识图谱
,尤其涉及一种基于多源异构电力设备数据的知识图谱自动化构建方法。
技术介绍
在电力领域里,我国电力系统进入了高速发展期,为了提高电网的信息化水平,2019年初,国家电网提出打造“三型两网”,将泛在电力物联网上升到与坚强智能电网相同的高度。泛在电力物联网,是指围绕电力系统各环节,充分应用移动互联、人工智能等现代信息技术以及先进通信技术,实现电力系统各环节万物互联以及人机交互,具有状态全面感知、信息高效处理和应用便捷灵活特征的智慧服务系统。在系统架构上,泛在电力物联网包含感知层、网络层、平台层和应用层四层结构。其中感知层主要负责数据的采集、网络层主要负责数据传输,平台层负责数据管理,应用层主要负责数据创造。因此,在电力系统中存在着大量的电力终端设备,而这些电力终端设备又具有大量的异构数据。知识图谱作为一种优秀的知识表示工具,一种揭示实体之间关系的语义网络,得到了应用数学、图形学、信息可视化技术、信息科学,人工智能,图书情报等众多的学科领域的深入研究与应用。为了提高这些电力数据的查询效率,减少数据的冗余存储,实现数据的融合与集成,构建面向电力领域的知识图谱必不可少,但是目前许多构建知识图谱的工具都需要以手工操作的方式进行,一旦数据源比较庞大,会耗费较多的时间与精力,因此,构建知识图谱,减少领域专家的精力消耗,实现自动化的从数据源中获取数据信息抽取数据关系是十分重要的。
技术实现思路
本申请提供了一种基于多源异 ...
【技术保护点】
1.基于多源异构电力设备数据的知识图谱自动化构建方法,其特征在于,包括:/n通过数据获取模块进行数据获取;所述数据包括文档、新闻以及表格;/n将获取得到的数据进行预处理,得到预处理后的数据;预处理后的数据包括结构化数据和非结构化数据;/n若所述预处理后的数据为结构化数据,将所述结构化数据发送给数据转换模块;/n所述数据转换模块通过基于转换规则和基于处理规则进行信息抽取,从所述结构化数据得到三元组第一集合;/n若所述预处理后的数据为非结构化数据,将所述非结构化数据发送给实体识别模块;/n所述实体识别模块采用bert-wwm+bi-lstm+crf模型对非结构化数据进行实体识别处理,实现对词的分布式表示,得到实体对;/n将实体识别后的所述非结构化数据发送给关系抽取模块;/n所述关系抽取模块构建测试集与训练集并根据softmax分类器输出的不同关系类别的概率值,取最大的概率值即为程序预测得到的关系类型;/n将所述实体对以及所述关系类型组合得到三元组第二集合;/n将所述三元组第一集合和所述三元组第二集合融合得到三元组RDF文件;/n将所述构建好的三元组RDF文件存入到neo4j数据库中。/n
【技术特征摘要】
1.基于多源异构电力设备数据的知识图谱自动化构建方法,其特征在于,包括:
通过数据获取模块进行数据获取;所述数据包括文档、新闻以及表格;
将获取得到的数据进行预处理,得到预处理后的数据;预处理后的数据包括结构化数据和非结构化数据;
若所述预处理后的数据为结构化数据,将所述结构化数据发送给数据转换模块;
所述数据转换模块通过基于转换规则和基于处理规则进行信息抽取,从所述结构化数据得到三元组第一集合;
若所述预处理后的数据为非结构化数据,将所述非结构化数据发送给实体识别模块;
所述实体识别模块采用bert-wwm+bi-lstm+crf模型对非结构化数据进行实体识别处理,实现对词的分布式表示,得到实体对;
将实体识别后的所述非结构化数据发送给关系抽取模块;
所述关系抽取模块构建测试集与训练集并根据softmax分类器输出的不同关系类别的概率值,取最大的概率值即为程序预测得到的关系类型;
将所述实体对以及所述关系类型组合得到三元组第二集合;
将所述三元组第一集合和所述三元组第二集合融合得到三元组RDF文件;
将所述构建好的三元组RDF文件存入到neo4j数据库中。
2.根据权利要求1所述的知识图谱自动化构建方法,其特征在于,将获取得到的数据进行预处理的步骤包括:
进行数据的无效值的剔除和缺省值的补充以及进行文本中与电力终端设备的相关数据的提取。
3.根据权利要求1所述的知识图谱自动化构建方法,其特征在于,所述基于转换规则包括:
将数据获取模块获取的结构化数据中的表格转化成知识图谱的类;其中,表格的名字即类名;
将表格中每行数据转换成一个实体;其中,实体名由设备名加上设备ID组成;
若表格与表格之间存在主外键关系,则将主外键关系转化成知识图谱概念层中的关系;
将表格中属性转换成知识图谱实体层的属性,表格中的属性名即知识图谱实体层的属性名;其中,数据属性的定义域是关系所对应的实体名。
4.根据权利要求1所述的知识图谱自动化构建方法,其特征在于,所述基于处理规则包括:
若结构化数据中的任意两个表...
【专利技术属性】
技术研发人员:赵之晗,杨政,尹春林,
申请(专利权)人:云南电网有限责任公司电力科学研究院,
类型:发明
国别省市:云南;53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。