一种知识图谱构建方法及装置、电子设备制造方法及图纸

技术编号:21361392 阅读:52 留言:0更新日期:2019-06-15 09:20
本申请公开了一种知识图谱构建方法及装置,包括:从多种类型的数据源采集多种类型的工控安全数据;对所述工控安全数据进行实体抽取、关系抽取以及事件抽取;对抽取出来的实体进行实体消歧处理;将消歧后的实体、关系和属性存入图数据库中,搭建知识图谱系统;利用张量分解算法进行自动学习和推理,从当前的所述知识图谱中挖掘目标信息,并将所述目标信息作为知识的一部分反馈存储在所述知识图谱中。

A Knowledge Map Construction Method and Devices and Electronic Equipment

This application discloses a knowledge map construction method and device, which includes: collecting various types of industrial control safety data from various types of data sources; entity extraction, relationship extraction and event extraction of the industrial control safety data; entity disambiguation of extracted entities; storing disambiguated entities, relationships and attributes in the graph database to build a knowledge map. Spectrum system: Tensor decomposition algorithm is used for automatic learning and reasoning. Target information is extracted from the current knowledge map and stored as part of the knowledge feedback in the knowledge map.

【技术实现步骤摘要】
一种知识图谱构建方法及装置、电子设备
本申请涉及工业控制(简称为工控)
,尤其涉及一种面向工控安全的知识图谱构建方法及装置、电子设备。
技术介绍
随着互联网与大数据产业的不断发展和完善,越来越多的行业加入到互联网的大军中来,信息互联、数据互通成为行业发展的趋势。与此同时,随着工业4.0概念的提出,工业信息化逐渐也成为企业所关注的方向。越来越多的工业厂商注重采集和获取整个生产活动中的所有数据,包括供应链、生产线以及用户端的各项内容,因而诞生了越来越多的便于数据采集和传输的物联网设备。近年来接二连三发生的一件件工控物联网领域内的安全事件也在给我们不断地敲响着警钟,从Havex病毒(类似于震网病毒)对工业控制系统厂商发起的攻击,到W国东部的停电事件(BlackEnergy恶意软件),再到E区域能源公司遭受入侵事件(SFG恶意软件),以及最近的B国东部断网事件(Marai病毒),这些案例都在告诉我们工业物联网设备目前存在着极大的安全问题,而很多物联网设备都与能源、交通、金融等国家关键基础设施相关,所以其带来的安全威胁远比传统意义上的信息安全要大得多。工控安全事件由于其愈加增长的破坏力、本文档来自技高网...

【技术保护点】
1.一种知识图谱构建方法,其特征在于,所述方法包括:从多种类型的数据源采集多种类型的工控安全数据;对所述工控安全数据进行实体抽取、关系抽取以及事件抽取;对抽取出来的实体进行实体消歧处理;将消歧后的实体、关系和属性存入图数据库中,搭建知识图谱系统;利用张量分解算法进行自动学习和推理,从当前的所述知识图谱中挖掘目标信息,并将所述目标信息作为知识的一部分反馈存储在所述知识图谱中。

【技术特征摘要】
1.一种知识图谱构建方法,其特征在于,所述方法包括:从多种类型的数据源采集多种类型的工控安全数据;对所述工控安全数据进行实体抽取、关系抽取以及事件抽取;对抽取出来的实体进行实体消歧处理;将消歧后的实体、关系和属性存入图数据库中,搭建知识图谱系统;利用张量分解算法进行自动学习和推理,从当前的所述知识图谱中挖掘目标信息,并将所述目标信息作为知识的一部分反馈存储在所述知识图谱中。2.根据权利要求1所述的方法,其特征在于,所述对所述工控安全数据进行实体抽取,包括:对于属于结构化数据的工控安全数据,根据所述工控安全数据在数据库中的的字段名和预设的规则进行实体抽取、关系抽取和属性抽取。3.根据权利要求1所述的方法,其特征在于,所述对所述工控安全数据进行实体抽取,包括:对于属于非结构化数据的工控安全数据,使用模板法和命名实体识别算法进行实体抽取;其中,所述模板法包括:通过词性分析和关系关键词匹配,从语句中抽取实体;所述命名实体识别算法包括:使用训练好的命名实体识别模型在未标注的数据上进行分词和命名实体的识别,得到粗粒度的实体;使用词向量Word2Vec工具将所述粗粒度的实体转化为词向量,并筛选出工控高相关的实体的词向量;计算其他实体的词向量与所述工控高相关的实体的词向量的距离的均值,并迭代执行筛选工控高相关的实体的词向量的操作。4.根据权利要求1所述的方法,其特征在于,所述对所述工控安全数据进行关系抽取,包括:对于属于结构化数据的工控安全数据,按照定义的实体关系类别对所述工控安全数据进行抽取,得到实体间的关系以及部分实体的属性。5.根据权利要求1所述的方法,其特征在于,所述对所述工控安全数据进行关系抽取,包括:对于属于非结构化数据的工控安全数据,采用基于词向量的卷积神经网络对所述工控安全数据进行关系抽取。6.根据权利要求5所述的方法,其特征在于,所述采用基于词向量的卷积神经网络对所述工控安全数据进行关系抽取,包括:使用Word2Vec工具将所述工控安全数据对应的所有训练语料中的词语进行向量化处理,并将每一个词汇转化为固定长度的词向量;使用实体及其句式结构附近的词汇的词向量作为基本特征,将所述基本特征组合成特征向量,并根据词语在句式结构中的位置进行非线性的加权变换,得到根据词语向量信息和词语位置信息组合生成的特征向量;将所述特征向量经过不同卷积核的卷积运算后,得到目标特征集合,将所述目标特征集合应用于分类器中训练分类模型。7.根据权利要求1所述的方法,其特征在于,所述对所述工控安全数据进行事件抽取,包括:对所述工控安全数据进行事件识别和事件关键信息的提取。8.根据权利要求7所述的方法,其特征在于,所述对所述工控安全数据进行事件识别,包括:使用触发词词典对所述工控安全数据中的各个句子进行匹配,判断所述句子中是否描述了工控安全事件;其中,所述触发词词典包括事件核心词词典和/或事件相关词词典。9.根据权利要求8所述的方法,其特征在于,所述对所述工控安全数据进行事件关键信息的提取,包括:当确认所述句子描述了一个工控安全事件后,按照预设规则从所述句子中抽取事件关键信息。10.根据权利要求1至9任一项所述的方法,其特征在于,所述对抽取出来的实体进行实体消歧处理,包括:对每一个待消歧的实体e,对于的候选实体集合为E={e1,e2,…,em};将所述e链接到所述E中的一个实体,从而将所述实体e划分为所述E中的一个类别。11.一种知识...

【专利技术属性】
技术研发人员:李建欣朱天晨赵军胡春明孙佩源
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1