一种工业信息安全知识图谱构建方法和系统技术方案

技术编号：26259392 阅读：25 留言：0更新日期：2020-11-06 17:53

本发明专利技术涉及工业信息安全领域，公开了一种工业信息安全知识图谱构建方法和系统，信息的采集与整理，通过爬虫方式，对信息进行采集和整理；知识抽取，对采集和整理后的数据进行抽取，知识抽取包括实体抽取、关系抽取和工业信息安全事件抽取；知识对齐，通过对抽取后的知识进行对齐；构建知识图谱，将对齐后的知识存入数据库中构建知识图谱。利用基于词向量的卷积神经网络进行关系抽取，对工业信息安全事件进行抽取，最后构建工业信息安全的知识图谱，实现工业信息多源大数据的融合；为工业信息安全行业领域提供一个大数据整合的方法，便于更加高效且直观地进行工业信息安全信息的检索与查询。

全部详细技术资料下载

【技术实现步骤摘要】
一种工业信息安全知识图谱构建方法和系统
本专利技术涉及工业信息安全领域，尤其涉及了一种工业信息安全知识图谱构建方法和系统。
技术介绍
近年来，随着大数据分析技术和自然语言处理的快速发展，知识图谱的构建技术也随之得到了快速的发展。通过构建工业信息安全领域的知识图谱，可以将工业信息安全大数据进行融合，消除数据孤岛，将工控设备、厂商、漏洞、脚本等多项实体进行有机的结合。现有技术中构建的工业信息安全知识图谱，其构建方式繁琐，不能够高效直观的进行工业信息安全信息的检索与查询。专利标题：基于工业领域构建知识图谱的方法、装置及存储介质，申请号：CN201910185451.X，申请日：2019-03-12的专利申请中记载一种基于工业领域构建知识图谱的方法、装置及存储介质。其中该方法，包括：获取与工业领域相关的文本信息；基于预设的深度置信网络，识别所述文本信息中包含的命名实体，其中所述命名实体用于指示所述文本信息中包含的以名称为标识的实体；基于所述预设的深度置信网络，识别所述命名实体之间的命名实体关系；以及根据所述命名实体以及所述命名实体关系，构建基于工业领域的知识图谱。达到了基于工业领域的非结构化的文本信息，利用深度置信网络，有效的进行命名实体以及命名实体关系的识别，从而构建出适用于工业领域的知识图谱。现有技术中，构建的工业信息安全知识图谱，其构建方式繁琐，不能够高效直观的进行工业信息安全信息的检索与查询。
技术实现思路
本专利技术针对现有技术中构建的工业...

【技术保护点】
1.一种工业信息安全知识图谱构建方法和系统，其特征在于，包括如下步骤：/n信息的采集与整理，通过爬虫方式，对信息进行采集和整理；信息包括工控设备数据、工业信息安全漏洞数据、攻击较低数据、工业信息安全数据和建立工业信息安全相关的数据；/n知识抽取，对采集和整理后的数据进行抽取，知识抽取包括实体抽取、关系抽取和工业信息安全事件抽取；/n知识对齐，通过对抽取后的知识进行对齐；/n构建知识图谱，将对齐后的知识存入数据库中构建知识图谱。/n

【技术特征摘要】
1.一种工业信息安全知识图谱构建方法和系统，其特征在于，包括如下步骤：
信息的采集与整理，通过爬虫方式，对信息进行采集和整理；信息包括工控设备数据、工业信息安全漏洞数据、攻击较低数据、工业信息安全数据和建立工业信息安全相关的数据；
知识抽取，对采集和整理后的数据进行抽取，知识抽取包括实体抽取、关系抽取和工业信息安全事件抽取；
知识对齐，通过对抽取后的知识进行对齐；
构建知识图谱，将对齐后的知识存入数据库中构建知识图谱。

2.根据权利要求1所述的一种工业信息安全知识图谱构建方法，其特征在于，实体抽取包括结构化数据实体抽取和非结构化数据实体抽取；
结构化数据实体抽取通过正则匹配的方式进行实体的抽取；
非结构化数据实体抽取包括模板法和/或命名实体识别法的方式进行实体的抽取；
模板法为通过词性分析和关系关键词匹配，从语句中抽取实体的方法。

3.根据权利要求2所述的一种工业信息安全知识图谱构建方法，其特征在于，命名实体识别法包括：
通过Stanford的CoreNLP工具对英文文本进行处理，使用哈工大的LTP工具对中文文本进行处理，并对非结构化的设备文本、漏洞文本以及新闻文本等文本进行分词和人工标注；
通过NER工具和LTP工具对英文文本和中文文本分别进行模型的训练，从而得到中英文分开的命名实体识别模型；
使用训练好的命名实体识别模型在未标注的数据上进行分词和命名实体的识别，自动抽取一些粗粒度的实体；
获取粗粒度的实体，使用Word2Vec工具将实体名转化为词向量，并筛选出少量工业信息相关的实体，通过相关实体的词向量，计算其他实体的词向量与这些词向量的距离的均值，不断迭代从而从中选取相关实体。

4.根据权利要求1所述的一种工业信息安全知识图谱构建方法，其特征在于，关系抽取包括结构化数据关系抽取和非结构化数据关系抽取；
结构化数据关系抽取包括实体间的关系抽取和部分实体的属性关系抽取；
非结构化数据关系抽取采用基于词向量卷积神经网络的抽取方式进行关系抽取。

5.根据权利要求4所述的一种工业信息安全知识图谱构建方法，其特征在于，基于词向量卷积神经网络的抽取方式进行关系抽取的方法为，
Google开源的Word2Vec工具将所有训练语料中的词语进行向量化处理，将每一个词汇都转化为固定长度的词向量；
使用实体及其句式结构附近的词汇的词向量作为基本特征，将这些特征组合...

【专利技术属性】
技术研发人员：蒋正威，邹剑锋，赵志军，金学奇，马国梁，杜奇伟，陈国恩，江波，王跃强，张磊，殷华，宓群超，黄银强，
申请(专利权)人：国网浙江省电力有限公司嘉兴供电公司，嘉兴恒创电力集团有限公司华创信息科技分公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人