一种工业信息安全知识图谱构建方法和系统技术方案

技术编号:26259392 阅读:25 留言:0更新日期:2020-11-06 17:53
本发明专利技术涉及工业信息安全领域,公开了一种工业信息安全知识图谱构建方法和系统,信息的采集与整理,通过爬虫方式,对信息进行采集和整理;知识抽取,对采集和整理后的数据进行抽取,知识抽取包括实体抽取、关系抽取和工业信息安全事件抽取;知识对齐,通过对抽取后的知识进行对齐;构建知识图谱,将对齐后的知识存入数据库中构建知识图谱。利用基于词向量的卷积神经网络进行关系抽取,对工业信息安全事件进行抽取,最后构建工业信息安全的知识图谱,实现工业信息多源大数据的融合;为工业信息安全行业领域提供一个大数据整合的方法,便于更加高效且直观地进行工业信息安全信息的检索与查询。

【技术实现步骤摘要】
一种工业信息安全知识图谱构建方法和系统
本专利技术涉及工业信息安全领域,尤其涉及了一种工业信息安全知识图谱构建方法和系统。
技术介绍
近年来,随着大数据分析技术和自然语言处理的快速发展,知识图谱的构建技术也随之得到了快速的发展。通过构建工业信息安全领域的知识图谱,可以将工业信息安全大数据进行融合,消除数据孤岛,将工控设备、厂商、漏洞、脚本等多项实体进行有机的结合。现有技术中构建的工业信息安全知识图谱,其构建方式繁琐,不能够高效直观的进行工业信息安全信息的检索与查询。专利标题:基于工业领域构建知识图谱的方法、装置及存储介质,申请号:CN201910185451.X,申请日:2019-03-12的专利申请中记载一种基于工业领域构建知识图谱的方法、装置及存储介质。其中该方法,包括:获取与工业领域相关的文本信息;基于预设的深度置信网络,识别所述文本信息中包含的命名实体,其中所述命名实体用于指示所述文本信息中包含的以名称为标识的实体;基于所述预设的深度置信网络,识别所述命名实体之间的命名实体关系;以及根据所述命名实体以及所述命名实体关系,构建基于工业领域的知识图谱。达到了基于工业领域的非结构化的文本信息,利用深度置信网络,有效的进行命名实体以及命名实体关系的识别,从而构建出适用于工业领域的知识图谱。现有技术中,构建的工业信息安全知识图谱,其构建方式繁琐,不能够高效直观的进行工业信息安全信息的检索与查询。
技术实现思路
本专利技术针对现有技术中构建的工业信息安全知识图谱,其构建方式繁琐,不能够高效直观的进行工业信息安全信息的检索与查询的问题,提供了一种工业信息安全知识图谱构建方法和系统。为了解决上述技术问题,本专利技术通过下述技术方案得以解决:一种工业信息安全知识图谱构建方法,包括如下步骤:信息的采集与整理,通过爬虫方式,对信息进行采集和整理;信息包括工控设备数据、工业信息安全漏洞数据、攻击较低数据、工业信息安全数据和建立工业信息安全相关的数据;知识抽取,对采集和整理后的数据进行抽取,知识抽取包括实体抽取、关系抽取和工业信息安全事件抽取;知识对齐,通过对抽取后的知识进行对齐;构建知识图谱,将对齐后的知识存入数据库中构建知识图谱。作为优选,实体抽取包括结构化数据实体抽取和非结构化数据实体抽取;结构化数据实体抽取通过正则匹配的方式进行实体的抽取;非结构化数据实体抽取包括模板法和/或命名实体识别法的方式进行实体的抽取。作为优选,模板法为通过词性分析和关系关键词匹配,从语句中抽取实体的方法。作为优选,命名实体识别法包括:通过Stanford的CoreNLP工具对英文文本进行处理,使用哈工大的LTP工具对中文文本进行处理,并对非结构化的设备文本、漏洞文本以及新闻文本等文本进行分词和人工标注;通过NER工具和LTP工具对英文文本和中文文本分别进行模型的训练,从而得到中英文分开的命名实体识别模型;使用训练好的命名实体识别模型在未标注的数据上进行分词和命名实体的识别,自动抽取一些粗粒度的实体;获取粗粒度的实体,使用Word2Vec工具将实体名转化为词向量,并筛选出少量工业信息相关的实体,通过相关实体的词向量,计算其他实体的词向量与这些词向量的距离的均值,不断迭代从而从中选取相关实体。作为优选,关系抽取包括结构化数据关系抽取和非结构化数据关系抽取;结构化数据关系抽取包括实体间的关系抽取和部分实体的属性关系抽取;非结构化数据关系抽取采用基于词向量卷积神经网络的抽取方式进行关系抽取。作为优选,基于词向量卷积神经网络的抽取方式进行关系抽取的方法为,Google开源的Word2Vec工具将所有训练语料中的词语进行向量化处理,将每一个词汇都转化为固定长度的词向量;使用实体及其句式结构附近的词汇的词向量作为基本特征,将这些特征组合成特征向量,并根据词语在句式结构中的位置进行非线性的加权变换,得到根据词语向量信息和词语位置信息组合生成的特征向量;特征向量经过不同卷积核的卷积运算后会抽取到更多的特征,将最后生成的特征向量集合应用于分类器中,得到训练分类模型,从而进行关系抽取。作为优选,工业信息安全事件抽取包括时间识别和时间关键信息抽取;事件识别通过触发词词典进行匹配,触发词词典包括事件核心词词典和事件相关词词典;关键信息抽取依据候选属性词设有筛选机制。作为优选,事件核心词词典的确定步骤包括:第一步,利用词性标注方法,当一个句子中出现的事件核心词在该句中的词性为动词时,则执行第二步;第二步,利用依存句法分析中的依存距离来判定关键词;第三步,事件相关词词典中的词语用于协助判断句子描述工控安全事件。作为优选,事件相关词词典包括工业信息安全事件发生的时间和地点,组织和人物相关的事件相关词词典;时间相关词词典采用正则匹配的方法来匹配,并与命名实体识别的结果相结合来修正正则匹配的结果;地点相关词词典采用LTP抽取句子表示地点的词语;组织和人物相关的事件相关词词典句子中出现的与触发词相关的其他依存关系,结合词性标注和命名实体识别的结果,从中抽取出具有动宾关系和定中关系的属性集合。作为优选,知识对齐的步骤包括,设置近义词典;对每个实体利用其所有属性的词向量进行线性变换,得到该实体的属性向量;将实体的属性向量与实体的词向量进行线性变换,得到实体的特征向量;依据实体的特征向量得到实体之间的相似度,从而依据实体之间的相似度进行对齐。一种工业信息安全知识图谱构建系统,包括采集模块、抽取模块、对齐模块和图谱构建模块,采集模块对工业安全信息进行采集和整理;并将采集和整理后的数据传送至知识抽取模块;知识抽取模块,通过数据库结构对采集和整理后的数据进行抽取,包括实体抽取、关系抽取和工业信息安全事件抽取;对齐模块,对抽取后的知识进行对齐;图谱构建模块,将对齐后的知识存入数据库中进行构建知识图谱。本专利技术由于采用了以上技术方案,具有显著的技术效果:本专利技术通过从大量数据中抽取出有用的知识支撑工业信息安全知识库建设;对于结构化和半结构化数据使用模板匹配的方法对实体和关系进行抽取;对于非结构化数据则利用命名实体识别技术进行实体抽取,利用基于词向量的卷积神经网络进行关系抽取,对工业信息安全事件进行抽取,最后构建工业信息安全的知识图谱,实现工业信息多源大数据的融合;为工业信息安全行业领域提供一个大数据整合的方法,便于更加高效且直观地进行工业信息安全信息的检索与查询。附图说明图1是本专利技术流程图。图2是本专利技术的关系抽取结构图。图3是本专利技术的知识图谱。具体实施方式下面结合附图与实施例对本专利技术作进一步详细描述。实施例1一种工业信息安全知识图谱构建方法,包括如下步本文档来自技高网...

【技术保护点】
1.一种工业信息安全知识图谱构建方法和系统,其特征在于,包括如下步骤:/n信息的采集与整理,通过爬虫方式,对信息进行采集和整理;信息包括工控设备数据、工业信息安全漏洞数据、攻击较低数据、工业信息安全数据和建立工业信息安全相关的数据;/n知识抽取,对采集和整理后的数据进行抽取,知识抽取包括实体抽取、关系抽取和工业信息安全事件抽取;/n知识对齐,通过对抽取后的知识进行对齐;/n构建知识图谱,将对齐后的知识存入数据库中构建知识图谱。/n

【技术特征摘要】
1.一种工业信息安全知识图谱构建方法和系统,其特征在于,包括如下步骤:
信息的采集与整理,通过爬虫方式,对信息进行采集和整理;信息包括工控设备数据、工业信息安全漏洞数据、攻击较低数据、工业信息安全数据和建立工业信息安全相关的数据;
知识抽取,对采集和整理后的数据进行抽取,知识抽取包括实体抽取、关系抽取和工业信息安全事件抽取;
知识对齐,通过对抽取后的知识进行对齐;
构建知识图谱,将对齐后的知识存入数据库中构建知识图谱。


2.根据权利要求1所述的一种工业信息安全知识图谱构建方法,其特征在于,实体抽取包括结构化数据实体抽取和非结构化数据实体抽取;
结构化数据实体抽取通过正则匹配的方式进行实体的抽取;
非结构化数据实体抽取包括模板法和/或命名实体识别法的方式进行实体的抽取;
模板法为通过词性分析和关系关键词匹配,从语句中抽取实体的方法。


3.根据权利要求2所述的一种工业信息安全知识图谱构建方法,其特征在于,命名实体识别法包括:
通过Stanford的CoreNLP工具对英文文本进行处理,使用哈工大的LTP工具对中文文本进行处理,并对非结构化的设备文本、漏洞文本以及新闻文本等文本进行分词和人工标注;
通过NER工具和LTP工具对英文文本和中文文本分别进行模型的训练,从而得到中英文分开的命名实体识别模型;
使用训练好的命名实体识别模型在未标注的数据上进行分词和命名实体的识别,自动抽取一些粗粒度的实体;
获取粗粒度的实体,使用Word2Vec工具将实体名转化为词向量,并筛选出少量工业信息相关的实体,通过相关实体的词向量,计算其他实体的词向量与这些词向量的距离的均值,不断迭代从而从中选取相关实体。


4.根据权利要求1所述的一种工业信息安全知识图谱构建方法,其特征在于,关系抽取包括结构化数据关系抽取和非结构化数据关系抽取;
结构化数据关系抽取包括实体间的关系抽取和部分实体的属性关系抽取;
非结构化数据关系抽取采用基于词向量卷积神经网络的抽取方式进行关系抽取。


5.根据权利要求4所述的一种工业信息安全知识图谱构建方法,其特征在于,基于词向量卷积神经网络的抽取方式进行关系抽取的方法为,
Google开源的Word2Vec工具将所有训练语料中的词语进行向量化处理,将每一个词汇都转化为固定长度的词向量;
使用实体及其句式结构附近的词汇的词向量作为基本特征,将这些特征组合...

【专利技术属性】
技术研发人员:蒋正威邹剑锋赵志军金学奇马国梁杜奇伟陈国恩江波王跃强张磊殷华宓群超黄银强
申请(专利权)人:国网浙江省电力有限公司嘉兴供电公司嘉兴恒创电力集团有限公司华创信息科技分公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1