一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法技术

技术编号:22722620 阅读:21 留言:0更新日期:2019-12-04 05:33
本发明专利技术公开了一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法。本发明专利技术通过爬取微博安全大V发布的人读威胁情报等作为原始数据,构建了用于人读威胁情报推荐的知识图谱,然后将知识图谱中的实体和实体关系抽象成低维度的向量表示e;对于每一条人读威胁情报I

A knowledge map construction method and threat information recommendation method for human reading threat information recommendation

The invention discloses a knowledge map construction method and a threat information recommendation method for human reading threat information recommendation. The invention constructs a knowledge map for recommendation of human read threat information by crawling the human read threat information released by the micro blog security big V as the original data, and then abstracts the entity and entity relationship in the knowledge map into a low-dimensional vector representation E; for each human read threat information I

【技术实现步骤摘要】
一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法
本专利技术提出一种用于威胁情报推荐的知识图谱的构建方法和一种基于知识图谱和LSTM的威胁情报推荐方法,涉及了一种结合LDA主题模型的去噪实体抽取方法和一种知识感知的LSTM推荐方法。
技术介绍
威胁情报是一种基于证据的知识,包括了情境、机制、指标、隐含和实际可行的建议。威胁情报描述了现存的、或者是即将出现针对资产的威胁或危险,并可以用于通知主体针对相关威胁或危险采取某种响应。根据阅读威胁情报的对象的不同,威胁情报可以分为机读威胁情报和人读威胁情报。人读威胁情报需要提供更多的上下文、背景信息以及分析结果。例如对于一个活跃APT(高级持续威胁)组织的分析报告就是一份典型的人读威胁情报。随着大数据等技术的发展,威胁情报这一术语应运而生,对网络安全保护系统的发展具有里程碑意义。面对严峻的安全形势,安全专家需要通过及时有效地跟踪和分析网络安全威胁的特征、方法和模式,改变传统的安全防御思想,识别和防御网络安全的新威胁。但是,在线内容和服务的爆炸性增长为用户创造了一个压倒性的选择。推荐系统旨在通过从大量数据中过滤出少量内容来满足其个性化兴趣,从而解决信息爆炸问题。传统的协同过滤方法通过学习相关用户的兴趣来预测长尾用户的兴趣,并在各个领域取得了成功。在实际应用中,用户对项目的个人偏好的用户项矩阵通常非常稀疏,导致基于协同过滤方法的推荐性能显著降低。为了解决这些问题,研究人员提出将辅助信息纳入协同过滤,例如社交网络,用户/项目属性,图像和上下文纳入协同过滤。知识图谱也是一种优质的外部辅助信息,知识图谱是Google用于增强其搜索引擎功能的知识库。本质上,知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。一般而言,人读威胁情报的推荐非常困难,其带来了3)大挑战:1.人读威胁情报具有高度时间敏感性,并将在短时间内到期。特别是,在同一时间段内描述的安全事件更可能是相关的,这需要传统方法有效地按时间动态问题进行扩展。2.人读威胁情报语言高度精简,包括安全术语,网络实体,新型黑客组织,攻击方法,攻击工具等。情报之间的相关性不仅基于共现或聚类结构,还基于攻击链关联。例如,如图1所示,用户关注右下角的人读威胁情报。实际上,用户也可能对关注过的人读威胁情报左侧的另一条人读威胁情报感兴趣。通过观察标记为红色的实体,可以看出它们更相似并且共享相同的C&C服务器。通过比较标记为绿色的实体,顶部的人读威胁情报看起来与历史关注并不相似,但此人读威胁情报中提到的C&C服务器82.137.255.56和另一个C&C服务器31.9.48.183均属于APT-C-27组织。此时,用户也可能会对顶部的人读威胁情报感兴趣。3.现有的通用的知识图谱不适用于人读威胁情报推荐系统,例如GoogleKnowledgeGraph和MicrosoftSatori。这些知识图谱成功应用于机器阅读,文本分类和文字嵌入等场景,但是它们中存在大量与安全领域无关的噪声。更重要的是,他们不考虑攻击链级别的实体关联。如果我们以图1为例,他们不考虑82.137.255.56和31.9.48.183这两个C&C服务器是否属于同一个攻击组织。
技术实现思路
本专利技术的目的是构建一个可用于人读威胁情报推荐的知识图谱,并利用其解决协同过滤冷启动问题,用少量数据达到较好的推荐效果。知识图谱通常由半结构化知识构建,例如维基百科,或者通过统计和语言学方法的组合从网络中获取。在本专利技术中,我们通过爬取微博安全大V发布的人读威胁情报等作为原始数据,构建了用于人读威胁情报推荐的知识图谱,其中提出了一个结合LDA主题模型的去噪实体提取模块和一个利用外部知识进行人读威胁情报推荐的长短期记忆神经网络(LSTM)。去噪实体抽取模块从原始文本数据中抽取主题词和特殊词,抽取主题词的好处是可以消减噪声,缩小实体抽取范围,而特殊词是诸如网络实体、黑客组织名称、攻击工具名称、攻击手法、英语短语等词,特殊词可以在一定情况下弥补低频重要实体的缺失。LSTM(LongShort-TermMemory)是长短期记忆网络,最早由SeppHochreiter和JürgenSchmidhuber于1997年论文《Longshort-termmemory》提出,是一种时间循环神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。知识感知的长短期记忆神经网络(KLSTM)是一种基于内容的点击预测模型。它需要一个候选人读威胁情报和用户的关注历史作为输入,并输出用户是否点击输入的候选人读威胁情报,这点与LSTM并无明显不同,KLSTM与LSTM的不同之处在于它使用知识图谱中的信息作为辅助输入。具体来说,对于每个输入人读威胁情报,知识图谱中有几个与其对应的实体,利用知识图谱的知识表示来表征各实体和实体间关系,从而得到候选人读威胁情报向量和用户的关注历史即用户向量。本专利技术提供的具体技术方案如下:一种用于人读威胁情报推荐的知识图谱构建方法,其步骤包括:1)对于专家集V中的每一专家v,爬取专家v发布的人读威胁情报,得到人读威胁情报集I;2)对于人读威胁情报集I中的每一条人读威胁情报Ii,使用LDA主题模型建模选择一主题Topici,并保留该主题Topici中词概率大于设定阈值的主题词,形成主题词集Tw;3)对于人读威胁情报集I中的各条人读威胁情报,获取其中设定的特殊实体,生成特殊实体集E;4)将主题词集Tw和特殊实体集E作为知识图谱的实体,将每一条人读威胁情报作为一个知识图谱中的一情报实体,将主题词集Tw中的实体与情报实体的关系设置为isTopic、特殊实体集E中的实体与情报实体的关系设置为isTopic;对于知识图谱中的所有实体,如果两个实体为同一对象的不同称谓,则实体间关系为isEqual;若两个实体之间为包含关系,则实体间关系为isIn;若两个实体在攻击链上存在关系,则关系为isBind;5)根据上述步骤2)、步骤3)和步骤4)中得到的实体以及实体关系,将实体用实体关系相连,得到用于人读威胁情报推荐的知识图谱。步骤1)中,对爬取的人读威胁情报进行过滤,过滤掉没有点击的人读威胁情报,生成人读威胁情报集I。一种用于人读威胁情报推荐的威胁情报推荐方法,其步骤包括:1)选定微博安全大V候选人,构造专家集合EP,对于v∈EP,爬取v发布的人读威胁情报,以及对应于每条人读威胁情报的点赞过、转发过、评论过的所有微博用户ID,即点击过对应人读威胁情报的微博用户ID,作为后续推荐模型知识感知的长短期记忆神经网络(KLSTM)的训练测试用户。2)针对每一名训练测试用户,将其关注过的所有安全大V作为一集合V’,选取用户第一次关注v’,v’∈V’到最后一次点赞、转发、评论v’发布的人读威胁情报之间的所有人读威胁情报。对所有用户和所有选取到的人读威胁情报,构造用户-项目交互矩阵A,矩阵中每一行本文档来自技高网
...

【技术保护点】
1.一种用于人读威胁情报推荐的知识图谱构建方法,其步骤包括:/n1)对于专家集V中的每一专家v,爬取专家v发布的人读威胁情报,得到人读威胁情报集I;/n2)对于人读威胁情报集I中的每一条人读威胁情报I

【技术特征摘要】
1.一种用于人读威胁情报推荐的知识图谱构建方法,其步骤包括:
1)对于专家集V中的每一专家v,爬取专家v发布的人读威胁情报,得到人读威胁情报集I;
2)对于人读威胁情报集I中的每一条人读威胁情报Ii,使用LDA主题模型建模选择一主题Topici,并保留该主题Topici中词概率大于设定阈值的主题词,形成主题词集Tw;
3)对于人读威胁情报集I中的各条人读威胁情报,获取其中设定的特殊实体,生成特殊实体集E;
4)将主题词集Tw和特殊实体集E作为知识图谱的实体,将每一条人读威胁情报作为一个知识图谱中的一情报实体,将主题词集Tw中的实体与情报实体的关系设置为isTopic、特殊实体集E中的实体与情报实体的关系设置为isTopic;对于知识图谱中的所有实体,如果两个实体为同一对象的不同称谓,则实体间关系为isEqual;若两个实体之间为包含关系,则实体间关系为isIn;若两个实体在攻击链上存在关系,则关系为isBind;
5)根据上述步骤2)、步骤3)和步骤4)中得到的实体以及实体关系,将实体用实体关系相连,得到用于人读威胁情报推荐的知识图谱。


2.如权利要求1所述的方法,其特征在于,步骤1)中,对爬取的人读威胁情报进行过滤,过滤掉没有点击的人读威胁情报,生成人读威胁情报集I。


3.一种用于人读威胁情报推荐的威胁情报推荐方法,其步骤包括:
1)对于专家集V中的每一专家v,爬取专家v发布的人读威胁情报,得到人读威胁情报集I;获取点击过所述人读威胁情报的微博用户ID,生成用户集U;
2)构造用户-项目交互矩阵A;其中,用户-项目交互矩阵A矩阵中每一行代表一条人读威胁情报,每一列代表一名用户,用户-项目交互矩阵A中的元素aij代表用户j与人读威胁情报i交互情况,aij=1代表用户j关注或点击过人读威胁情报i,aij=0代表用户j未关注或点击过人读威胁情报i,aij为空代表用户j未关注过人读威胁情报i,且对该条人读威胁情报的兴趣未知;
3)对于人读威胁情报集I中的每一条人读威胁情报Ii,使用LDA主题模型建模选择一主题Topici,并保留该主题Topici中词概率大于设定阈值的主题词,形成主题词集Tw;
4)对于人读威胁情报集I中的各条人读威胁情报,获取其中设定的特殊实体,生成特殊实体集E;
5)将主题词集Tw和特殊实体集E作为知识图谱的实体,将每一条人读威胁情报作为一个知识图谱中的一情报实体...

【专利技术属性】
技术研发人员:都鸣姜政伟江钧卢志刚刘宝旭
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1