一种针对社交网络中漏洞利用知识库的构建方法技术

技术编号：29156961 阅读：28 留言：0更新日期：2021-07-06 22:56

本发明专利技术涉及网络安全领域，为一种针对社交网络中漏洞利用知识库的构建方法，包括：收集社交网络中新出现和近三年的漏洞利用相关文本语料；对原始文本语料进行数据预处理，训练Word2vec词嵌入模型；判别文本语料是否提供漏洞利用代码；提取提供漏洞利用代码的文本语料中的实体信息；汇总实体信息构建漏洞利用知识库。本发明专利技术以漏洞利用代码为知识库的核心，为相关从业人员对于漏洞的研究提供一个攻击者的视角，并深入至源代码层面；以社交网络为主要信息来源，结合多种现有网络安全知识库，保证知识库中数据的广覆盖面和高时效性。

全部详细技术资料下载

【技术实现步骤摘要】
一种针对社交网络中漏洞利用知识库的构建方法
本专利技术属于网络安全领域，具体设计一种针对社交网络中漏洞利用知识库的构建方法。
技术介绍
随着计算机系统中的软件漏洞不断涌现，用户正面临着越来越严重的安全威胁。近年来，软件漏洞数量呈现总体上升趋势，越来越多的漏洞利用代码出现在互联网上，公开的漏洞利用代码已成为网络攻击链的一部分。目前，社交网络平台已经成为漏洞利用代码信息的重要来源。此外，已经存在一些针对网络安全领域的知识库。例如，CVE是一个漏洞数据库，其中所有漏洞都被授予统一的编号。因此持续监控社交网络，及时提取漏洞利用知识，整合来自各种知识库的漏洞利用相关信息，将有助于网络安全领域从业人员及时、全面地获取并研究网络空间中出现的软件漏洞威胁。漏洞利用知识库的构建过程包括领域本体构建和知识构建两部分，在本体构建方面，网络安全领域已经存在了很多已有的本体，例如，ZareenSyed提出了一个网络安全本体，本体中包含106个实体类型以及633条领域公理。这些已有的本体都可以成为我们构建漏洞利用领域本体的参考对象。在知识构建方...

【技术保护点】
1.一种针对社交网络中漏洞利用知识库的构建方法，该方法以提取社交网络中提供的漏洞利用代码为核心，采集与其相关的产品、供应商、攻击模式、漏洞类型、缓解策略实体信息，构成漏洞利用知识库，并存储于图数据库中，其特征在于，所述方法包括：/n步骤1：收集社交网络中新出现和近三年的漏洞利用相关文本语料；/n步骤2：对原始文本语料进行数据预处理，训练Word2vec词嵌入模型；/n步骤3：判别文本语料是否提供漏洞利用代码；/n步骤4：提取提供漏洞利用代码的文本语料中实体信息；/n步骤5：汇总实体信息构建漏洞利用知识库。/n

【技术特征摘要】
1.一种针对社交网络中漏洞利用知识库的构建方法，该方法以提取社交网络中提供的漏洞利用代码为核心，采集与其相关的产品、供应商、攻击模式、漏洞类型、缓解策略实体信息，构成漏洞利用知识库，并存储于图数据库中，其特征在于，所述方法包括：
步骤1：收集社交网络中新出现和近三年的漏洞利用相关文本语料；
步骤2：对原始文本语料进行数据预处理，训练Word2vec词嵌入模型；
步骤3：判别文本语料是否提供漏洞利用代码；
步骤4：提取提供漏洞利用代码的文本语料中实体信息；
步骤5：汇总实体信息构建漏洞利用知识库。

2.根据权利要求1所述的一种针对社交网络中漏洞利用知识库的构建方法，其特征在于，所述步骤1中：
设立包括“EXP”、“POC”、“CVE”、“vulnerability”、“exploit”的关键字集合用于从社交网络海量信息中筛选漏洞利用相关文本语料；
每日定时利用网络爬虫和开发者API采集社交网络中新发布的漏洞利用相关文本数据，用于迭代更新漏洞利用知识库，并采集近三年的漏洞利用相关文本数据用于后续的模型训练过程；
当采集得到的文本数据中含有引用的外部链接地址时，使用动态网络爬虫采集对应的外部链接网页的文本内容，与原文本拼接形成最终的语料数据。

3.根据权利要求1所述的一种针对社交网络中漏洞利用知识库的构建方法，其特征在于，所述步骤2中：
从收集到的漏洞利用相关文本语料中去除非ASCII字符、标点符号和停用词；
将文本中所有单词中的大写字母全部由小写字母替换，并使用NLTK进行词形还原；
将文本中的数量词、网页链接、社交网络中的特定用户名、特定话题标记替换为同一代词标记，如“<number>”，“<url>”，“<username>”，“<hashtag>”；
使用近三年漏洞利用相关文本数据为训练集，训练基于CBOW的Word2vec词嵌入模型。

4.根据权利要求1所述的一种针对社交网络中漏洞利用知识库的构建方法，其特...

【专利技术属性】
技术研发人员：黄诚，杜予同，梁根培，
申请(专利权)人：四川大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人