一种从非结构化数据中提取网络安全新词的方法技术

技术编号：25270908 阅读：35 留言：0更新日期：2020-08-14 23:04

地下黑客社区作为黑客的在线社交平台，是黑客们进行交流和传播黑客技术和工具的重要场所。在这些社区中，许多最新的信息直接或间接影响网络攻击，从而威胁到企业或个人的资产。因此，诸如黑客论坛之类的社交媒体对网络安全领域具有重大影响。而从黑客社区（例如新兴的黑客团体和黑客工具）自动识别相关词和新词的成功率较低。本发明专利技术基于自然语言处理技术，通过对词汇本身的特征提取以及上下文进行分析，提出了一种从非结构化数据中提取网络安全新词的方法。该方法结合词性、单词特征、字符特征以及词汇相似度，利用卷积神经网络提取单词中的字符特征，使用双向长短期记忆神经网络构成框架，并结合词库和谷歌趋势综合判断以提取新词。

全部详细技术资料下载

【技术实现步骤摘要】
一种从非结构化数据中提取网络安全新词的方法
本专利技术涉及网络信息安全、大数据技术等领域，针对网络安全领域的新词提取方法，提出了一种基于深度学习的从非结构化数据中提取网络安全新词提取的方法。通过一维卷积神经网络的到词汇的字符特征，并对语句中的每一个词汇的词性特征、词向量、词汇特征、字符特征进行拼接，然后利用双向长短期记忆神经网络进行模型的构建，实现对黑客工具、组织名、用户名的检测。并将检测出的相关词汇与词库中的词汇进行比较，同时结合谷歌趋势进行判断，最终判断并提取出网络安全新词。
技术介绍
随着互联网的飞速发展，网络安全形势日益复杂。作为网络攻击的参与者，黑客在网络安全中扮演着重要角色。作为黑客交流，传播黑客知识和交换工具的平台之一，黑客社区是网络罪犯传播恶意软件变种和黑客工具的市场。通常，在网络攻击发生之前，黑客组织很可能会在黑客社区中提出有关攻击的信息，并且通常会涉及相关的黑客工具，并且在黑客社区的相关文章中都会对工具进行描述。因此，攻击的踪迹或意图通常会出现在某些黑客沈河区中。及时发现工具、组织、用户名等新词，可以及时

【技术保护点】
1.一种从非结构化数据中提取网络安全新词的方法，其特征在于：包括了数据收集模块、数据处理模块、模型建立模块以及新词判定模块。/n

【技术特征摘要】
1.一种从非结构化数据中提取网络安全新词的方法，其特征在于：包括了数据收集模块、数据处理模块、模型建立模块以及新词判定模块。

2.根据权利要求1所述的一种从非结构化中提取网络安全新词的方法，其数据收集的具体步骤在于：
(1)利用网络静态和动态爬虫技术对特定网络安全论坛中网页进行全文抓取，然后利用正则表达式从网页中提取用户发言的文本内容、用户基本信息以及其他人的留言内容，并将这些数据作为原始数据仓库；
(2)利用网络静态和动态爬虫技术从诸如PacketStorm、GitHub等安全社区或者论坛采集包含黑客组织和工具名称这两类网络安全词汇的数据，形成词汇原始数据仓库；
(3)手动对词汇原始数据仓库中相关语句进行标注，主要标记数据中涉及到的网络安全词汇，在标注时不改变原词汇的形式，结合所收集到的名称形成基准网络安全词库。

3.根据权利要求1所述的一种从非结构化数据中提取网络安全新词的方法，其数据处理的具体步骤在于：
(1)对原始数据仓库进行预处理，其中包含对其所包含的所有文本句子进行切词，移除非ASCII字符，但是在移除符号时不删除引号、连字符、括号等特殊字符，并对句子中的每一个词汇进行词形还原操作；
(2)词汇固定长度词向量生成方法：基于全局语料库、结合上下文语境构建词向量，与此同时考虑词的共现情况，即单词与其上下文单词在特定的上下文窗口内共同出现的次数，根据与某一个单词的相关的概率之比学习词向量，实现将词汇转化为固定的长度向量，其中计算与某一个单词相关的概率之比的公式为：所述表示词的上下文中词出现的概率；
(3)词性向量生成方法：对每一个句子处理的结果，利用自然语言处理NTLK库对每个词的词性进行标注，利用独热编码进行向量化；
(4)词汇静态特征向量生成方法：对每一个句子的处理结果，提取每一个词汇的静态特征，所述静态特征包括对特殊字符、字母数字的统计特征，对词汇的静态特征进行编码，利用独热编码进行向量化；
(5)字符特征向量生成方法：对每一个句子的处理结果，对每一个词汇利用一维卷积神...

【专利技术属性】
技术研发人员：黄诚，李滢，程嘉兴，
申请(专利权)人：四川大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人