社交媒体网络的威胁情报识别方法、系统、设备及介质技术方案

技术编号:37641431 阅读:16 留言:0更新日期:2023-05-25 10:08
本发明专利技术提出了社交媒体网络的威胁情报识别方法、系统、设备及介质,涉及网络安全领域,具体方案包括:对从社交媒体网络中采集的文本数据进行预处理,得到单词库;将单词库中的单词转换为语义向量表示,将语义向量表示的单词作为节点,构建基于词语共现的图结构;使用图神经网络从图结构中提取结构特征,使用序列化模型从语义向量表示中提取语义特征,并将结构特征和语义特征进行融合;使用多层感知机对融合后的特征进行分类和识别,得到文本数据中的威胁情报;本发明专利技术使用图神经网络、序列化模型和多层感知机对社交媒体网络的文本数据进行特征提取和分类,快速准确地发现和识别网络安全威胁,提高分类和预测的准确性和效率。提高分类和预测的准确性和效率。提高分类和预测的准确性和效率。

【技术实现步骤摘要】
社交媒体网络的威胁情报识别方法、系统、设备及介质


[0001]本专利技术属于网络安全领域,尤其涉及社交媒体网络的威胁情报识别方法、系统、设备及介质。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]随着社交媒体的普及和应用,越来越多的网络安全问题从互联网传播到社交媒体上,监控和分析社交媒体网络上的威胁情报变得尤为重要。传统的威胁情报收集方法主要基于人工或自动化的搜索引擎,但这些方法往往效率低下且存在误报漏报等问题;因此,利用机器学习和深度学习技术对社交媒体文本数据进行分析和预测,成为了一种新的解决方案。通过对社交媒体文本数据进行特征提取和分类,可以快速准确地发现和识别危及网络安全的行为,并及时采取措施,保护网络安全。
[0004]大多数针对社交媒体的监控都是采用传统的机器学习模型,其中,随机森林和支持向量机得到了广泛的应用,但随机森林和支持向量机对网络威胁情报进行分类的缺点,包括:1)对于高维稀疏数据的处理效果不佳;2)尽管支持向量机,如果选择不合适的核函数也会导致分类效果不佳;3)随机森林和支持向量机的计算复杂度,随着数据集的增大而增加,导致处理数据效率不高。

技术实现思路

[0005]为克服上述现有技术的不足,本专利技术提供了社交媒体网络的威胁情报识别方法、系统、设备及介质,使用图神经网络、序列化模型和多层感知机对社交媒体网络的文本数据进行特征提取和分类,快速准确地发现和识别涉及网络安全风险的情报,提高分类和预测的准确性和效率。
[0006]为实现上述目的,本专利技术的一个或多个实施例提供了如下技术方案:本专利技术第一方面提供了一种社交媒体网络的威胁情报识别方法;一种社交媒体网络的威胁情报识别方法,包括:对从社交媒体网络中采集的文本数据进行预处理,得到单词库;将单词库中的单词转换为语义向量表示,将语义向量表示的单词作为节点,构建基于词语共现的图结构;使用图神经网络从图结构中提取结构特征,使用序列化模型从语义向量表示中提取语义特征,并将结构特征和语义特征进行融合;使用多层感知机对融合后的特征进行分类和识别,得到文本数据中的威胁情报。
[0007]进一步的,所述预处理,包括数据清洗和分词。
[0008]进一步的,所述将单词库中的单词转换为语义向量表示,是使用word2vec模型,进行向量转换,反映单词在语义上的相似性。
[0009]进一步的,所述图结构的具体构建方法为:单词库中的每个单词作为节点,计算两个单词共同出现在同一上下文中的次数来构建两个单词之间的边,得到一张无向图,作为图结构。
[0010]进一步的,所述图神经网络,进行信息传递并根据节点和边之间的关系,提取节点的结构特征。
[0011]进一步的,所述序列化模型,对单词的语义向量表示进行时间序列建模,捕捉文本数据中的时序信息,得到语义特征。
[0012]进一步的,所述将结构特征和语义特征进行融合,具体为:进行归一化处理进行加权,得到一个更高级别的特征表示;将得到的特征表示,按照时间步连接起来,形成一个二维的时间

特征矩阵。
[0013]本专利技术第二方面提供了一种社交媒体网络的威胁情报识别系统。
[0014]一种社交媒体网络的威胁情报识别系统,包括预处理模块、图构建模块、特征提取模块和威胁识别模块:预处理模块,被配置为:对从社交媒体网络中采集的文本数据进行预处理,得到单词库;图构建模块,被配置为:将单词库中的单词转换为语义向量表示,将语义向量表示的单词作为节点,构建基于词语共现的图结构;特征提取模块,被配置为:使用图神经网络从图结构中提取结构特征,使用序列化模型从语义向量表示中提取语义特征,并将结构特征和语义特征进行融合;威胁识别模块,被配置为:使用多层感知机对融合后的特征进行分类和识别,得到文本数据中的威胁情报。本专利技术第三方面提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本专利技术第一方面所述的一种社交媒体网络的威胁情报识别方法中的步骤。
[0015]本专利技术第四方面提供了电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本专利技术第一方面所述的一种社交媒体网络的威胁情报识别方法中的步骤。
[0016]以上一个或多个技术方案存在以下有益效果:本专利技术通过收集与网络安全风险相关的社交媒体网络文本数据,将每个单词进行向量表示,使用图神经网络和序列化模型进行特征提取和时间序列建模,最后将这些模型的特征进行融合,以提取更高级别的特征反映网络安全威胁的时序信息和语义信息,并使用多层感知机作为分类器对提取的特征进行分类和预测,快速准确地发现和识别网络安全威胁,提高分类和预测的准确性和效率。
[0017]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0018]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0019]图1为第一个实施例的方法流程图。
[0020]图2为第二个实施例的系统结构图。
具体实施方式
[0021]多层感知机(Multi

Layer Perceptron, MLP)是一种基于神经网络的机器学习模型,相比传统的机器学习模型具有更强的拟合能力、更好的自适应学习能力、更好的可扩展性和更高的计算效率,适用于处理复杂的非线性数据和大规模的高维度数据。
[0022]因此,本专利技术提出了一种从社交媒体网络监控识别威胁情报的方法,使用图神经网络、序列化模型和多层感知机对社交媒体网络威胁情报进行特征提取和分类,以实现快速准确地发现和识别网络安全威胁。
[0023]下面结合附图与实施例对本专利技术作进一步说明。
[0024]实施例一本实施例公开了一种社交媒体网络的威胁情报识别方法,主要采用Word2vec模型、LSTM模型、GAT模型和MLP模型对社交媒体网络中的文本数据进行特征提取、分类和预测;Word2vec模型将词汇映射到向量空间,从而捕捉词语间的语义关系;在社交媒体网络中,用户和信息之间存在复杂的连接关系,GAT模型捕捉这些连接关系中的结构特征;LSTM模型是一种长短时记忆网络,能够处理序列数据(如文本),捕捉长距离依赖关系并提取序列中的语义信息;MLP(多层感知器)模型负责将提取到的结构特征和语义特征融合在一起,进行分类和预测;这些模型相结合可以有效地提取社交媒体网络文本数据中的结构特征和语义特征,并将这些特征融合起来,以进行分类和预测。
[0025]如图1所示,一种社交媒体网络的威胁情报识别方法,包括:步骤S1:对从社交媒体网络中采集的文本数据进行预处理,得到单词库。
[0026]收集与网络安全风险相关的社交媒体网络文本数据,使用包含特定网络安全关键词或主题的搜索查询来获取有关的社交媒体网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种社交媒体网络的威胁情报识别方法,其特征在于,包括:对从社交媒体网络中采集的文本数据进行预处理,得到单词库;将单词库中的单词转换为语义向量表示,将语义向量表示的单词作为节点,构建基于词语共现的图结构;使用图神经网络从图结构中提取结构特征,使用序列化模型从语义向量表示中提取语义特征,并将结构特征和语义特征进行融合;使用多层感知机对融合后的特征进行分类和识别,得到文本数据中的威胁情报。2.如权利要求1所述的一种社交媒体网络的威胁情报识别方法,其特征在于,所述预处理,包括数据清洗和分词。3.如权利要求1所述的一种社交媒体网络的威胁情报识别方法,其特征在于,所述将单词库中的单词转换为语义向量表示,是使用word2vec模型,进行向量转换,反映单词在语义上的相似性。4.如权利要求1所述的一种社交媒体网络的威胁情报识别方法,其特征在于,所述图结构的具体构建方法为:单词库中的每个单词作为节点,计算两个单词共同出现在同一上下文中的次数来构建两个单词之间的边,得到一张无向图,作为图结构。5.如权利要求1所述的一种社交媒体网络的威胁情报识别方法,其特征在于,所述图神经网络,进行信息传递并根据节点和边之间的关系,提取节点的结构特征。6.如权利要求1所述的一种社交媒体网络的威胁情报识别方法,其特征在于,所述序列化模型,对单词的语义向量表示进行时间序列建模,捕捉文本数据中的时序信息,得到语义特征。7.如...

【专利技术属性】
技术研发人员:杨英于鑫闫莉莉李雨颖于召勇王伟侯仰志马文豪
申请(专利权)人:齐鲁工业大学山东省科学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1