当前位置: 首页 > 专利查询>四川大学专利>正文

一种面向社交网络的安全社区发现方法技术

技术编号:35829190 阅读:14 留言:0更新日期:2022-12-03 13:57
一种面向社交网络的安全社区发现方法,包括:手动筛选社交网络上所关注网络安全领域的特定安全人员账号作为种子账号;采集种子账号的关联账号构成自我网络中的账号数据作为第一层数据集;对数据集中的文本数据进行预处理以及账号特征的提取,得到第二层数据集;判别账号是否属于安全账号,剔除非安全人员账号更新得到第三层数据集;以账号间的双向关系构建拓扑图并剪枝,得到包含网络结构的第四层数据集;进行局部网络的扩展,得到包含完整局部网络的第五层数据集;第五层数据集作为输入,利用社区发现模型进行安全社区的划分。本发明专利技术属于网络安全领域,能够从海量社交网络数据中准确且快速挖掘安全人员组成的社区。确且快速挖掘安全人员组成的社区。确且快速挖掘安全人员组成的社区。

【技术实现步骤摘要】
一种面向社交网络的安全社区发现方法


[0001]本专利技术属于网络安全领域,具体设计一种面向社交网络中安全社区的发现方法。

技术介绍

[0002]在当今的网络格局中,对高级攻击或漏洞利用的防范手段日益困难。攻击者拥有大量的资金、精湛的技术和丰富的经验,他们不仅仅提高自身的攻击技术,还善于找到包括管理、人员等企业防护的薄弱环节。面对如此复杂的网络攻防现状,一种应对网络攻击的方式是关注社交网络中活跃的安全社区,并对其进行监视和了解,挖掘其内部生态的同时并对网络安全事件进行启发式地识别。社交网络逐渐成为人们进行日常社交活动不可或缺的一部分,其也吸引了大量活跃的黑客。
[0003]社交网络的数据规模庞大,涉及各行各业的用户,网络安全领域相关的账号仅占社交网络的少部分,而对安全社区这一结构化的数据进行发现则更为困难。通过人工手动分析社交网络上的黑客社区需要大量的时间以及专业背景,因此需要提出一种方法或工具对社交网络账号数据进行自动化的分析,发现其中隐藏的黑客社区。
[0004]目前研究社区发现的方法大致分为三类:传统方法、深度学习方法和基于图神经网络的社区发现方法。传统方法大多数基于统计推断和机器学习发展而来。与机器学习的方法相比,深度学习能够处理高维数据情形下的社区发现问题。然而,社区检测任务需要处理包含节点元素之间丰富的非欧几里得图数据,传统的深度学习模型则不能很好地处理。图神经网络作为用于处理图数据的神经网络,可用于弥补这一缺陷。
[0005]本专利技术通过社交网络上的同质性分析以批量获取潜在的安全账号,运用机器学习算法加以判别,使用图神经网络挖掘其中的隐式组织关系,实现社交网络上安全社区的发现。

技术实现思路

[0006]有鉴于此,本专利技术提供了一种针对社交网络中安全社区的发现方法,旨在挖掘社交网络上的安全社区,解决社交网络中安全社区发现难的问题。
[0007]一种针对社交网络中安全社区的发现方法,所述方法包括:步骤 1:手动筛选社交网络上所关注网络安全领域的特定安全人员账号作为种子账号;步骤2:利用单个种子账号的关联信息缩小采样范围,依据种子账号的关联账号构成自我网络,同时对自我网络中的账号数据进行采集作为第一层数据集;步骤3:对第一层数据集中所有账号的文本数据进行预处理后,提取所有账号特征,得到包含所有账号的特征矩阵作为第二层数据集;步骤4:使用基于改进后的GBDT模型对第二层数据集中的账号进行判别,剔除非安全人员账号,更新得到仅包含安全人员账号数据的第三层数据集;步骤5:依据步骤4得到的第三层数据集中的安全人员账号作为节点,节点间的双
向关注关系构建初始社交拓扑图,从不同的角度对网络结构间的关联进行建模,以此作为策略依据对边关系进行剪枝,得到包含初始社交拓扑图的第四层数据集;步骤6:选取步骤5生成的第四层数据集进行局部网络的扩展,以度中心性作为基准选取候选迭代节点,得到包含完整局部网络结构的第五层数据集;步骤7:根据第五层数据集中的节点特征矩阵和邻接矩阵,基于图神经网络构建下游的重叠社区发现任务,完成对安全社区的划分。
[0008]优选的,所述种子账号的筛选流程包括:步骤1a:手动筛选社交网络上所关注网络安全领域的特定安全人员账号,方法包括:(1) 基于粉丝量并观察账号内容是否包含网络安全热点事件或主题,收集满足要求的社交网络账号;(2) 基于网络安全领域机构查找相应的社交网络账号,并收集账号;(3) 基于关键词查找该领域的影响力较高的文本内容,并收集所属账号。
[0009]优选的,所述第一层数据集的采集流程包括:步骤2a:利用单个种子账号的关联信息缩小采样范围,通过网络爬虫和开发者接口采集该种子账号的个人资料和文本数据;步骤2b:统计个人资料中与种子账号具备关注关系以及在文本数据中产生交互行为的关联账号集合,构成自我网络,并对其中的账号进行去重;步骤2c:再次利用网络爬虫与开发者接口进行关联账号的个人资料与文本数据采集,完成第一层数据集的获取。
[0010]优选的,所述第二层数据集中账号文本数据预处理及账号特征提取流程包括:步骤3a:将所有的文本数据翻译为英文,便于后续的统一预处理;步骤3b:从收集到的账号文本数据中去除非ASCII字符、标点符号和停用词;步骤3c:将文本中所有单词中的大写字母全部由小写字母替换,并使用NLTK进行词形还原;步骤3d:使用特征工程方法对第一层数据集中的账号从如下四个角度生成特征:资料特征:账号名特征、账号社交特征、账号设置特征;行为特征:账号发文特征、发文来源特征;文本特征:文本可读性、关键词特征;时序特征:发文时序特征;步骤3e:得到包含账号预处理数据及节点特征矩阵的第二层数据集。
[0011]优选的,所述第三层数据集中采集账号判别流程包括:步骤4a:根据步骤3中预处理后的第二层数据集,得到节点特征矩阵作为训练集,依据账号内容是否包含网络安全领域知识,人工将训练用账号分为安全账号与无关两类;步骤4b:使用改进后的GBDT模型对训练集进行训练,其中训练数据集为,,为输入空间,,为输出空间,训练的步骤如下:(1) 初始化弱学习器,,损失函数为平方损失;
(2) 建立棵分类回归树,通过公式,计算第棵树对应的响应值;(3) 利用CART回归树拟合数据,得到第棵回归树,其对应的叶子节点区域为,其中,为第棵回归树叶子节点的个数;(4) 通过公式计算出个叶子节点区域的最佳拟合值;(5) 为避免GBDT陷入过拟合,依据公式更新强学习器,并增加了GBDT的迭代次数,为改进后的减小残差收敛次数的参数;步骤4c:使用训练好的分类模型预测其余未经人工标注账号是否为安全人员账号,移除第二层数据集中分类模型预测为非安全人员帐号,更新后得到第三层数据集。
[0012]优选的,所述第四层数据集中社交拓扑图构建及边剪枝过程包括:步骤5a:使用步骤4中得到的第三层数据集初始化网络结构,安全人员账号作为网络节点,并采用账号间的双向关注关系作为网络结构中的边关系;步骤5b:利用账号间的交互关系、内容相似程度、好友粉丝相关性对网络中的关联进行建模:(1) 统计账号间产生过的互动次数用于表征账号间的交互关系;(2) 计算账号间的内容相似程度,通过互信息对文本数据中的关键词进行筛选,并选取前个关键词用于表征账号内容,最后采用余弦相似度算法计算两个账号间的相似程度;(3) 计算账号间的社交结构的相似性,即两账号好友与粉丝列表的交集与并集之比;步骤5c:构建剪枝策略对边关系进行裁剪,剪枝策略如下:(1) 账号间存在交互关系,表明账号间存在的社交关联;(2) 账号间社交结构与内容存在相似性,表明账号间存在同质性;步骤5d:移除不满足上述策略的边关系,同时更新构建的网络结构,得到第四层数据集。
[0013]优选的,所述第五层数据集中局部网络扩展流程包括:步骤6a:依据步骤5中得到的第四层数据集中的初始社交拓扑图构建度局部网络,为自然数,当时,所述局部网络即为以种子账号为中心的自我网络;当时,局部网络还包括与迭代节点的度候选邻居节点直接连接的邻居节点;步骤6b:手本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对社交网络中安全社区的发现方法,该方法以发现社交网络中安全人员组成的社区为核心,识别社交网络上网络安全领域账号并挖掘其间的社交关系,其特征在于,所述方法包括:步骤1:手动筛选社交网络上所关注网络安全领域的特定安全人员账号作为种子账号;步骤2:利用单个种子账号的关联信息缩小采样范围,依据种子账号的关联账号构成自我网络,同时对自我网络中的账号数据进行采集作为第一层数据集;步骤3:对第一层数据集中所有账号的文本数据进行预处理后,提取所有账号特征,得到包含所有账号的特征矩阵作为第二层数据集;步骤4:使用基于改进后的GBDT模型对第二层数据集中的账号进行判别,剔除非安全人员账号,更新得到仅包含安全人员账号数据的第三层数据集;步骤5:依据步骤4得到的第三层数据集中的安全人员账号作为节点,节点间的双向关注关系构建初始社交拓扑图,从不同的角度对网络结构间的关联进行建模,以此作为策略依据对边关系进行剪枝,得到包含初始社交拓扑图的第四层数据集;步骤6:选取步骤5生成的第四层数据集进行局部网络的扩展,以度中心性作为基准选取候选迭代节点,得到包含完整局部网络结构的第五层数据集;步骤7:根据第五层数据集中的节点特征矩阵和邻接矩阵,基于图神经网络构建下游的重叠社区发现任务,完成对安全社区的划分。2.根据权利要求1所述的一种针对社交网络中安全社区的发现方法,其特征在于,所述步骤1中:步骤1a:手动筛选社交网络上所关注网络安全领域的特定安全人员账号,方法包括:(1) 基于粉丝量并观察账号内容是否包含网络安全热点事件或主题,收集满足要求的社交网络账号;(2) 基于网络安全领域机构查找相应的社交网络账号,并收集账号;(3) 基于关键词查找该领域的影响力较高的文本内容,并收集所属账号。3.根据权利要求1所述的一种针对社交网络中安全社区的发现方法,其特征在于,所述步骤2中:步骤2a:利用单个种子账号的关联信息缩小采样范围,通过网络爬虫和开发者接口采集该种子账号的个人资料和文本数据;步骤2b:统计个人资料中与种子账号具备关注关系以及在文本数据中产生交互行为的关联账号集合,构成自我网络,并对其中的账号进行去重;步骤2c:再次利用网络爬虫与开发者接口进行关联账号的个人资料与文本数据采集,完成第一层数据集的获取。4.根据权利要求1所述的一种针对社交网络中安全社区的发现方法,其特征在于,所述步骤3中:步骤3a:将所有的文本数据翻译为英文,便于后续的统一预处理;步骤3b:从收集到的账号文本数据中去除非ASCII字符、标点符号和停用词;步骤3c:将文本中所有单词中的大写字母全部由小写字母替换,并使用NLTK进行词形还原;步骤3d:使用特征工程方法对第一层数据集中的账号从如下四个角度生成特征:
资料特征:账号名特征、账号社交特征、账号设置特征;行为特征:账号发文特征、发文来源特征;文本特征:文本可读性、关键词特征;时序特征:发文时序特征;步骤3e:得到包含账号预处理数据及节点特征矩阵的第二层数据集。5.根据权利要求1所述的一种针对社交网络中安全社区的发现方法,其特征在于,所述步骤4中:步骤4a:根据步骤3中第二层数据集的账号特征矩阵作为训练集,依据账号是否从事网络安全领域,人工将训练用账号分为安全账号与无关两类;步骤4b:使用改进后的GBDT模型对训练集进行训练,其中训练数据集为,,...

【专利技术属性】
技术研发人员:黄诚曾雨潼杜予同余泓豪陈勇徐奕鑫
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1