一种面向社交网络的安全社区发现方法技术

技术编号：35829190 阅读：29 留言：0更新日期：2022-12-03 13:57

一种面向社交网络的安全社区发现方法，包括：手动筛选社交网络上所关注网络安全领域的特定安全人员账号作为种子账号；采集种子账号的关联账号构成自我网络中的账号数据作为第一层数据集；对数据集中的文本数据进行预处理以及账号特征的提取，得到第二层数据集；判别账号是否属于安全账号，剔除非安全人员账号更新得到第三层数据集；以账号间的双向关系构建拓扑图并剪枝，得到包含网络结构的第四层数据集；进行局部网络的扩展，得到包含完整局部网络的第五层数据集；第五层数据集作为输入，利用社区发现模型进行安全社区的划分。本发明专利技术属于网络安全领域，能够从海量社交网络数据中准确且快速挖掘安全人员组成的社区。确且快速挖掘安全人员组成的社区。确且快速挖掘安全人员组成的社区。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向社交网络的安全社区发现方法

[0001]本专利技术属于网络安全领域，具体设计一种面向社交网络中安全社区的发现方法。

技术介绍

[0002]在当今的网络格局中，对高级攻击或漏洞利用的防范手段日益困难。攻击者拥有大量的资金、精湛的技术和丰富的经验，他们不仅仅提高自身的攻击技术，还善于找到包括管理、人员等企业防护的薄弱环节。面对如此复杂的网络攻防现状，一种应对网络攻击的方式是关注社交网络中活跃的安全社区，并对其进行监视和了解，挖掘其内部生态的同时并对网络安全事件进行启发式地识别。社交网络逐渐成为人们进行日常社交活动不可或缺的一部分，其也吸引了大量活跃的黑客。
[0003]社交网络的数据规模庞大，涉及各行各业的用户，网络安全领域相关的账号仅占社交网络的少部分，而对安全社区这一结构化的数据进行发现则更为困难。通过人工手动分析社交网络上的黑客社区需要大量的时间以及专业背景，因此需要提出一种方法或工具对社交网络账号数据进行自动化的分析，发现其中隐藏的黑客社区。
[0004]目前研究社区发现的方法大致分为三类：传统方...

【技术保护点】

【技术特征摘要】
1.一种针对社交网络中安全社区的发现方法，该方法以发现社交网络中安全人员组成的社区为核心，识别社交网络上网络安全领域账号并挖掘其间的社交关系，其特征在于，所述方法包括：步骤1：手动筛选社交网络上所关注网络安全领域的特定安全人员账号作为种子账号；步骤2：利用单个种子账号的关联信息缩小采样范围，依据种子账号的关联账号构成自我网络，同时对自我网络中的账号数据进行采集作为第一层数据集；步骤3：对第一层数据集中所有账号的文本数据进行预处理后，提取所有账号特征，得到包含所有账号的特征矩阵作为第二层数据集；步骤4：使用基于改进后的GBDT模型对第二层数据集中的账号进行判别，剔除非安全人员账号，更新得到仅包含安全人员账号数据的第三层数据集；步骤5：依据步骤4得到的第三层数据集中的安全人员账号作为节点，节点间的双向关注关系构建初始社交拓扑图，从不同的角度对网络结构间的关联进行建模，以此作为策略依据对边关系进行剪枝，得到包含初始社交拓扑图的第四层数据集；步骤6：选取步骤5生成的第四层数据集进行局部网络的扩展，以度中心性作为基准选取候选迭代节点，得到包含完整局部网络结构的第五层数据集；步骤7：根据第五层数据集中的节点特征矩阵和邻接矩阵，基于图神经网络构建下游的重叠社区发现任务，完成对安全社区的划分。2.根据权利要求1所述的一种针对社交网络中安全社区的发现方法，其特征在于，所述步骤1中：步骤1a：手动筛选社交网络上所关注网络安全领域的特定安全人员账号，方法包括：(1) 基于粉丝量并观察账号内容是否包含网络安全热点事件或主题，收集满足要求的社交网络账号；(2) 基于网络安全领域机构查找相应的社交网络账号，并收集账号；(3) 基于关键词查找该领域的影响力较高的文本内容，并收集所属账号。3.根据权利要求1所述的一种针对社交网络中安全社区的发现方法，其特征在于，所述步骤2中：步骤2a：利用单个种子账号的关联信息缩小采样范围，通过网络爬虫和开发者接口采集该种子账号的个人资料和文本数据；步骤2b：统计个人资料中与种子账号具备关注关系以及在文本数据中产生交互行为的关联账号集合，构成自我网络，并对其中的账号进行去重；步骤2c：再次利用网络爬虫与开发者接口进行关联账号的个人资料与文本数据采集，完成第一层数据集的获取。4.根据权利要求1所述的一种针对社交网络中安全社区的发现方法，其特征在于，所述步骤3中：步骤3a：将所有的文本数据翻译为英文，便于后续的统一预处理；步骤3b：从收集到的账号文本数据中去除非ASCII字符、标点符号和停用词；步骤3c：将文本中所有单词中的大写字母全部由小写字母替换，并使用NLTK进行词形还原；步骤3d：使用特征工程方法对第一层数据集中的账号从如下四个角度生成特征：
资料特征：账号名特征、账号社交特征、账号设置特征；行为特征：账号发文特征、发文来源特征；文本特征：文本可读性、关键词特征；时序特征：发文时序特征；步骤3e：得到包含账号预处理数据及节点特征矩阵的第二层数据集。5.根据权利要求1所述的一种针对社交网络中安全社区的发现方法，其特征在于，所述步骤4中：步骤4a：根据步骤3中第二层数据集的账号特征矩阵作为训练集，依据账号是否从事网络安全领域，人工将训练用账号分为安全账号与无关两类；步骤4b：使用改进后的GBDT模型对训练集进行训练，其中训练数据集为，，...

【专利技术属性】
技术研发人员：黄诚，曾雨潼，杜予同，余泓豪，陈勇，徐奕鑫，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人