一种网络信息安全监测预警方法技术

技术编号:34010593 阅读:26 留言:0更新日期:2022-07-02 14:29
本申请提供了一种网络信息安全监测预警方法,包括:在目标站点中获取待监测类别的网络信息;基于RoFormer

【技术实现步骤摘要】
一种网络信息安全监测预警方法


[0001]本申请涉及信息安全、网络监测及电子数据取证
,尤其是涉及一种网络信息安全监测预警方法。

技术介绍

[0002]暗网网站是活跃在暗网空间中的一类网站的统称,这类网站无法通过常规浏览器直接搜索访问,需使用特定的软件和服务来配置访问通道。暗网由于其具备的层层加密、无法溯源的特性,虽然在保护用户的隐私方面性能强大,但其开发的隐藏服务网站非常容易滋生以网络为勾联工具的各类违法犯罪。在暗网网站强匿名的前提下,如何有效地进行暗网内容分析并从中获取侦查线索便成了暗网研究的关键。针对暗网内容提取分析技术,国内外的很多学者都开展了深入研究。
[0003]当前的暗网分析研究内容中,大多基于分类、敏感词等对暗网中的敏感事件进行发现或进行暗网的学术性研究,并未考虑到暗网中由于其匿名、人人都可发布、刻意伪装等特性导致在暗网中大量包含虚假信息这一重要特点,而且在暗网中的敏感事件众多,如果不对消息的真实性进行评估和对重要性进行分析,则会导致大量警力资源浪费在虚假信息的侦查上。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种网络信息安全监测预警方法,对暗网中网络信息安全,例如,侵犯公民个人信息内容的真实性和重要性进行评估,筛选出真实有效的数据,侦查人员可根据实际情况设定预警分数阈值,确定侦查范围和侦查线索,极大提高了暗网数据分析的实战应用价值;可实现对暗网中侵犯公民个人信息犯罪的无监督监测预警,可以很大程度地节约警力、避免警力浪费在对于不必要信息的检索和侦查;还可实现对暗网侵犯公民个人信息犯罪的实时监测,可为犯罪防御及各类信息系统监管提供有效帮助。可扩展应用于其他类型的暗网犯罪信息的评估。
[0005]本申请实施例提供了一种网络信息安全监测预警方法,包括:
[0006]在目标站点中获取待监测类别的网络信息,其中,所述目标站点为暗网中文商城和暗网论坛;
[0007]在所述待监测类别的网络信息中提取所述网络信息的文本数据,对所述文本数据进行分词和整合处理;
[0008]基于RoFormer

Sim模型将整合处理后的文本数据生成文本向量,所述文本向量包含文本数据的语义内容;
[0009]根据所述文本向量对所述暗网中文商城内与所述语义内容相同和/或相似的商品信息进行聚类分析,得到所述待监测类别的网络信息的聚类中心;
[0010]基于所述聚类中心在所述暗网论坛中的文本数据进行相似度计算,得到文本相似度值;
[0011]根据所述聚类中心和所述文本相似度值对所述待监测类别的网络信息的安全状况完成评分。
[0012]可选的,所述方法,还包括:
[0013]在所述暗网中文商城中获取所述待监测类别的网络信息的交易数据;
[0014]基于所述交易数据、所述聚类中心和所述文本相似度值对所述待监测类别的网络信息的安全状况完成评分。
[0015]可选的,所述在目标站点中获取待监测类别的网络信息的步骤,包括:
[0016]通过Scrapy爬虫框架和Selenium框架对所述目标站点进行捕获、整理,得到所述待监测类别的网络信息。
[0017]可选的,所述在所述待监测类别的网络信息中提取所述网络信息的文本数据,对所述文本数据进行分词和整合处理的步骤,包括:
[0018]在所述待监测类别的网络信息中提取所述网络信息的文本数据;
[0019]对所述文本数据使用分词工具进行分词;
[0020]将分词后的文本数据按照预设停用词表去除停用词,所述预设停用词表为结合开源停用词表构建的暗网中文停用词表;
[0021]将去除停用词后的文本数据整合成句;
[0022]将完成整合的句连接预设标题,完成对所述文本数据进行分词和整合处理,所述预设标题对应所述待监测类别的网络信息。
[0023]可选的,所述根据所述文本向量对所述暗网中文商城内与所述语义内容相同和/或相似的商品信息进行聚类分析的步骤,包括:
[0024]采用K

Means聚类方法进行所述暗网中文商城内与所述语义内容相同和/或相似的商品信息的聚类分析,其中,K

Means算法的k值选取所述暗网中文商城内与所述语义内容相同和/或相似的商品信息的全部商品数量的15%作为类别数量。
[0025]可选的,在所述根据所述文本向量对所述暗网中文商城内与所述语义内容相同和/或相似的商品信息进行聚类分析,得到所述待监测类别的网络信息的聚类中心的步骤之前,还包括:
[0026]以聚类效果作为评价标准选取文本向量生成模型。
[0027]可选的,所述以聚类效果作为评价标准选取文本向量生成模型的步骤,包括:
[0028]采用K

Means聚类方法,在5000个样本中选取大量均匀分布的K值进行聚类,分别计算轮廓系数,基于轮廓系数的最大值与极差对文本向量生成模型进行初步评估。
[0029]可选的,所述基于所述聚类中心在所述暗网论坛中的文本数据进行相似度计算,得到文本相似度值的步骤,包括:
[0030]基于文本向量之间的空间距离来从所述暗网论坛中的文本数据中搜索与所述聚类中心相关内容;
[0031]针对所述暗网论坛中的文本数据的每一个单句,分别与所述聚类中心依次进行相似度计算,形成一对一的文本相似度值。
[0032]可选的,在所述根据所述聚类中心和所述文本相似度值对所述待监测类别的网络信息的安全状况完成评分的步骤之前,还包括:
[0033]将所述文本相似度值与预设阈值进行对比,得到满足所述预设阈值的文本相似度
值。
[0034]可选的,所述基于所述交易数据、所述聚类中心和所述文本相似度值对所述待监测类别的网络信息的安全状况完成评分的步骤,包括:
[0035]对所述交易数据、所述聚类中心和所述文本相似度值分别量化,分别赋予相应的权重进行整合,得到0至10分的预警评估分值。
[0036]为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0037]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0038]图1示出了本申请实施例所提供的一种网络信息安全监测预警方法的流程图;
[0039]图2示出了本申请实施例所提供的一种网络信息安全监测预警方法的功能实现流程图;
[0040]图3示出了本申请实施例所提供的一种网络信息安全监测预警方法的文本相似度搜索流程图。
[0041]图4示出了本申请实施例所提供的一种网络信息安全监测预警方法的监测界面样例。
具体实施方式
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络信息安全监测预警方法,其特征在于,包括:在目标站点中获取待监测类别的网络信息,其中,所述目标站点为暗网中文商城和暗网论坛;在所述待监测类别的网络信息中提取所述网络信息的文本数据,对所述文本数据进行分词和整合处理;基于RoFormer

Sim模型将整合处理后的文本数据生成文本向量,所述文本向量包含文本数据的语义内容;根据所述文本向量对所述暗网中文商城内与所述语义内容相同和/或相似的商品信息进行聚类分析,得到所述待监测类别的网络信息的聚类中心;基于所述聚类中心在所述暗网论坛中的文本数据进行相似度计算,得到文本相似度值;根据所述聚类中心和所述文本相似度值对所述待监测类别的网络信息的安全状况完成评分。2.根据权利要求1所述的网络信息安全监测预警方法,其特征在于,所述方法,还包括:在所述暗网中文商城中获取所述待监测类别的网络信息的交易数据;基于所述交易数据、所述聚类中心和所述文本相似度值对所述待监测类别的网络信息的安全状况完成评分。3.根据权利要求1所述的网络信息安全监测预警方法,其特征在于,所述在目标站点中获取待监测类别的网络信息的步骤,包括:通过Scrapy爬虫框架和Selenium框架对所述目标站点进行捕获、整理,得到所述待监测类别的网络信息。4.根据权利要求1所述的网络信息安全监测预警方法,其特征在于,所述在待监测类别的网络信息中提取所述网络信息的文本数据,对所述文本数据进行分词和整合处理的步骤,包括:在所述待监测类别的网络信息中提取所述网络信息的文本数据;对所述文本数据使用分词工具进行分词;将分词后的文本数据按照预设停用词表去除停用词,所述预设停用词表为结合开源停用词表构建的暗网中文停用词表;将去除停用词后的文本数据整合成句;将完成整合的句连接预设标题,完成对所述文本数据进行分词和整合处理,所述预设标题对应所述待监测类别的网络信息。5.根据权利要求4所述的网络信息安全监测预警方法,其特征在于,所述根据文本向量对所述暗网中文商城内与所述语义内容相同和/或相似的商品信息进行聚类分...

【专利技术属性】
技术研发人员:汤艳君刘丛睿王子祎明泰龙
申请(专利权)人:中国刑事警察学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1