一种基于网络特征的暗网站点用户关联方法及装置制造方法及图纸

技术编号:32634551 阅读:12 留言:0更新日期:2022-03-12 18:09
本发明专利技术提供一种基于网络特征的暗网站点用户关联方法及装置,所述方法包括如下步骤:S10,采用pattern匹配提取暗网中的网络特征;S20,根据提取的网络特征通过聚类实现暗网用户关联。本发明专利技术通过网络特征提取以及基于网络特征聚类的用户关联,可精准识别具备关联关系的暗网用户,并且关联方式简单,关联准确率高。从而能够可有效发现暗网中的关联信息,为暗网数据追踪溯源、暗网数据监控、暗网数据治理提供有力的技术支撑。供有力的技术支撑。供有力的技术支撑。

【技术实现步骤摘要】
一种基于网络特征的暗网站点用户关联方法及装置


[0001]本专利技术涉及暗网中用户关联技术的
,具体而言,涉及一种基于网络特征的暗网站点用户关联方法及装置。

技术介绍

[0002]目前暗网存在用户量少,数据稀疏的问题,尤其是用户社交网络特征和用户属性信息比较少,直接通过用户画像、社交网络特征对齐等方式实现用户关联效果较差。
[0003]暗网站点用户量少,数据稀疏,无法直接利用明网中的用户关联方法实现暗网用户关联,目前也没有通用的暗网用户关联方法;

技术实现思路

[0004]本专利技术旨在提供一种基于网络特征的暗网站点用户关联方法及装置,以解决由于暗网站点用户量少,数据稀疏导致无法直接利用明网中的用户关联方法实现暗网用户关联,从而缺少通用的暗网用户关联方法的问题。
[0005]本专利技术提供的一种基于网络特征的暗网站点用户关联方法,包括如下步骤:
[0006]S10,采用pattern匹配提取暗网中的网络特征;
[0007]S20,根据提取的网络特征通过聚类实现暗网用户关联。
[0008]进一步的,步骤S10包括如下子步骤:
[0009]S11,采集数据:采集暗网中包含联系方式的文本信息;
[0010]S12,文本清洗:对采集的文本信息进行文本清洗,去除文本信息中的异常字符;
[0011]S13,pattern匹配:根据各平台的账号模式定义正则表达式,根据定义的正则表达式从文本清洗后的文本信息中提取符合该正则表达式的子串;
[0012]S14,联系方式抽取:根据子串的左侧文本内容判断该子串是否为联系方式;
[0013]S15,联系方式过滤:对于是联系方式的子串,根据子串的左侧文本内容和右侧文本内容对错误联系方式进行过滤,过滤后的子串即为提取的网络特征。
[0014]进一步的,步骤S20包括如下子步骤:
[0015]S21,根据提取的网络特征对用户进行聚类:针对每个网络特征聚类出包含该网络特征的所有用户,最终得到形式为{“网络特征类型”,“网络特征内容”,“网络特征用户聚类结果”}的结构列表;
[0016]S22,用户关联:针对结构列表中的“网络特征用户聚类结果”中包含的用户具备两两关联关系,构建用户关联结果。
[0017]本专利技术提供的一种基于网络特征的暗网站点用户关联装置,包括:
[0018]网络特征提取单元,用于采用pattern匹配提取暗网中的网络特征;
[0019]用户关联处理单元,根据提取的网络特征通过聚类实现暗网用户关联。
[0020]进一步的,所述网络特征提取单元包括:
[0021]采集数据模块,用于采集暗网中包含联系方式的文本信息;
[0022]文本清洗模块,对采集的文本信息进行文本清洗,去除文本信息中的异常字符;
[0023]pattern匹配模块,用于根据各平台的账号模式定义正则表达式,根据定义的正则表达式从文本清洗后的文本信息中提取符合该正则表达式的子串;
[0024]联系方式抽取模块,根据子串的左侧文本内容判断该子串是否为联系方式;
[0025]联系方式过滤模块,对于是联系方式的子串,根据子串的左侧文本内容和右侧文本内容对错误联系方式进行过滤,过滤后的子串即为提取的网络特征。
[0026]进一步的,所述用户关联处理单元包括:
[0027]用户聚类模块,用于针对每个网络特征聚类出包含该网络特征的所有用户,最终得到形式为{“网络特征类型”,“网络特征内容”,“网络特征用户聚类结果”}的结构列表;
[0028]用户关联模块,用于针对结构列表中的“网络特征用户聚类结果”中包含的用户具备两两关联关系,构建用户关联结果。
[0029]综上所述,由于采用了上述技术方案,本专利技术的有益效果是:
[0030]本专利技术通过网络特征提取以及基于网络特征聚类的用户关联,可精准识别具备关联关系的暗网用户,并且关联方式简单,关联准确率高。从而能够可有效发现暗网中的关联信息,为暗网数据追踪溯源、暗网数据监控、暗网数据治理提供有力的技术支撑。
附图说明
[0031]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0032]图1为本专利技术实施例1的基于网络特征的暗网站点用户关联方法的原理框图。
[0033]图2为本专利技术实施例1的基于网络特征的暗网站点用户关联方法中采用pattern匹配提取暗网中的网络特征的流程图。
[0034]图3为本专利技术实施例1的基于网络特征的暗网站点用户关联方法中根据提取的网络特征通过聚类实现暗网用户关联的流程图。
[0035]图4为本专利技术实施例2的基于网络特征的暗网站点用户关联装置的结构框图。
具体实施方式
[0036]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。
[0037]因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0038]实施例1
[0039]如图1所示,本实施例提出一种基于网络特征的暗网站点用户关联方法,该用户关
联方法包含两步,一是网络特征抽取,二是基于网络特征的暗网用户关联。网络特征抽取通过pattern匹配抽取贴文中的联系方式特征,包含telegram、微信、qq、wickr、whatsapp、potato等账号;基于网络特征的暗网用户关联则是通过抽取到的网络特征实现贴文之间的关联,再进一步构建贴文发布者之间的关联,从而实现暗网用户的关联。所述基于网络特征的暗网站点用户关联方法可精准识别具备关联关系的暗网用户,关联方式简单,关联准确率高。具体地,所述基于网络特征的暗网站点用户关联方法包括如下步骤:
[0040]S10,采用pattern匹配提取暗网中的网络特征;
[0041]如图2所示,步骤S10包括如下子步骤:
[0042]S11,采集数据:采集暗网中包含联系方式的文本信息;
[0043]S12,文本清洗:对采集的文本信息进行文本清洗,去除文本信息中的异常字符;
[0044]S13,pattern匹配:根据各平台(如QQ、微信、whatsapp、telegram、batchat、wickr、potato、email)的账号模式定义正则表达式(例如QQ的正则表达式为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于网络特征的暗网站点用户关联方法,其特征在于,包括如下步骤:S10,采用pattern匹配提取暗网中的网络特征;S20,根据提取的网络特征通过聚类实现暗网用户关联。2.根据权利要求1所述的基于网络特征的暗网站点用户关联方法,其特征在于,步骤S10包括如下子步骤:S11,采集数据:采集暗网中包含联系方式的文本信息;S12,文本清洗:对采集的文本信息进行文本清洗,去除文本信息中的异常字符;S13,pattern匹配:根据各平台的账号模式定义正则表达式,根据定义的正则表达式从文本清洗后的文本信息中提取符合该正则表达式的子串;S14,联系方式抽取:根据子串的左侧文本内容判断该子串是否为联系方式;S15,联系方式过滤:对于是联系方式的子串,根据子串的左侧文本内容和右侧文本内容对错误联系方式进行过滤,过滤后的子串即为提取的网络特征。3.根据权利要求2所述的基于网络特征的暗网站点用户关联方法,其特征在于,步骤S20包括如下子步骤:S21,根据提取的网络特征对用户进行聚类:针对每个网络特征聚类出包含该网络特征的所有用户,最终得到形式为{“网络特征类型”,“网络特征内容”,“网络特征用户聚类结果”}的结构列表;S22,用户关联:针对结构列表中的“网络特征用户聚类结果”中包含的用户具备两两关联关系,构建用户关联结...

【专利技术属性】
技术研发人员:丁建伟刘志洁李航陈周国
申请(专利权)人:中国电子科技集团公司第三十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1