一种基于大数据的涉网犯罪情报获取智能分析系统及方法技术方案

技术编号:39859353 阅读:5 留言:0更新日期:2023-12-30 12:54
本发明专利技术公开了一种基于大数据的涉网犯罪情报获取智能分析系统及方法,属于涉网犯罪情报分析技术领域

【技术实现步骤摘要】
一种基于大数据的涉网犯罪情报获取智能分析系统及方法


[0001]本专利技术涉及涉网犯罪情报分析
,具体为一种基于大数据的涉网犯罪情报获取智能分析系统及方法


技术介绍

[0002]近些年,随着网络的不断发展,人们上网浏览信息成为日常,各种各样的网络信息不断地涌入人们的视线中,但随之而来的越来越多的弹窗影响了用户的浏览体验

[0003]现如今的网络弹窗的呈现出内容虚假低俗

推送频繁

不易关闭等特点,干扰了大众的正常浏览,虚假内容甚至造成用户的金钱损失,并且相当一部分在浏览器已经设置禁止弹窗的前提下仍然会出现

在这其中以“赌博”等字眼出现的弹窗不在少数

[0004]目前虽然有针对恶意弹窗的举报手段如拨打举报电话,发送举报短信等,但效率不高,且对内容的检测需要大量的时间


技术实现思路

[0005]本专利技术的目的在于提供一种基于大数据的涉网犯罪情报获取智能分析系统及方法,以解决上述
技术介绍
中提出的问题

[0006]为了解决上述技术问题,本专利技术提供如下技术方案:
[0007]一种基于大数据的涉网犯罪情报获取智能分析系统,其特征在于:该系统包括数据采集模块

数据分类模块

数据分析模块

数据发送模块;
[0008]所述数据采集模块连接数据分类模块输入端;所述数据分类模块连接数据分析模块输入端;所述数据分析模块连接数数据发送模块输入端;
[0009]所述数据采集模块用于采集各项网站数据;数据分类模块用于根据采集的网站数据的举报量分为不同的优先级处理等级;数据分析模块用于对不同优先级处理的网站数据分别进行文字和图片的分析计算,验证数据的真实性;数据发送模块用于将计算后的数据与阈值进行对比,设置大于等于阈值和小于阈值的分组,并针对不同分组将数据发送至自动处理平台或发送至人工处理进行验证

[0010]根据上述技术方案,所述数据采集模块包括开设网站服务平台,所述网站服务平台用于针对违法不良弹窗创建民众反馈窗口,所述民众反馈窗口用于获取民众反馈数据;抓取民众反馈数据中不同的关键词和网站类型,设置关键词和网站类型出现频率阈值,当关键词和网站类型出现频率超出关键词和网站类型出现频率阈值时,标记该关键词和该网站类型,并根据关键词和网站类型出现频率排序;将所有收集到的数据进行分组归纳

[0011]根据上述技术方案,所述数据分类模块包括三种分类方式,所述三种分类方式包括优先级
A


优先级
B


优先级
C
级;所述优先级
A
级为网站类型及所提关键词都处于总举报量的
f
以上;所述优先级
B
级为网站类型及所提关键词都处于总举报量的
[e,f];所述优先级
C
级为其余数据;其中
e,f
为百分比

[0012]根据上述技术方案,所述数据分析模块包括数据库

识别单元

检测单元

算法函
数单元;所述数据库用于对数据的存储

查阅和调用;所述识别单元用于对数据库中文字及图像进行识别;所述检测单元用于使用
web
自动登陆网页并截图,识别网页中文字及图像,并进行文字识别输出以及图像
hash
值计算;所述算法函数单元生成的函数模型为涉网情报分析函数模型,用于数据与原有数据库内容进行对比,分析网页数据中数据库数据所占比重

[0013]根据上述技术方案,所述文字识别执行以下步骤:
[0014]S2

1、
采集关键字组合,所述关键字组合记为
{x1、x2、

、x
n
}
;对
x1、x2、

、x
n
中关键字的单字进行调用,将每个单字进行像素分析,每一个像素点的值都由其本身和领域内的其他像素值经过加权平均得到,对每一个单字进行像素点的识别,得到每一个单字对应的像素点矩阵,最终生成一个以中间像素值为中心的3×3的矩阵;记录每个单字所对应的像素点矩阵,数据组计数为集合
A

[0015]S2

2、
输入与非法赌博有关的图片元素,所述图片元素组合记为
{y1,、y2、

、y
n
}
;利用均值
hash
算法,通过缩小尺寸,将图像缩小到
8*8
大小,将图像灰度级减小到
64
级并计算平均灰度值,用
8*8
图像大小的每一个像素灰度值与均值进行比较,大于均值的为1,小于的为0,将得到的结果排列成一个
64
位的向量,将每张图片及对应的
64
位向量记录在数据库中,数据组计数为
{Z1,Z2,

Z
N
}。
[0016]由算法函数单元生成的函数模型为涉网情报分析函数模型,其中包含以下步骤:
[0017]S4

1、
调取检测单元的网站截图,将网页文字通过
S2
‑1的步骤进行对单字的识别输出,数据计数为集合
M

[0018]S4

2、
调取检测单元的网站截图,将网页图片经过
S2
‑2相同步骤进行对图片的识别输出,将数据计数
{H1,H2,

H
N
}

[0019]S4

3、
分别对不同指令下的各组数据计算网页内容与数据库重合率,设数据重合率阈值为常数
F
,当数据超过重合率阈值时标志着该网站存在恶意非法弹窗的几率更大;当数据低于重合率阈值时标志着该网站存在恶意非法弹窗的几率较小,因此为节约时间成本以及操作成本,在计算时只计算优先级
A
级和优先级
B
级的数据,公式如下:
[0020][0021]其中,
p0为数据库中文字与网页中的文字的重合率,
A
为数据库文字集合;
M
为网页文字集合;
E1(A∩M)
代表两个集合
A、M
交集后生成集合内的元素数量;
E0(A∪M)
代表两个集合
A、M
并集后生成集合内的元素数量;
[0022]将数据库中图片的
64
位向量与网页中图片的
64
位向量自动进行汉明距本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于大数据的涉网犯罪情报获取智能分析系统,其特征在于:该系统包括数据采集模块

数据分类模块

数据分析模块

数据发送模块;所述数据采集模块连接数据分类模块输入端;所述数据分类模块连接数据分析模块输入端;所述数据分析模块连接数据发送模块输入端;所述数据采集模块用于采集各项网站数据;数据分类模块用于根据采集的网站数据的举报量分为不同的优先级处理等级;数据分析模块用于对不同优先级处理的网站数据分别进行文字和图片的分析计算,验证数据的真实性;数据发送模块用于将计算后的数据与阈值进行对比,设置大于等于阈值和小于阈值的分组,并针对不同分组将数据发送至自动处理平台或发送至人工处理进行验证
。2.
根据权利要求1所述的一种基于大数据的涉网犯罪情报获取智能分析系统,其特征在于:所述数据采集模块包括开设网站服务平台,所述网站服务平台用于创建民众反馈窗口,所述民众反馈窗口用于获取民众反馈数据;抓取民众反馈数据中不同的关键词和网站类型,设置关键词和网站类型出现频率阈值,当关键词和网站类型出现频率超出关键词和网站类型出现频率阈值时,标记该关键词和该网站类型,并根据关键词和网站类型出现频率排序;将收集到的数据进行分组归纳
。3.
根据权利要求1所述的一种基于大数据的涉网犯罪情报获取智能分析系统,其特征在于:所述数据分类模块包括三种分类方式,所述三种分类方式包括优先级
A


优先级
B


优先级
C
级;所述优先级
A
级为网站类型及所提关键词都处于总举报量的
f
以上;所述优先级
B
级为网站类型及所提关键词都处于总举报量的
[e,f]
;所述优先级
C
级为其余数据;其中
e,f
为百分比
。4.
根据权利要求3所述的一种基于大数据的涉网犯罪情报获取智能分析系统,其特征在于:所述数据分析模块包括数据库

识别单元

检测单元

算法函数单元;所述数据库用于对数据的存储

查阅和调用;所述识别单元用于对数据库中文字及图像进行识别;所述检测单元用于使用
web
自动登陆网页并截图,识别网页中文字及图像,并进行文字识别输出以及图像
hash
值计算;所述算法函数单元生成的函数模型为涉网情报分析函数模型,用于数据与原有数据库内容进行对比,分析网页数据中数据库数据所占比重
。5.
根据权利要求4所述的一种基于大数据的涉网犯罪情报获取智能分析系统,其特征在于:所述文字识别执行以下步骤:
S2

1、
采集关键字组合,所述关键字组合记为
{x1、x2、

、x
n
}
;对
x1、x2、

、x
n
中关键字的单字进行调用,将每个单字进行像素分析,每一个像素点的值都由其本身和领域内的其他像素值经过加权平均得到,对每一个单字进行像素点的识别,得到每一个单字对应的像素点矩阵,最终生成一个以中间像素值为中心的3×3的矩阵;记录每个单字所对应的像素点矩阵,数据组计数为集合
A

S2

2、
输入与非法赌博有关的图片元素,所述图片元素组合记为
{y1,、y2、

、y
n
}
;利用均值
hash
算法,通过缩小尺寸,将图像缩小到
8*8
大小,将图像灰度级减小到
64
级并计算平均灰度值,用
8*8
图像大小的每一个像素灰度值与均值进行比较,大于均值的为1,小于的为0,将得到的结果排列成一个
64
位的向量,将每张图片及对应的
64
位向量记录在数据库中,数据组计数为
{Z1,Z2,

Z
N
}。6.
根据权利要求4所述的一种基于大数据的涉网犯罪情报...

【专利技术属性】
技术研发人员:曾巧贺强熊倩王学春李太福张志亮段棠少苏家豪何雨欣
申请(专利权)人:浙江文正科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1