一种非法内容识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26171485 阅读:35 留言:0更新日期:2020-10-31 13:44
本申请公开了一种非法内容识别方法、装置、电子设备及存储介质。非法内容识别方法,包括:根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集,所述蜜罐是基于用户感兴趣的网页内容生成的用于吸引用户访问的诱饵;获取所述目标样本用户集中各用户的待分析访问记录,对获取的待分析访问记录进行统计分析,确定出潜在非法网站;发送访问请求至确定出的潜在非法网站,根据潜在非法网站返回的响应数据,确定潜在非法网站是否包含非法内容。本申请实施例主动出击有效识别深网中隐藏的非法内容、确定高风险信息的直接来源或间接出处,降低了非法内容识别难度,为非法内容整治和网站风险防控提供了基础保障。

【技术实现步骤摘要】
一种非法内容识别方法、装置、电子设备及存储介质
本申请涉及网络
,具体涉及一种非法内容识别方法、装置、电子设备及存储介质。
技术介绍
在移动互联网时代,访问流量使免费网站有了经济收入,使得一些不法分子为了引流推广铤而走险:发布网络贷款广告、网络赌博平台入口、色情图片等非法内容。通常这些敏感、非法内容隐匿在深网(指互联网上那些不能被标准搜索引擎索引的非表面网络内容),搜索引擎和人工检索不到,识别难度大,整治和风险控制效果不佳。
技术实现思路
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的非法内容识别方法、装置、电子设备及存储介质。依据本申请的一个方面,提供了一种非法内容识别方法,包括:根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集,所述蜜罐是基于用户感兴趣的网页内容生成的用于吸引用户访问的诱饵;获取所述目标样本用户集中各用户的待分析访问记录,对获取的待分析访问记录进行统计分析,确定出潜在非法网站;发送访问请求至确定出的潜在非法网站,根据潜在非法网站返回的本文档来自技高网...

【技术保护点】
1.一种非法内容识别方法,其特征在于,包括:/n根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集,所述蜜罐是基于用户感兴趣的网页内容生成的用于吸引用户访问的诱饵;/n获取所述目标样本用户集中各用户的待分析访问记录,对获取的待分析访问记录进行统计分析,确定出潜在非法网站;/n发送访问请求至确定出的潜在非法网站,根据潜在非法网站返回的响应数据,确定潜在非法网站是否包含非法内容。/n

【技术特征摘要】
1.一种非法内容识别方法,其特征在于,包括:
根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集,所述蜜罐是基于用户感兴趣的网页内容生成的用于吸引用户访问的诱饵;
获取所述目标样本用户集中各用户的待分析访问记录,对获取的待分析访问记录进行统计分析,确定出潜在非法网站;
发送访问请求至确定出的潜在非法网站,根据潜在非法网站返回的响应数据,确定潜在非法网站是否包含非法内容。


2.如权利要求1所述的方法,其特征在于,所述根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集包括:
对用户访问蜜罐的当前蜜罐访问记录进行判断,
如果当前蜜罐访问记录对应的访问请求为爬虫或恶意请求,则将当前蜜罐访问记录确定为无效样本并删除。


3.如权利要求1所述的方法,其特征在于,所述根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集包括:
制作包含蜜罐的网页,将所述网页投放到网络,以吸引用户访问;
当所述网页被用户访问时,执行所述网页中预设的JS脚本,以访问所述蜜罐的目标URL,添加时间戳到目标URL并生成包含目标URL的蜜罐访问记录;
将访问同种目标URL的蜜罐访问记录聚合,得到目标样本用户集。


4.如权利要求3所述的方法,其特征在于,所述将所述网页投放到网络,以吸引用户访问包括:
创建文本文件robots.txt,在文本文件robots.txt中声明允许所述网页被搜索引擎爬取,以将所述网页混入搜索引擎的搜索结果中;
或者,按照预设投放时间段将所述网页以在线广告的形式投放到网络。


5.如权利要求1所述的方法,其特征在于,获取所述目标样本用户集中各用户的待分析访问记录,对获取的待分析访问记录进行统计分析,确定出潜在非法网站包括:
利用大数据批处理算法获取所述目标样本用户集中各用户的待分析访问记录;
对获取的待分析访...

【专利技术属性】
技术研发人员:韩睿李晓宇李明张伟东张月鹏王志慧
申请(专利权)人:北京神州泰岳智能数据技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1