一种非法内容识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26171485 阅读:20 留言:0更新日期:2020-10-31 13:44
本申请公开了一种非法内容识别方法、装置、电子设备及存储介质。非法内容识别方法,包括:根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集,所述蜜罐是基于用户感兴趣的网页内容生成的用于吸引用户访问的诱饵;获取所述目标样本用户集中各用户的待分析访问记录,对获取的待分析访问记录进行统计分析,确定出潜在非法网站;发送访问请求至确定出的潜在非法网站,根据潜在非法网站返回的响应数据,确定潜在非法网站是否包含非法内容。本申请实施例主动出击有效识别深网中隐藏的非法内容、确定高风险信息的直接来源或间接出处,降低了非法内容识别难度,为非法内容整治和网站风险防控提供了基础保障。

【技术实现步骤摘要】
一种非法内容识别方法、装置、电子设备及存储介质
本申请涉及网络
,具体涉及一种非法内容识别方法、装置、电子设备及存储介质。
技术介绍
在移动互联网时代,访问流量使免费网站有了经济收入,使得一些不法分子为了引流推广铤而走险:发布网络贷款广告、网络赌博平台入口、色情图片等非法内容。通常这些敏感、非法内容隐匿在深网(指互联网上那些不能被标准搜索引擎索引的非表面网络内容),搜索引擎和人工检索不到,识别难度大,整治和风险控制效果不佳。
技术实现思路
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的非法内容识别方法、装置、电子设备及存储介质。依据本申请的一个方面,提供了一种非法内容识别方法,包括:根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集,所述蜜罐是基于用户感兴趣的网页内容生成的用于吸引用户访问的诱饵;获取所述目标样本用户集中各用户的待分析访问记录,对获取的待分析访问记录进行统计分析,确定出潜在非法网站;发送访问请求至确定出的潜在非法网站,根据潜在非法网站返回的响应数据,确定潜在非法网站是否包含非法内容。依据本申请的另一方面,提供了一种非法内容识别装置,包括:样本单元,用于根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集,所述蜜罐是基于用户感兴趣的网页内容生成的用于吸引用户访问的诱饵;统计分析单元,用于获取所述目标样本用户集中各用户的待分析访问记录,对获取的待分析访问记录进行统计分析,确定出潜在非法网站;r>识别单元,用于发送访问请求至确定出的潜在非法网站,根据潜在非法网站返回的响应数据,确定潜在非法网站是否包含非法内容。依据本申请的又一方面,提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上述所述的方法。依据本申请的再一方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一所述的方法。由上述可知,本申请的技术方案,根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集,这里的蜜罐是依据用户感兴趣的网页内容生成的诱饵,其目的是诱导用户访问从而获取用户的访问记录。在得到目标样本用户集之后,根据其中各用户的待分析访问记录,进行统计分析,确定出潜在的非法网站;发送访问请求至潜在的非法网站,依据潜在的非法网站返回的响应数据,确定潜在非法网站是否包含非法内容。从而主动出击有效识别深网中的非法内容,找到高风险信息的直接来源或间接出处,提高了非法内容识别效率,为非法内容整治和网站风险防控提供了基础保障。此外,本申请实施例不需要大量专业人员去处理举报投诉,人力成本低廉。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本申请一个实施例的非法内容识别方法的流程示意图;图2示出了根据本申请一个实施例的目标样本用户集的形成过程示意图;图3示出了根据本申请一个实施例的潜在非法网站的确定流程示意图;图4示出了根据本申请一个实施例的对潜在非法网站的审核确认流程示意图;图5示出了根据本申请一个实施例的非法内容识别装置的框图;图6示出了根据本申请一个实施例的电子设备的结构示意图;图7示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。具体实施方式下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。针对不法分子为了引流推广在网站发布网贷广告、色情图片等敏感甚至非法内容,传统的识别整治方案主要有:1.举报受理。在网站上提供投诉通道,如果用户在某网站进行投诉,则实时进行审查,人工屏蔽。2.风险控制部门集中处理。由风险控制部门对违规域名和违法违规敏感信息进行查找、整治。3.搜索引擎统一爬取。由搜索引擎过滤敏感词汇与风险内容,避免非法内容被普通用户搜索到。以上几种方案的历史实践都暴露出一些问题:比如,举报受理需要人工审查,从人员上看成本相当巨大、且专业人员有数量缺口。风险控制部门集中处理方案也无法完全自动化,只能通过经验来小规模发布策略,效果不理想。而搜索引擎的方案则只能被动处理违规内容,也就是说,如果搜索引擎没有抓取到的网站无法进行拦截等处理。此外,拦截与上报都有时滞,时效性较差。对此,本申请实施例提供了基于大数据的非法内容识别方案:将频繁访问非法内容的用户设备予以聚合,形成目标样本客群。这些用户访问互联网时往往带有倾向性,比如访问过非法内容网站的人往往会再次访问其他涉政网站,在网络上浏览色情图片的人看到相似的内容会再次点击等等。利用样本的这一特性,通过统计样本的访问记录,主动出击找出非法内容(这些内容往往隐匿在深网,搜索引擎和人工无法检索到),并做出相应处理,从而提供了一种主动识别非法内容的方案,降低了非法内容识别的难度以及人力成本,大大方便了非法内容整治以及网站风险控制。为便于理解,这里先对本申请实施例的一些技术名词进行解释说明。URL:UniformResourceLocator,统一资源定位符。比如www.baidu.com/q=xxx就是一个URL,用于唯一标识网络上的资源。域名:由一串用点号分隔的名字组成的互联网上某一台计算机或计算机组的名称,用于在数据传输时对计算机的定位标识(有时也指地理位置)。对于前述的URL,www.baidu.com就是它的域名。访问记录(或称,访问日志):用户在上网、使用手机上网等过程中会产生大量的访问记录,记录中包括URL、域名等资源信息。蜜罐:预先布置的具有诱饵性质的标题、图片等网页内容吸引感兴趣的访客进行访问,蜜罐的内容不是真正的非法内容,而是以标题党、擦边球等间接方式伪装网页内容吸引客群。访问过蜜罐的IP(InternetProtocol,网际互连协议)或设备会被贴上“鱼腥”标识。“鱼腥”:任意设备访问过蜜罐后,则会产生包括蜜罐URL的访问记录,并被聚合在大数据内。由于URL的唯一确定性,这条带着URL的访问记录就是“鱼腥”。通过“鱼腥”,可以快速标识出哪些设备是访问过蜜罐的,哪些设备是没有访问过蜜罐的。图1示出了根据本申请一个实施例的非法内容识别方法的流程示意图,参见图1,非法内容识别方法包括下列步骤:步骤S110,根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集,所述蜜罐是基于用户感兴趣的网页内容生成的用于吸引用户访问的诱饵。本申请实施例有目本文档来自技高网...

【技术保护点】
1.一种非法内容识别方法,其特征在于,包括:/n根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集,所述蜜罐是基于用户感兴趣的网页内容生成的用于吸引用户访问的诱饵;/n获取所述目标样本用户集中各用户的待分析访问记录,对获取的待分析访问记录进行统计分析,确定出潜在非法网站;/n发送访问请求至确定出的潜在非法网站,根据潜在非法网站返回的响应数据,确定潜在非法网站是否包含非法内容。/n

【技术特征摘要】
1.一种非法内容识别方法,其特征在于,包括:
根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集,所述蜜罐是基于用户感兴趣的网页内容生成的用于吸引用户访问的诱饵;
获取所述目标样本用户集中各用户的待分析访问记录,对获取的待分析访问记录进行统计分析,确定出潜在非法网站;
发送访问请求至确定出的潜在非法网站,根据潜在非法网站返回的响应数据,确定潜在非法网站是否包含非法内容。


2.如权利要求1所述的方法,其特征在于,所述根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集包括:
对用户访问蜜罐的当前蜜罐访问记录进行判断,
如果当前蜜罐访问记录对应的访问请求为爬虫或恶意请求,则将当前蜜罐访问记录确定为无效样本并删除。


3.如权利要求1所述的方法,其特征在于,所述根据用户访问蜜罐的蜜罐访问记录,得到目标样本用户集包括:
制作包含蜜罐的网页,将所述网页投放到网络,以吸引用户访问;
当所述网页被用户访问时,执行所述网页中预设的JS脚本,以访问所述蜜罐的目标URL,添加时间戳到目标URL并生成包含目标URL的蜜罐访问记录;
将访问同种目标URL的蜜罐访问记录聚合,得到目标样本用户集。


4.如权利要求3所述的方法,其特征在于,所述将所述网页投放到网络,以吸引用户访问包括:
创建文本文件robots.txt,在文本文件robots.txt中声明允许所述网页被搜索引擎爬取,以将所述网页混入搜索引擎的搜索结果中;
或者,按照预设投放时间段将所述网页以在线广告的形式投放到网络。


5.如权利要求1所述的方法,其特征在于,获取所述目标样本用户集中各用户的待分析访问记录,对获取的待分析访问记录进行统计分析,确定出潜在非法网站包括:
利用大数据批处理算法获取所述目标样本用户集中各用户的待分析访问记录;
对获取的待分析访...

【专利技术属性】
技术研发人员:韩睿李晓宇李明张伟东张月鹏王志慧
申请(专利权)人:北京神州泰岳智能数据技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1