一种带有初次筛选功能的数据过滤挖掘方法技术

技术编号:21399213 阅读:27 留言:0更新日期:2019-06-19 07:03
本发明专利技术公开了一种带有初次筛选功能的数据过滤挖掘方法,涉及数据安全技术领域,其包括以下步骤:先建立敏感字词数据库特征码;然后计算出该用户访问网页时的数据特征码;然后将用户访问的网页数据特征码与敏感字词数据库特征码进行对比,然后当步骤三中获取与所述敏感字词数据库特征码相同的所述用户访问的网页数据特征码的数量达到设定的阈值时,可以判定所述用户访问的数据为敏感数据;最后当判定所述用户访问的网页数据特征码是敏感数据时,则将所述用户访问的网页数据特征码内的敏感字词进行过滤并打码。本发明专利技术通过建立敏感字词数据库特征码,并对用户的上网行为进行实时监控,解决了色情网站无法过滤的缺陷,达到绿色上网的目的。

【技术实现步骤摘要】
一种带有初次筛选功能的数据过滤挖掘方法
本专利技术涉及数据安全
,具体为一种带有初次筛选功能的数据过滤挖掘方法。
技术介绍
国际标准化组织(ISO)对计算机系统安全的定义是:为数据处理系统建立和采用的技术和管理的安全保护,保护计算机硬件、软件和数据不因偶然和恶意的原因遭到破坏、更改和泄露。由此计算机网络的安全可以理解为:通过采用各种技术和管理措施,使网络系统正常运行,从而确保网络数据的可用性、完整性和保密性。所以,建立网络安全保护措施的目的是确保经过网络传输和交换的数据不会发生增加、修改、丢失和泄露等。随着计算机的普及,人们做到了足不出户了知天下事,这体现了网络带给我的便利性,但是,网络是把双刃剑,有利也有弊,网络造就了许多的成功人士,同样也毁害了许多人,特别是青少年,在浏览网络时难免因为好奇心浏览一些色情网站,从而一发不可收拾,沉迷在色情网络内,为了营造一个良好的网络环境,现如今急需一种带有初次筛选功能的数据过滤挖掘方法。
技术实现思路
针对现有技术的不足,本专利技术提供了一种带有初次筛选功能的数据过滤挖掘方法,以解决色情网站无法过滤的缺陷。为达到以上目的,本专利技术采取的技术方案是:一种带有初次筛选功能的数据过滤挖掘方法,包括以下步骤:步骤一:从字词数据库中计算敏感字词数据库特征码,并建立敏感字词数据库特征码;步骤二:监控用户访问网页的行为,当监控到用户访问网页时的行为后,按照步骤一所述的计算用户访问网页数据的特征码的方法,计算出该用户访问网页时的数据特征码;步骤三:将用户访问的网页数据特征码与敏感字词数据库特征码进行对比,并获取用户访问网页数据特征码与敏感字词数据库特征码相同的特征码的数量,并将与敏感字词相同的数据特征码进行存储;步骤四:当步骤三中获取与所述敏感字词数据库特征码相同的所述用户访问的网页数据特征码的数量达到设定的阈值时,可以判定所述用户访问的数据为敏感数据;当与所述敏感字词数据库特征码相同的所述用户访问的网页数据特征码的数量未达到系统设定的阈值时,重复步骤二到四,直到用户访问网页的行为结束为止;步骤五:当判定所述用户访问的网页数据特征码是敏感数据时,则将所述用户访问的网页数据特征码内的敏感字词进行过滤并打码。优选的,所述步骤五将敏感字词进行打码过滤的同时还提醒用户关闭网页,若10s之内不关闭的话,系统将自动强制关闭网页。优选的,所述提醒用户关闭网页的信息为警告词汇,并采用提示框的方式。优选的,所述步骤五打码的形式为***。优选的,所述步骤五中强制关闭网页次数达到三次以上后,系统将自动锁闭网页,并以邮件的方式再次警告访问用户,且邮件内有绿色上网学习问答的网址。优选的,所述用户若想再次解开网页,则需要点击绿色上网学习问答的网址学习并进行答题,若答题成功,则解除网页的锁定。优选的,所述步骤一中所述敏感字词数据库据特征码,具体为计算敏感字词数据库的MD5值。优选的,所述步骤三将与敏感字词相同的数据特征码存储在后台系统的数据库内。本专利技术的有益效果在于:该带有初次筛选功能的数据过滤挖掘方法,通过建立敏感字词数据库特征码,并对用户的上网行为进行实时监控,将用户浏览的网页信息与敏感字词数据库特征码进行比对,检测当用户浏览的网页数据特征码的敏感字词数据库征码的数量,并与设定的阈值进行对比,若小于设定的阈值,则重复步骤二到四的步骤,若大于设定的阈值,则将敏感字词进行过滤打码处理,从而营造了一个绿色的网络环境,在一定程度上保证了青少年绿色上网的行为。附图说明图1为本专利技术数据过滤方法流程的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术提供一种技术方案:一种带有初次筛选功能的数据过滤挖掘方法,包括以下步骤:步骤一:从字词数据库中计算敏感字词数据库特征码,并建立敏感字词数据库特征码,步骤一中敏感字词数据库据特征码,具体为计算敏感字词数据库的MD5值.在本步骤一中,其具体内容如下:在后台数据库增加关键字词配置表,分别记录敏感字词库及相关字词库,敏感字词库和相关字词库会保存到缓存中以提高读取速度,并配置定时更新缓存机制;在WEB前端用户交互页面中,增加拦截方法,对用户提交的搜索字词调用识别器进行处理,进行关键字词识别后,根据处理结果确定是拒绝纳入索引返回提醒用户修改数据内容,或者通过提交到Solr后台进行数据抽取、转换,建立索引并将检索结果返回给用户。用户通过WEB页面提交数据内容,数据内容至多由两个字段构成,包括字段:标题、正文内容;数据内容被传递到分词器,根据分词规则和分词表,对数据内容进行切词,得到关键字词结果;识别器根据这些查询字词遍历敏感字词库和相关字词库,得到匹配结果,并返回处理结果。进行关键字词识别后,如果查询字词中存在敏感字词,则返回命中敏感字词标识为真,否则返回命中敏感字词标识为假;如果查询字词中存在相关性字词,则返回命中相关字词标识为真,否则返回命中相关字词标识为假;若敏感字词标识为假且相关字词标识为真时,提交到Solr搜索器进行搜索处理;若敏感字词标识为真或相关字词标识为假时,直接返回页面提醒用户修改查询字词。步骤二:监控用户访问网页的行为,当监控到用户访问网页时的行为后,按照步骤一的计算用户访问网页数据的特征码的方法,计算出该用户访问网页时的数据特征码;本步骤二的具体内容为:S21,从预设的待爬取队列(待爬取URL队列)中读取目标统一资源定位符(URL,UniformResourceLocator),下载目标统一资源定位符对应的目标网页;在计算机等智能设备读取到用户输入的URL时,可以将上述URL存入预设的待爬取队列;这样,上述待爬取队列内存放若干个用户预备访问的URL。这时,可以从上述待爬取队列中选择一个URL,将其确定为目标URL。可选地,上述目标URL可以确定为待爬取队列中的首个URL。若上述待爬取队列中所存放的URL具有重要性标识符,则可以将其中重要性程度最高的URL确定为目标URL。S22,根据用户在所述目标网页上选择的目标区域,从目标网页显示内容中提取目标区域内容;上述步骤中,可以从目标URL中读取目标网页上的目标区域。还可以在用户输入URL之后,继续读取用户针对该URL所输入的目标区域标识参数(如区域名称或者区域坐标范围等),根据上述目标区域标识参数确定用户在该URL对应的网页上所选择的目标区域。S23,根据预设的过滤规则对所述目标区域内容进行过滤,剔除过滤内容,得到区域更新内容;上述过滤规则可以包括广告过滤规则、重复内容过滤规则、和/或敏感信息过滤规则等,其可以根据目标URL的相关特征以及相应用户的访问需求预先设置。根据上述过滤规则对目标区域内容进行过滤,得到区域更新内容,使上述区域更新内容中不包括重复内容、广告内容和/或敏感内容(存在敏感信息的内容)。S24,利用所述区域更新内容更新所述目标区域的目标网页,保存在数据库中;根据区域更新内容更新所述目标区域的目标网页,使目标网页中目标区域的内容不包括重复内容、广告内容和本文档来自技高网...

【技术保护点】
1.一种带有初次筛选功能的数据过滤挖掘方法,其特征在于:包括以下步骤:步骤一:从字词数据库中计算敏感字词数据库特征码,并建立敏感字词数据库特征码;步骤二:监控用户访问网页的行为,当监控到用户访问网页时的行为后,按照步骤一所述的计算用户访问网页数据的特征码的方法,计算出该用户访问网页时的数据特征码;步骤三:将用户访问的网页数据特征码与敏感字词数据库特征码进行对比,并获取用户访问网页数据特征码与敏感字词数据库特征码相同的特征码的数量,并将与敏感字词相同的数据特征码进行存储;步骤四:当步骤三中获取与所述敏感字词数据库特征码相同的所述用户访问的网页数据特征码的数量达到设定的阈值时,可以判定所述用户访问的数据为敏感数据;当与所述敏感字词数据库特征码相同的所述用户访问的网页数据特征码的数量未达到系统设定的阈值时,重复步骤二到四,直到用户访问网页的行为结束为止;步骤五:当判定所述用户访问的网页数据特征码是敏感数据时,则将所述用户访问的网页数据特征码内的敏感字词进行过滤并打码。

【技术特征摘要】
1.一种带有初次筛选功能的数据过滤挖掘方法,其特征在于:包括以下步骤:步骤一:从字词数据库中计算敏感字词数据库特征码,并建立敏感字词数据库特征码;步骤二:监控用户访问网页的行为,当监控到用户访问网页时的行为后,按照步骤一所述的计算用户访问网页数据的特征码的方法,计算出该用户访问网页时的数据特征码;步骤三:将用户访问的网页数据特征码与敏感字词数据库特征码进行对比,并获取用户访问网页数据特征码与敏感字词数据库特征码相同的特征码的数量,并将与敏感字词相同的数据特征码进行存储;步骤四:当步骤三中获取与所述敏感字词数据库特征码相同的所述用户访问的网页数据特征码的数量达到设定的阈值时,可以判定所述用户访问的数据为敏感数据;当与所述敏感字词数据库特征码相同的所述用户访问的网页数据特征码的数量未达到系统设定的阈值时,重复步骤二到四,直到用户访问网页的行为结束为止;步骤五:当判定所述用户访问的网页数据特征码是敏感数据时,则将所述用户访问的网页数据特征码内的敏感字词进行过滤并打码。2.根据权利要求1所述的一种带有初次筛选功能的数据过滤挖掘方法,其特征在于:所述步骤五将敏感字词进行打码过滤的同...

【专利技术属性】
技术研发人员:倪向东柯金霞
申请(专利权)人:广州博士信息技术研究院有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1