网站验证方法及装置制造方法及图纸

技术编号:12389064 阅读:81 留言:0更新日期:2015-11-25 22:22
本发明专利技术公开了一种网站验证方法及装置,所述方法包括:获取待验证网站的源代码中包括的关键字集合;查询黑名单关键字对应关系库,若所述关键字集合中至少出现两个黑名单关键字,且所述两个黑名单关键字之间存在对应关系,则将所述待验证网站确定为候选黑名单网站或直接确定为非法网站。以解决现有的非法网站识别方法存在效率低下且正确率不高的问题。

【技术实现步骤摘要】

本专利技术实施例涉及网络
,尤其涉及一种网站验证方法及装置
技术介绍
非法网站是指以从事反动、涉黄、赌博等不良应用为目的或其他非正常应用而存在的网站。目前,针对非法网站的识别主要是通过网络监督管理结构通过对相关网站的内容进行人工审核,来判断该网站是否涉嫌非法,然而,通过人工识别非法网站需要耗费大量的人力物力,效率非常低下;为了提高非法网站的识别效率,现有技术中,通过分析现有的非法网站的内容语义,确定识别非法网站的关键词,例如,赌博网站中通常会出现六合彩这样的关键词,通过在海量的网站中抽取网站,对该抽取的网站进行文本挖掘,假设出现六合彩这样的关键词达到预设的阈值,则判断该抽取的网站非法的概率较大;然而,现有技术中,只能根据已经出现的非法网站来确定识别非法网站的关键词,在海量的网站中,有些非法网站是比较隐蔽的,例如是现有的已经出现的非法网站的变种网站,利用现有的已经出现的非法网站确定的识别关键词是不能识别变种的非法网站,因此,现有的非法网站识别方法存在识别正确率不高的问题。
技术实现思路
本专利技术实施例提供一种网站验证方法及装置,用以解决现有的非法网站识别方法存在识别正确率不高的问题。第一方面,本专利技术提供一种网站验证方法,包括:获取待验证网站的源代码中包括的关键字集合;查询黑名单关键字对应关系库,若所述关键字集合中至少出现两个黑名单关键字,且所述两个黑名单关键字之间存在对应关系,则将所述待验证网站确定为候选黑名单网站,所述候选黑名单网站表示所述待验证网站是未知且危险概率较大的网站;所述黑名单关键字对应关系库中包括多个黑名单关键字组,每个黑名单关键字组中至少包括存在对应关系的两个黑名单关键字。可选地,所述的方法还包括:将黑名单网站集合中每个黑名单网站的源代码中包括的黑名单关键字组成一个集合,得到多个黑名单关键字集合;利用大数据分析技术,分析所述多个黑名单关键字集合中,若第一黑名单关键字和第二黑名单关键字同时在所述多个黑名单关键字集合中出现的次数超过预设的次数阈值,则确定所述第一黑名单关键字和所述第二黑名单关键字之间存在对应关系;将所述第一黑名单关键字和所述第二黑名单关键字之间的对应关系保存在所述黑名单关键字对应关系库中。可选地,所述将所述待验证网站确定为候选黑名单网站之后,包括:获取所述待验证网站的统一资源定位符;查询白名单网站集合,所述白名单网站集合中包括验证过的多个白名单网站的统一资源定位符;判断所述待验证网站的统一资源定位符是否在所述白名单网站集合中,若是则确定所述待验证网站为白名单网站,否则将所述待验证网站保存到候选黑名单网站集合中。可选地,将所述待验证网站保存到候选黑名单网站集合中之后,包括:获取所述候选黑名单网站集合的访问记录,所述访问记录中包括预设时间段内访问过所述候选黑名单网站集合中的候选黑名单网站的终端标识以及对应的访问次数;根据聚类算法对所述候选黑名单网站集合的访问记录进行聚类分析,将所述候选黑名单网站集合划分为多个候选黑名单网站子集;根据黑名单网站集合分别确定所述多个候选黑名单网站子集的合法性,所述黑名单网站集合中包括验证过的多个黑名单网站的统一资源定位符。可选地,根据黑名单网站集合分别确定所述多个候选黑名单网站子集的合法性,包括:分别将各候选黑名单网站子集中的每个候选黑名单网站的统一资源定位符与所述黑名单网站集合中包括的统一资源定位符进行比较;若所述候选黑名单网站子集与所述黑名单网站集合中相同的统一资源定位符的数量大于预设阈值,则确定所述候选黑名单网站子集中的网站为非法网站。第二方面,本专利技术提供一种网站验证装置,其包括:获取模块,用于获取待验证网站的源代码中包括的关键字集合,所述关键字集合中包括多个关键字;确定模块,用于查询黑名单关键字对应关系库,若所述关键字集合中至少出现两个黑名单关键字,且所述两个黑名单关键字之间存在对应关系,则将所述待验证网站确定为候选黑名单网站,所述候选黑名单网站表示所述待验证网站是未知且危险概率较大的网站;所述黑名单关键字对应关系库中包括多个黑名单关键字组,每个黑名单关键字组中至少包括存在对应关系的两个黑名单关键字。可选地,所述获取模块,还用于将黑名单网站集合中每个黑名单网站的源代码中包括的黑名单关键字组成一个集合,得到多个黑名单关键字集合;所述确定模块,还用于利用大数据分析技术,分析所述多个黑名单关键字集合中,若第一黑名单关键字和第二黑名单关键字同时在所述多个黑名单关键字集合中出现的次数超过预设的次数阈值,则确定所述第一黑名单关键字和所述第二黑名单关键字之间存在对应关系;所述装置还包括:保存模块,用于将所述确定模块确定的第一黑名单关键字和所述第二黑名单关键字之间的对应关系保存在所述黑名单关键字对应关系库中。可选地,所述获取模块,还用于获取所述待验证网站的统一资源定位符;所述获取模块,还用于查询白名单网站集合,获取所述白名单网站集合中每一个白名单网站的统一资源定位符;所述确定模块,还用于判断所述待验证网站的统一资源定位符是否与所述白名单网站集合中的其中一个网站的统一资源定位符相匹配,若是则确定所述待验证网站为白名单网站,否则将所述待验证网站保存到候选黑名单网站集合中。可选地,所述获取模块,还用于获取所述候选黑名单网站集合的访问记录,所述访问记录中包括预设时间段内访问过所述候选黑名单网站集合中的候选黑名单网站的终端标识以及对应的访问次数;所述装置还包括:分析模块,用于根据聚类算法对所述候选黑名单网站集合的访问记录进行聚类分析,将所述候选黑名单网站集合划分为多个候选黑名单网站子集;所述确定模块,还用于根据黑名单网站集合分别确定所述多个候选黑名单网站子集的合法性,所述黑名单网站集合中包括验证过的多个黑名单网站的统一资源定位符。可选地,所述确定模块具体用于:分别将各候选黑名单网站子集中的每个候选黑名单网站的统一资源定位符与所述黑名单网站集合中包括的统一资源定位符进行比较;若所述候选黑名单网站子集与所述黑名单网站集合中相同的统一资源定位符的数量大于预设阈值,则确定所述候选黑名单网站子集中的网站为非法网站。采用本专利技术实施例所述的方法,是根据黑名单关键字对应关系库,确定待验证网站中的关键字集合中是否存在对应关系的黑名单关键字库本文档来自技高网...

【技术保护点】
一种网站验证方法,其包括:获取待验证网站的源代码中包括的关键字集合;查询黑名单关键字对应关系库,若所述关键字集合中至少出现两个黑名单关键字,且所述两个黑名单关键字之间存在对应关系,则将所述待验证网站确定为候选黑名单网站或直接确定为非法网站;所述黑名单关键字对应关系库中包括多个黑名单关键字组,每个黑名单关键字组中包括存在对应关系的至少两个黑名单关键字。

【技术特征摘要】
1.一种网站验证方法,其包括:
获取待验证网站的源代码中包括的关键字集合;
查询黑名单关键字对应关系库,若所述关键字集合中至少出现两个黑
名单关键字,且所述两个黑名单关键字之间存在对应关系,则将所述待验
证网站确定为候选黑名单网站或直接确定为非法网站;
所述黑名单关键字对应关系库中包括多个黑名单关键字组,每个黑名
单关键字组中包括存在对应关系的至少两个黑名单关键字。
2.根据权利要求1所述的方法,其中,还包括:
将黑名单网站集合中每个黑名单网站的源代码中包括的黑名单关键
字组成一个集合,得到多个黑名单关键字集合;
分析所述多个黑名单关键字集合中,若第一黑名单关键字和第二黑名
单关键字同时在所述多个黑名单关键字集合中出现的次数超过预设的次
数阈值,则确定所述第一黑名单关键字和所述第二黑名单关键字之间存在
对应关系;
将所述第一黑名单关键字和所述第二黑名单关键字之间的对应关系
保存在所述黑名单关键字对应关系库中。
3.根据权利要求1所述的方法,其中,所述将所述待验证网站确定
为候选黑名单网站之后,包括:
获取所述待验证网站的统一资源定位符;
查询白名单网站集合,所述白名单网站集合中包括验证过的多个白名
单网站的统一资源定位符;
判断所述待验证网站的统一资源定位符是否在所述白名单网站集合
中,若是则确定所述待验证网站为白名单网站,否则将所述待验证网站保
存到候选黑名单网站集合中。
4.根据权利要求3所述的方法,其中,将所述待验证网站保存到候
选黑名单网站集合中之后,包括:
获取所述候选黑名单网站集合的访问记录,所述访问记录中包括预设
时间段内访问过所述候选黑名单网站集合中的候选黑名单网站的终端标
识以及对应的访问次数;
根据聚类算法对所述候选黑名单网站集合的访问记录进行聚类分析,
将所述候选黑名单网站集合划分为多个候选黑名单网站子集;
根据黑名单网站集合分别确定所述多个候选黑名单网站子集的合法
性,所述黑名单网站集合中包括验证过的多个黑名单网站的统一资源定位
符。
5.根据权利要求4所述的方法,其中,根据黑名单网站集合分别确
定所述多个候选黑名单网站子集的合法性,包括:
分别将各候选黑名单网站子集中的每个候选黑名单网站的统一资源
定位符与所述黑名单网站集合中包括的统一资源定位符进行比较;
若所述候选黑名单网站子集与所述黑名单网站集合中相同的统一资
源定位符的数量大于预设阈值,则确定所述候选黑名单网站子集中的全部
网站为非法网站。
6.一种网站验证装置,其包括:
获取模块,用于获取待验证网站的源代码中包括...

【专利技术属性】
技术研发人员:何振科
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1