一种网站判别方法及系统技术方案

技术编号:24353786 阅读:41 留言:0更新日期:2020-06-03 02:08
本发明专利技术公开了一种网站判别方法及系统,方法包括url地址获取步骤、文本内容获取步骤、网站类型划分步骤、特征向量生成步骤、网站特征标记步骤、类型识别模型训练步骤以及识别步骤,其中,类型识别模型训练步骤:根据随机森林RandomForestClassifier算法,使用随机阀值及网站特征标记步骤获得的训练样本,构建大量决策树组成的决策树“森林”,建立一个网站正常与否的类型识别模型;识别步骤:利用类型识别模型判断未知网站是否正常的状态值,根据状态值识别出未知网站为正常网站还是非正常网站。本发明专利技术提高了关键词查询的效率,便于找出需要的高品质网站,优化了搜索引擎的查询网站的性能,使得用户更加容易的找出满足其需求并且与关键词紧紧相关联的高质量网站。

A distinguishing method and system of website

【技术实现步骤摘要】
一种网站判别方法及系统
本专利技术涉及一种网站判别方法及系统,通过关键词得到与之相关联的高质量网站,属于大数据

技术介绍
大数据中的数据采集,就是将各类网站上的数据进行所见即所得的方式收集。一般情况下,对于各种类型有哪些网站相关的数据资源的收集来源于人为的日常积累,以及更重要的来源是搜索引擎所得。但是搜索引擎得到的网站中会有不少恶意、广告类的网站,还会存在不少的失效过期网站,甚至所得到的部分网站内容与所搜索的关键词信息不匹配。这样给网站查询工作带来了很大的不便。
技术实现思路
本专利技术所要解决的技术问题在于克服现有搜索引擎查询网站结果存在的不足,提供一种网站判别方法及系统,该系统在常规的多种搜索引擎基础上进行改进,从而获取关键词相关的优质网站。本专利技术的目的是通过以下技术方案来实现的:一种网站判别方法,包括:url地址获取步骤:以关键词为主,在多种搜索引擎中,获取在搜索引擎中,通过关键词搜索所得到搜索结果的接口,利用request技术,模拟浏览器访问接口向服务器发送请求,服务器接收请求返回对应的响应内容,以此来获取搜索引擎结果中与关键词相关联的全部网站链接url地址信息;文本内容获取步骤:利用网络爬虫技术,获取得到每个网站主页的html格式的文本内容;网站类型划分步骤:将网站分为正常和非正常网站,提取每种类型的网站特征;特征向量生成步骤:通过对网站文本内容的解析,并根据网站类型划分步骤中设定的网站特征,提取出所有网站相关网站特征情况数量,形成网站特征向量;网站特征标记步骤:获取一定数量的正常网站和非正常网站的特征向量,并为每种类型网站标记相应的标签类型,网站类型与其相应的特征向量、标签类型作为类型识别模型的训练样本;类型识别模型训练步骤:根据随机森林RandomForestClassifier算法,通过集成学习的思想,使用随机阀值及网站特征标记步骤获得的训练样本,构建大量决策树组成的决策树“森林”,训练网站特征标记步骤中的样本,建立一个网站正常与否的类型识别模型;识别步骤:利用类型识别模型判断未知网站是否正常的状态值,根据状态值识别出未知网站为正常网站还是非正常网站。作为优选方式,本专利技术还包括去重步骤:在获取到url地址之后,以网站域名为主,删除所有重复网站链接,重复网站数据保留一条记录信息即可。作为优选方式,特征向量生成步骤中的所有网站指的是网站经过去重步骤后剩下的网站。作为优选方式,非正常网站包括了广告、色情、恶意、无效、死亡五种类型的网站,其余类型的网站划分为正常网站。作为优选方式,广告、色情、恶意类网站采用关键词作为网站特征;无效类型的网站采用静态网页、无二级链接网页或者包含app下载链接网页的情况作为网站特征;死亡类型的网站采用域名过期、无法访问、禁止访问、网站维护、服务器维护、网站改版或者Accessdenied的状态作为网站特征。作为优选方式,网站特征标记步骤中,正常网站标记为1,非正常网站标记为2。作为优选方式,网站特征标记步骤中,每种类型的网站至少选择10个。作为优选方式,在获取了未知网站是否正常的状态值之后,还获取未知网站的判定指标,判定指标包括:PV、UV、Robots协议、搜索引擎排名、网站加载速度、内容原创度指标信息;根据判定指标判断网站的质量。作为优选方式,未知网站的PV、UV、Robots协议、搜索引擎排名、网站加载速度、内容原创度指标信息均分别设置两个阈值来进行判断,两个阈值分别是第一阈值和第二阈值;每个判定指标如果低于其第一阈值判定为差,在第一阈值和第二阈值之间判定为良,高于第二阈值为优;所有判定指标共计占比之和为100%;根据每个指标自定义的占比,计算所有指标优、良、差各个等级之和,网站的质量即为三个等级中和最大的一个等级。使用者自定义每个指标对于网站评判重要性的占比,以此来得出三个等级(优良差)分别的占比之和,通过比较各个等级(优良差)和的大小,将最大的等级和结果视为网站最终的质量。一种网站判别系统:url地址获取模块:以关键词为主,在多种搜索引擎中,获取在搜索引擎中,通过关键词搜索所得到搜索结果的接口,利用request技术,模拟浏览器访问接口向服务器发送请求,服务器接收请求返回对应的响应内容,以此来获取搜索引擎结果中与关键词相关联的全部网站链接url地址信息;文本内容获取模块:利用网络爬虫技术,获取得到每个网站主页的html格式的文本内容;网站类型划分模块:将网站分为正常和非正常网站,提取每种类型的网站特征;特征向量生成模块:通过对网站文本内容的解析,并根据网站类型划分模块中设定的网站特征,提取出所有网站相关网站特征情况数量,形成网站特征向量;网站特征标记模块:获取一定数量的正常网站和非正常网站的特征向量,并为每种类型网站标记相应的标签类型,网站类型与其相应的特征向量、标签类型作为类型识别模型的训练样本;类型识别模型训练模块:根据随机森林RandomForestClassifier算法,通过集成学习的思想,使用随机阀值及网站特征标记模块获得的训练样本,构建大量决策树组成的决策树“森林”,训练网站特征标记模块中的样本,建立一个网站正常与否的类型识别模型;识别模块:利用类型识别模型判断未知网站是否正常的状态值,根据状态值识别出未知网站为正常网站还是非正常网站。本专利技术的有益效果是:本专利技术大大提高了通过关键词查询网站的效率,从中便利的找出需要的高品质网站,优化了搜索引擎的查询网站的性能,使得用户更加容易的找出满足其需求并且与关键词紧紧相关联的高质量网站。附图说明图1为正常网站和非正常网站划分实施例;图2为网站标记情况实施例;图3为得出优质网站的实施例。具体实施方式下面结合附图进一步详细描述本专利技术的技术方案,但本专利技术的保护范围不局限于以下所述。实施例一一种网站判别方法,包括网站特征搜集与提取、网站类型识别、网站质量判别三个部分;具体包括:url地址获取步骤:以关键词为主,在多种搜索引擎中,获取在搜索引擎中,通过关键词搜索所得到搜索结果的接口,利用Python的request技术,模拟浏览器访问接口向服务器发送请求,服务器接收请求返回对应的响应内容,以此来获取至少五个搜索引擎结果中与关键词相关联的全部网站链接url地址信息;文本内容获取步骤:利用网络爬虫技术,获取得到每个网站主页的html格式的文本内容;网站类型划分步骤:将网站分为正常和非正常网站,提取每种类型的网站特征;特征向量生成步骤:通过对网站文本内容的解析,并根据网站类型划分步骤中设定的网站特征,提取出所有网站相关网站特征情况数量,形成网站特征向量,如图2所示,每一条数据都是一个网站的特征向量。网站特征标记步骤:获取一定数量的正常网站和非正常网站的特征向量,并为每种类型网站标记相应的标签类型,网站类型本文档来自技高网...

【技术保护点】
1.一种网站判别方法,其特征在于,包括:/nurl地址获取步骤:以关键词为主,在多种搜索引擎中,获取在搜索引擎中,通过关键词搜索所得到搜索结果的接口,利用request技术,模拟浏览器访问接口向服务器发送请求,服务器接收请求返回对应的响应内容,以此来获取搜索引擎结果中与关键词相关联的全部网站链接url地址信息;/n文本内容获取步骤:利用网络爬虫技术,获取得到每个网站主页的html格式的文本内容;/n网站类型划分步骤:将网站分为正常和非正常网站,提取每种类型的网站特征;/n特征向量生成步骤:通过对网站文本内容的解析,并根据网站类型划分步骤中设定的网站特征,提取出所有网站相关网站特征情况数量,形成网站特征向量;/n网站特征标记步骤:获取一定数量的正常网站和非正常网站的特征向量,并为每种类型网站标记相应的标签类型,网站类型与其相应的特征向量、标签类型作为类型识别模型的训练样本;/n类型识别模型训练步骤:根据随机森林RandomForestClassifier算法,通过集成学习的思想,使用随机阀值及网站特征标记步骤获得的训练样本,构建大量决策树组成的决策树“森林”,建立一个网站正常与否的类型识别模型;/n识别步骤:利用类型识别模型判断未知网站是否正常的状态值,根据状态值识别出未知网站为正常网站还是非正常网站。/n...

【技术特征摘要】
1.一种网站判别方法,其特征在于,包括:
url地址获取步骤:以关键词为主,在多种搜索引擎中,获取在搜索引擎中,通过关键词搜索所得到搜索结果的接口,利用request技术,模拟浏览器访问接口向服务器发送请求,服务器接收请求返回对应的响应内容,以此来获取搜索引擎结果中与关键词相关联的全部网站链接url地址信息;
文本内容获取步骤:利用网络爬虫技术,获取得到每个网站主页的html格式的文本内容;
网站类型划分步骤:将网站分为正常和非正常网站,提取每种类型的网站特征;
特征向量生成步骤:通过对网站文本内容的解析,并根据网站类型划分步骤中设定的网站特征,提取出所有网站相关网站特征情况数量,形成网站特征向量;
网站特征标记步骤:获取一定数量的正常网站和非正常网站的特征向量,并为每种类型网站标记相应的标签类型,网站类型与其相应的特征向量、标签类型作为类型识别模型的训练样本;
类型识别模型训练步骤:根据随机森林RandomForestClassifier算法,通过集成学习的思想,使用随机阀值及网站特征标记步骤获得的训练样本,构建大量决策树组成的决策树“森林”,建立一个网站正常与否的类型识别模型;
识别步骤:利用类型识别模型判断未知网站是否正常的状态值,根据状态值识别出未知网站为正常网站还是非正常网站。


2.根据权利要求1所述的一种网站判别方法,其特征在于:它还包括去重步骤:在获取到url地址之后,以网站域名为主,删除所有重复网站链接,重复网站数据保留一条记录信息即可。


3.根据权利要求2所述的一种网站判别方法,其特征在于:特征向量生成步骤中的所有网站指的是网站经过去重步骤后剩下的网站。


4.根据权利要求1所述的一种网站判别方法,其特征在于:非正常网站包括了广告、色情、恶意、无效、死亡五种类型的网站,其余类型的网站划分为正常网站。


5.根据权利要求4所述的一种网站判别方法,其特征在于:广告、色情、恶意类网站采用关键词作为网站特征;无效类型的网站采用静态网页、无二级链接网页或者包含app下载链接网页的情况作为网站特征;死亡类型的网站采用域名过期、无法访问、禁止访问、网站维护、服务器维护、网站改版或者Accessdenied的状态作为网站特征。


6.根据权利要求1所述的一种网站判别方法,其特征在于:网站特征...

【专利技术属性】
技术研发人员:李虹颖
申请(专利权)人:成都市映潮科技股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1