一种网站判别方法及系统技术方案

技术编号：24353786 阅读：41 留言：0更新日期：2020-06-03 02:08

本发明专利技术公开了一种网站判别方法及系统，方法包括url地址获取步骤、文本内容获取步骤、网站类型划分步骤、特征向量生成步骤、网站特征标记步骤、类型识别模型训练步骤以及识别步骤，其中，类型识别模型训练步骤：根据随机森林RandomForestClassifier算法，使用随机阀值及网站特征标记步骤获得的训练样本，构建大量决策树组成的决策树“森林”，建立一个网站正常与否的类型识别模型；识别步骤：利用类型识别模型判断未知网站是否正常的状态值，根据状态值识别出未知网站为正常网站还是非正常网站。本发明专利技术提高了关键词查询的效率,便于找出需要的高品质网站，优化了搜索引擎的查询网站的性能，使得用户更加容易的找出满足其需求并且与关键词紧紧相关联的高质量网站。

A distinguishing method and system of website

全部详细技术资料下载

【技术实现步骤摘要】
一种网站判别方法及系统
本专利技术涉及一种网站判别方法及系统，通过关键词得到与之相关联的高质量网站，属于大数据

技术介绍
大数据中的数据采集，就是将各类网站上的数据进行所见即所得的方式收集。一般情况下，对于各种类型有哪些网站相关的数据资源的收集来源于人为的日常积累，以及更重要的来源是搜索引擎所得。但是搜索引擎得到的网站中会有不少恶意、广告类的网站，还会存在不少的失效过期网站，甚至所得到的部分网站内容与所搜索的关键词信息不匹配。这样给网站查询工作带来了很大的不便。
技术实现思路
本专利技术所要解决的技术问题在于克服现有搜索引擎查询网站结果存在的不足，提供一种网站判别方法及系统，该系统在常规的多种搜索引擎基础上进行改进，从而获取关键词相关的优质网站。本专利技术的目的是通过以下技术方案来实现的：一种网站判别方法，包括：url地址获取步骤：以关键词为主，在多种搜索引擎中，获取在搜索引擎中，通过关键词搜索所得到搜索结果的接口，利用request技术，模拟浏览器访问接口向服务器发送请求，服务器接收请求返回对应的响应内容，以此来获取搜索引擎结果中与关键词相关联的全部网站链接url地址信息；文本内容获取步骤：利用网络爬虫技术，获取得到每个网站主页的html格式的文本内容；网站类型划分步骤：将网站分为正常和非正常网站，提取每种类型的网站特征；特征向量生成步骤：通过对网站文本内容的解析，并根据网站类型划分步骤中设定的网站特征，提取出所有网站相关网站特征情况数量...

【技术保护点】
1.一种网站判别方法，其特征在于，包括：/nurl地址获取步骤：以关键词为主，在多种搜索引擎中，获取在搜索引擎中，通过关键词搜索所得到搜索结果的接口，利用request技术，模拟浏览器访问接口向服务器发送请求，服务器接收请求返回对应的响应内容，以此来获取搜索引擎结果中与关键词相关联的全部网站链接url地址信息；/n文本内容获取步骤：利用网络爬虫技术，获取得到每个网站主页的html格式的文本内容；/n网站类型划分步骤：将网站分为正常和非正常网站，提取每种类型的网站特征；/n特征向量生成步骤：通过对网站文本内容的解析，并根据网站类型划分步骤中设定的网站特征，提取出所有网站相关网站特征情况数量，形成网站特征向量；/n网站特征标记步骤：获取一定数量的正常网站和非正常网站的特征向量，并为每种类型网站标记相应的标签类型，网站类型与其相应的特征向量、标签类型作为类型识别模型的训练样本；/n类型识别模型训练步骤：根据随机森林RandomForestClassifier算法，通过集成学习的思想，使用随机阀值及网站特征标记步骤获得的训练样本，构建大量决策树组成的决策树“森林”，建立一个网站正常与否的类型识...

【技术特征摘要】
1.一种网站判别方法，其特征在于，包括：
url地址获取步骤：以关键词为主，在多种搜索引擎中，获取在搜索引擎中，通过关键词搜索所得到搜索结果的接口，利用request技术，模拟浏览器访问接口向服务器发送请求，服务器接收请求返回对应的响应内容，以此来获取搜索引擎结果中与关键词相关联的全部网站链接url地址信息；
文本内容获取步骤：利用网络爬虫技术，获取得到每个网站主页的html格式的文本内容；
网站类型划分步骤：将网站分为正常和非正常网站，提取每种类型的网站特征；
特征向量生成步骤：通过对网站文本内容的解析，并根据网站类型划分步骤中设定的网站特征，提取出所有网站相关网站特征情况数量，形成网站特征向量；
网站特征标记步骤：获取一定数量的正常网站和非正常网站的特征向量，并为每种类型网站标记相应的标签类型，网站类型与其相应的特征向量、标签类型作为类型识别模型的训练样本；
类型识别模型训练步骤：根据随机森林RandomForestClassifier算法，通过集成学习的思想，使用随机阀值及网站特征标记步骤获得的训练样本，构建大量决策树组成的决策树“森林”，建立一个网站正常与否的类型识别模型；
识别步骤：利用类型识别模型判断未知网站是否正常的状态值，根据状态值识别出未知网站为正常网站还是非正常网站。

2.根据权利要求1所述的一种网站判别方法，其特征在于：它还包括去重步骤：在获取到url地址之后，以网站域名为主，删除所有重复网站链接，重复网站数据保留一条记录信息即可。

3.根据权利要求2所述的一种网站判别方法，其特征在于：特征向量生成步骤中的所有网站指的是网站经过去重步骤后剩下的网站。

4.根据权利要求1所述的一种网站判别方法，其特征在于：非正常网站包括了广告、色情、恶意、无效、死亡五种类型的网站，其余类型的网站划分为正常网站。

5.根据权利要求4所述的一种网站判别方法，其特征在于：广告、色情、恶意类网站采用关键词作为网站特征；无效类型的网站采用静态网页、无二级链接网页或者包含app下载链接网页的情况作为网站特征；死亡类型的网站采用域名过期、无法访问、禁止访问、网站维护、服务器维护、网站改版或者Accessdenied的状态作为网站特征。

6.根据权利要求1所述的一种网站判别方法，其特征在于：网站特征...

【专利技术属性】
技术研发人员：李虹颖，
申请(专利权)人：成都市映潮科技股份有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人