一种Web 信息采集系统技术方案

技术编号:14805770 阅读:81 留言:0更新日期:2017-03-15 00:31
本发明专利技术涉及信息采集领域,尤其涉及一种Web信息采集系统。该系统包括:用于给待采集的URL排序,并根据一定的策略向协议处理器分配URL的URL处理器;用于通过各种Web协议完成数据的采集的协议处理器;用于对镜像页面和内容中的重复内容进行检测的重复内容检测器;用于对已经经过重复内容检测的页面的链接进行分析,并对链接进行必要的转换的URL提取器;用于对已采集到的Meta信息、页面的主题、页面的摘要进行挖掘meta、结构等语义信息的Meta信息获取器;以及用于对文本内容建立索引的语义信息解析器;和用于存储经过重复内容检测后的页面数据、提取出来的Meta信息、主题和摘要的数据库。该系统提高了一般Web信息采集的能力,方便了人们对网络信息资源的使用。

【技术实现步骤摘要】

本专利技术涉及信息采集领域,尤其涉及一种Web信息采集系统。
技术介绍
随着Internet的迅速发展,网络正深刻地改变着人们的生活。而在网上发展最为迅猛WWW技术已逐渐成为Internet上最重要的信息发布和传输方式。然而,Web信息的急速膨胀,在给人们提供丰富的资源的同时,又使人们对它们的有效使用方面面临一个巨大的挑战。
技术实现思路
针对这一情况,本专利技术专利技术了一种Web信息采集系统,该系统包括:URL处理器、协议处理器、重复内容检测器、URL提取器、Meta信息获取器、语义信息解析器以及数据库;所述的URL处理器,其用于给待采集的URL排序,并根据一定的策略向协议处理器分配URL;所述的协议处理器,其用于通过各种Web协议完成数据的采集;所述的Web协议包括HTTP、FTP、Gopher以及BBS;所述的重复内容检测器,其用于对镜像页面和内容中的重复内容进行检测;所述的URL提取器,其用于对已经经过重复内容检测的页面的链接进行分析,并对链接进行必要的转换;所述的Meta信息获取器,其用于对已采集到的Meta信息、页面的主题、页面的摘要进行挖掘meta、结构等语义信息;并对页面中提取出来的URL的好坏给出度量,并将度量结果传输到URL处理器用于排序;所述的语义信息解析器,其用于对文本内容建立索引;所述的数据库,其用于存储经过重复内容检测后的页面数据、提取出来的Meta信息、主题和摘要。本专利技术专利技术的Web信息采集系统提高了一般Web信息采集的能力,方便了人们对网络信息资源的使用。具体实施方式本专利技术专利技术的Web信息采集系统,该系统包括:URL处理器、协议处理器、重复内容检测器、URL提取器、Meta信息获取器、语义信息解析器以及数据库;所述的URL处理器,其用于给待采集的URL排序,并根据一定的策略向协议处理器分配URL;所述的协议处理器,其用于通过各种Web协议完成数据的采集;所述的Web协议包括HTTP、FTP、Gopher以及BBS;所述的重复内容检测器,其用于对镜像页面和内容中的重复内容进行检测;所述的URL提取器,其用于对已经经过重复内容检测的页面的链接进行分析,并对链接进行必要的转换;所述的Meta信息获取器,其用于对已采集到的Meta信息、页面的主题、页面的摘要进行挖掘meta、结构等语义信息;并对页面中提取出来的URL的好坏给出度量,并将度量结果传输到URL处理器用于排序;所述的语义信息解析器,其用于对文本内容建立索引;所述的数据库,其用于存储经过重复内容检测后的页面数据、提取出来的Meta信息、主题和摘要。本文档来自技高网...

【技术保护点】
Web信息采集系统,其特征在于,包括:URL处理器、协议处理器、重复内容检测器、URL提取器、Meta信息获取器、语义信息解析器以及数据库;所述的URL处理器,其用于给待采集的URL排序,并根据一定的策略向协议处理器分配URL;所述的协议处理器,其用于通过各种Web协议完成数据的采集;所述的Web协议包括HTTP、FTP、Gopher以及BBS;所述的重复内容检测器,其用于对镜像页面和内容中的重复内容进行检测,所述的URL提取器,其用于对已经经过重复内容检测的页面的链接进行分析,并对链接进行必要的转换;所述的Meta信息获取器,其用于对已采集到的Meta信息、页面的主题、页面的摘要进行挖掘meta、结构等语义信息;并对页面中提取出来的URL的好坏给出度量,并将度量结果传输到URL处理器用于排序;所述的语义信息解析器,其用于对文本内容建立索引;所述的数据库,其用于存储经过重复内容检测后的页面数据、提取出来的Meta信息、主题和摘要。

【技术特征摘要】
1.Web信息采集系统,其特征在于,包括:URL处理器、协议处理器、重复内容检测器、
URL提取器、Meta信息获取器、语义信息解析器以及数据库;所述的URL处理器,其
用于给待采集的URL排序,并根据一定的策略向协议处理器分配URL;所述的协议处理
器,其用于通过各种Web协议完成数据的采集;所述的Web协议包括HTTP、FTP、Gopher
以及BBS;所述的重复内容检测器,其用于对镜像页面和内容中的重复内容进行检测,所
述的U...

【专利技术属性】
技术研发人员:李东
申请(专利权)人:青岛金讯网络工程有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1