基于网络爬虫的水利信息检索系统及方法技术方案

技术编号：16644803 阅读：45 留言：0更新日期：2017-11-26 17:16

本发明专利技术公开了一种基于网络爬虫的水利信息检索系统及方法，方法包括步骤：步骤S1，定义与主题水利相关的初始采集网页作为初始采集点，收集与水利相关的常用业务词语作为爬取对象描述的关键字集合；步骤S2，爬虫从初始采集点开始爬取网页，对爬取页面内容与关键字集合进行匹配以判断是否与水利相关，若相关，则下载此页面对应的表格到本地；步骤S3，下载的表格为html5格式，将其转化为csv格式文档；步骤S4，对csv文档中数据进行规划化整理；步骤S5，将csv文档中数据建立数据库表。本发明专利技术通过网络爬虫自动从网页上提取水利数据表格，并将网络水利数据表格转化到格式化数据库中，供相关用户日后的检索与分析使用。

Water conservancy information retrieval system and method based on Web Crawler

The invention discloses a method based on web crawler system and method of water conservancy information retrieval method comprises the following steps: step S1, the initial acquisition of \associated with the theme of water conservancy is defined as the initial collection, collection of water related business commonly used words as crawling object describing the set of keywords; step S2, spider web crawling from the start the initial collection points, to crawl the page content and keyword matching to determine whether the collection of water related, if relevant, download this page corresponding to the local table; step S3, download the form for the HTML5 format, convert it to CSV format document; step S4, the data in the CSV document planning finishing step S5; CSV document data in a database table. The present invention through the web crawler from web pages automatically extracting water data tables, and the network of water resources data table into to formatted database, for the user after the retrieval and analysis of the use of.

全部详细技术资料下载

【技术实现步骤摘要】
基于网络爬虫的水利信息检索系统及方法
本专利技术涉及互联网信息采集
，具体涉及一种基于网络爬虫的水利信息检索系统，还涉及一种此检索系统的检索方法。
技术介绍
近年来，随着互联网的快速发展，水利行业越来越多的与互联网相结合。其中，随着水利信息化进程与公共信息公开化进程的加快，大量的水利信息数据开始在相关网站中，以网页表格形式呈现给公众。传统的水利信息数据收集与检索工作通常依靠人工完成。通过人工采集与整理的水利信息数据往往具有精度高、数据格式规整、可信程度高，但数据量小、来源单一、时效性较差的特点。与此相对应，网络水利信息数据量大、来源广泛、时效性强，但数据格式复杂多变，收集和整理网络水利信息数据需要耗费大量的人力。因此，传统的人工数据采集与整理方法不适用于网络水利信息。在大数据时代，搜索引擎在信息检索方面起着关键性的作用，为人们快速准确地提供所需要的信息。网络爬虫作为搜索引擎的关键组成部分，为信息的准确收集与检索提供了基础。因此，本专利技术提出基于网络爬虫技术的水利信息检索系统及方法，用于大数据网络水利信息的自动采集与整理工作。
技术实现思路
本专利技术的目的在于...
基于网络爬虫的水利信息检索系统及方法

【技术保护点】
基于网络爬虫的水利信息检索方法，其特征是，包括以下步骤：步骤S1，定义与主题水利相关的初始采集网页作为初始采集点，收集与水利相关的常用业务词语作为爬取对象描述的关键字集合；步骤S2，爬虫从初始采集点开始爬取网页，对爬取页面内容与关键字集合进行匹配以判断是否与水利相关，若相关，则下载此页面对应的表格到本地；步骤S3，下载的表格为html5格式，将其转化为csv格式文档；步骤S4，对csv文档中数据进行规划化整理；步骤S5，将csv文档中数据建立数据库表。

【技术特征摘要】
1.基于网络爬虫的水利信息检索方法，其特征是，包括以下步骤：步骤S1，定义与主题水利相关的初始采集网页作为初始采集点，收集与水利相关的常用业务词语作为爬取对象描述的关键字集合；步骤S2，爬虫从初始采集点开始爬取网页，对爬取页面内容与关键字集合进行匹配以判断是否与水利相关，若相关，则下载此页面对应的表格到本地；步骤S3，下载的表格为html5格式，将其转化为csv格式文档；步骤S4，对csv文档中数据进行规划化整理；步骤S5，将csv文档中数据建立数据库表。2.根据权利要求1所述的基于网络爬虫的水利信息检索方法，其特征是，爬虫采用深度优先遍历策略进行网页爬取。3.根据权利要求1所述的基于网络爬虫的水利信息检索方法，其特征是，转化为csv格式文档的具体过程为：1）检测到关键字“table”时，开始将表格数据写入csv文档；2）检测到关键字“tr”时，在csv文档中开始写入新的数据行；3）检测到关键字“td”时，在csv文档中写入新的数据列；4）对转换后数据表格的编号统一标注，并建立数据内容与编号的对应关系表。4.根据权利要求1所述的基于网络爬虫的水利信息检索方法，其特征是，转化后csv文档中数据表格形式有三种：“完整表格形式”，“缺失表格形式”及“一行多...

【专利技术属性】
技术研发人员：巫义锐，黄多辉，冯钧，
申请(专利权)人：河海大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人