一种Web数据自动采集的方法技术

技术编号:16287320 阅读:69 留言:0更新日期:2017-09-25 11:41
本发明专利技术公开了一种Web数据自动采集的方法,包括以下步骤:网络机器人技术和网页数据提取技术;所述网络机器人技术包括设计网络机器人工作流程、制定网络机器人设计原则、深度优先搜索策略和广度优先搜索策略、网络陷阱、均衡访问和超链接提取;所述网页数据提取技术包括网页纯文本的提取和对文本中的特殊字符进行分析并处理;本发明专利技术提供的一种Web数据自动采集方法,充分利用网络机器人技术和网页数据提取技术,形成Web自动采集方法,从海量信息中收集有价值的数据并进行分析研究,形成企业各种决策的依据,解决了数据采集人员及市场研究人员所面临的一个问题,同时扩展了Web的可用性,对数据采集,尤其是自动数据采集的发展做出了一定贡献。

A method for automatic collection of Web data

The invention discloses a method for Web automatic data acquisition, which comprises the following steps: network robot technology and web data extraction technology; the robot technology includes the design of network robot working process, the development of network robot design principle, depth first search strategy and the breadth first search strategy, network trap, balance access and hyperlink extraction; the web data extraction technology including the extraction of Web text and the special characters in text analysis and processing; automatic acquisition method of Web data provided by the invention, make full use of network technology and robot web data extraction technology, the formation of Web automatic sampling method, collect valuable data from the mass of information and analysis and study, form a variety of enterprise decision-making basis, the data acquisition and market researchers One of the problems that faces is extending the availability of Web, and making a contribution to the development of data acquisition, especially automatic data acquisition.

【技术实现步骤摘要】

本专利技术涉及一种数据采集技术,特别是一种Web数据自动采集的方法
技术介绍
随着网络资源的不断丰富和网络信息量的不断膨胀,人们对网络的依赖性越来越强,却也给服务对象从浩如烟海的互联网资源中快速找到自己所需的特定资源带来了不便;信息自古就有无限的价值,随着时代的不断发展,人类不知不觉已经来到了信息时代,各行各业都充斥了无数的信息,而信息的价值就在于数据的流通,如果数据能够及时的流通和传递起来,才能发挥信息真正的不可比拟的价值;在市场经济条件下,采集数据已经成为重要的工具和手段。如何从海量信息中收集有价值的数据并进行分析研究,形成企业各种决策的依据,是数据采集人员及市场研究人员所面临的一个问题;要从大量的数据中迅速的找到并获得自己所需要的信息和服务,变得越来越困难,服务对象在查询信息时往往会迷失他们的目标或者是得到一些比较偏颇的结果;数据必须经过汇总、整合、分析才能产生价值,零散的信息只能是新闻性的,无法体现真正的商业价值;对于企业以及信息分析人员来说,一方面要在大量的信息中过滤出有效的价值点,同时又要降低获取相应信息的成本,使信息的实际使用价值大于收集、分析信息等过程所产生的成本,使信息为企业的决策带来增值价值。互联网的普及,信息技术的发展,形成了大量的信息资源;从海量的信息中抽取出有用的资源,是当前迫切需要解决的问题,而Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性,Web自动采集有助于解决这一问题,自动采集省时省力,信息覆盖面广,但信息提取质量不高,从而将影响查准率;所以大多数的数据采集工作现在都采用自动采集方式;自动采集技术就是在这种背景下产生的。
技术实现思路
本专利技术针对以上问题的提出,而研制一种通过网络机器人技术和应用网页数据提取技术的Web数据自动采集的方法。本专利技术的技术手段如下:一种Web数据自动采集的方法,其特征在于包括以下步骤:A、网络机器人技术:A1、设计网络机器人工作流程:将机器人以一个或一组URL为浏览起点对相应的WWW文档进行访问,所述WWW文档为HTML文档;A2、制定网络机器人设计原则;A21、制定机器人不包括的项目标准:在服务器上创建一个机器人文本文件,该文本文件中说明网站不能访问的链接和网站拒绝访问的机器人;A22、制定机器人META标签:即用户在页面中加入一个META标签,该META标签允许一个页面的所有者指定是否允许机器人程序来索引页面或者从页面中提取链接;A3、深度优先搜索策略和广度优先搜索策略;A31、深度优先搜索策略是从起始结点出发,对第一个文档进行分析后取回第一个链接所指向的页面,对该页面进行分析后再取回其第一个链接所指向的文档,反复执行直至搜索到不包含任何超级链接的文档为止,将其定义为一个完整的链,然后返回某一文档,继续选择该文档中的其余超级链接,搜索结束的标志是全部超级链接已搜索完毕;A32、广度优先搜索策略是对第一个文档进行分析后,将该Web页面中所有超级链接搜索完毕,再继续下一层的搜索,直到最底层的搜索完成为止;A4、网络陷阱;A41、在访问新URL前与待搜索和已搜索URL对列列表中的URL进行比较,该比较为URL对象间的比较,将URL对列列表中不包含的URL添加到待搜索的URL列表,以避免掉进网络陷阱;A42、提取Web文档的超链接时忽略所有设有参数的URL;A43、限制机器人搜索深度;当到达阈值搜索深度后停止向下搜索,其中每进入到下一级子链接则表明到达了一个新的搜索深度;或者设定访问Web服务器的最大时间长度,当机器人访问该Web服务器的第一个网页时开始计时,经过最大时间长度后,在服务器上爬行的机器人程序即刻断开与该服务器的所有链接;A5、均衡访问;设定访问一个Web服务器的线程最大数并采用等待方式限制机器人程序或进程对特定服务器和网段的访问频率;每当机器人程序或进程从一个Web站点取得一个文档后,该机器人程序或进程将等待一定的间隔再对该Web站点进行新的访问,根据站点处理能力和网络通讯能力确定等待时间的长短,下一次访问该Web站点的时间T1为当前时间T2加上访问该Web站点所需的时间,访问该Web站点所需的时间取值为网络传输时间T3乘以已设定系数;A6、超链接提取;机器人程序在获取URL链接的同时持续对得到的链接所对应的Web源文档进行数据采集,并将Web源文档转换为字符流的形式;B、网页数据提取技术;B1、网页纯文本的提取;对获取的HTML源文件进行过滤处理并删掉其中的标签控制符提取文本信息,过滤网页数据后统一网页数据字符格式;B2、对文本中的特殊字符进行分析并处理。由于采用了上述技术方案,本专利技术提供的一种Web数据自动采集的方法,充分利用网络机器人技术和网页数据提取技术,形成Web自动采集方法,从海量信息中收集有价值的数据并进行分析研究,形成企业各种决策的依据,解决了数据采集人员及市场研究人员所面临的一个问题,同时扩展了Web的可用性,对数据采集,尤其是自动数据采集的发展做出了一定贡献。附图说明图1是本专利技术所述的网络机器人工作流程图;图2是本专利技术所述的HTML网页纯文本提取的工作流程图。具体实施方式网络机器人是一种能够利用Web文档内的超链接递归地访问新文档的软件程序;自动采集机制是利用一个叫网络机器人即Robot的搜索的软件按照一定规则对网站和网页进行自动采集并加入到索引库中;如图1、图2所示的一种Web数据自动采集的方法,包括以下步骤:A、网络机器人技术:A1、首先设计网络机器人基本工作流程,具体描述为Robot以一个或一组URL为浏览起点,对相应的WWW文档进行访问其基本工作流程,所述WWW文档通常为HTML文档;A2、制定设计原则;A21、RobotsExclusion标准,是在服务器上创建一个Robots.txt文件,说明本站哪些链接不可访问以及本站拒绝哪些Robot访问;A22、RobotsMETA标记,是用户可以在自己的页面中加入一个META标记;RobotMETA标记允许一个页面的所有者指定是否允许Robot程序来索引自己的页面或者从本页面中提取链接;A3、深度优先搜索策略和广度优先搜索策略;A31、深度优先搜索策略是从起始结点出发,对第一个文档进行分析后,取回第一个链接所指向的页面,然后分析此页面,再取回本文档来自技高网
...

【技术保护点】
一种Web数据自动采集的方法,其特征在于包括以下步骤:A、网络机器人技术:A1、设计网络机器人工作流程:将机器人以一个或一组URL为浏览起点对相应的WWW文档进行访问,所述WWW文档为HTML文档;A2、制定网络机器人设计原则;A21、制定机器人不包括的项目标准:在服务器上创建一个机器人文本文件,该文本文件中说明网站不能访问的链接和网站拒绝访问的机器人;A22、制定机器人META标签:即用户在页面中加入一个META标签,该META标签允许一个页面的所有者指定是否允许机器人程序来索引页面或者从页面中提取链接;A3、深度优先搜索策略和广度优先搜索策略;A31、深度优先搜索策略是从起始结点出发,对第一个文档进行分析后取回第一个链接所指向的页面,对该页面进行分析后再取回其第一个链接所指向的文档,反复执行直至搜索到不包含任何超级链接的文档为止,将其定义为一个完整的链,然后返回某一文档,继续选择该文档中的其余超级链接,搜索结束的标志是全部超级链接已搜索完毕;A32、广度优先搜索策略是对第一个文档进行分析后,将该Web页面中所有超级链接搜索完毕,再继续下一层的搜索,直到最底层的搜索完成为止;A4、网络陷阱;A41、在访问新URL前与待搜索和已搜索URL对列列表中的URL进行比较,该比较为URL对象间的比较,将URL对列列表中不包含的URL添加到待搜索的URL列表,以避免掉进网络陷阱;A42、提取Web文档的超链接时忽略所有设有参数的URL;A43、限制机器人搜索深度;当到达阈值搜索深度后停止向下搜索,其中每进入到下一级子链接则表明到达了一个新的搜索深度;或者设定访问Web服务器的最大时间长度,当机器人访问该Web服务器的第一个网页时开始计时,经过最大时间长度后,在服务器上爬行的机器人程序即刻断开与该服务器的所有链接;A5、均衡访问;设定访问一个Web服务器的线程最大数并采用等待方式限制机器人程序或进程对特定服务器和网段的访问频率;每当机器人程序或进程从一个Web站点取得一个文档后,该机器人程序或进程将等待一定的间隔再对该Web站点进行新的访问,根据站点处理能力和网络通讯能力确定等待时间的长短,下一次访问该Web站点的时间T1为当前时间T2加上访问该Web站点所需的时间,访问该Web站点所需的时间取值为网络传输时间T3乘以已设定系数;A6、超链接提取;机器人程序在获取URL链接的同时持续对得到的链接所对应的Web源文档进行数据采集,并将Web源文档转换为字符流的形式;B、网页数据提取技术;B1、网页纯文本的提取;对获取的HTML源文件进行过滤处理并删掉其中的标签控制符提取文本信息,过滤网页数据后统一网页数据字符格式;B2、对文本中的特殊字符进行分析并处理。...

【技术特征摘要】
1.一种Web数据自动采集的方法,其特征在于包括以下步骤:
A、网络机器人技术:
A1、设计网络机器人工作流程:将机器人以一个或一组URL为浏览起点对
相应的WWW文档进行访问,所述WWW文档为HTML文档;
A2、制定网络机器人设计原则;
A21、制定机器人不包括的项目标准:在服务器上创建一个机器人文本文件,
该文本文件中说明网站不能访问的链接和网站拒绝访问的机器人;
A22、制定机器人META标签:即用户在页面中加入一个META标签,该
META标签允许一个页面的所有者指定是否允许机器人程序来索引页面或者从
页面中提取链接;
A3、深度优先搜索策略和广度优先搜索策略;
A31、深度优先搜索策略是从起始结点出发,对第一个文档进行分析后取回
第一个链接所指向的页面,对该页面进行分析后再取回其第一个链接所指向的
文档,反复执行直至搜索到不包含任何超级链接的文档为止,将其定义为一个
完整的链,然后返回某一文档,继续选择该文档中的其余超级链接,搜索结束
的标志是全部超级链接已搜索完毕;
A32、广度优先搜索策略是对第一个文档进行分析后,将该Web页面中所
有超级链接搜索完毕,再继续下一层的搜索,直到最底层的搜索完成为止;
A4、网络陷阱;
A41、在访问新URL前与待搜索和已搜索URL对列列表中的URL进行比
较,该比较为URL对象间的比较,将URL对列列表中不包含的URL添加到...

【专利技术属性】
技术研发人员:苏晓华李勇
申请(专利权)人:大连灵动科技发展有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1