一种Web数据自动采集的方法技术

技术编号：16287320 阅读：69 留言：0更新日期：2017-09-25 11:41

本发明专利技术公开了一种Web数据自动采集的方法，包括以下步骤：网络机器人技术和网页数据提取技术；所述网络机器人技术包括设计网络机器人工作流程、制定网络机器人设计原则、深度优先搜索策略和广度优先搜索策略、网络陷阱、均衡访问和超链接提取；所述网页数据提取技术包括网页纯文本的提取和对文本中的特殊字符进行分析并处理；本发明专利技术提供的一种Web数据自动采集方法，充分利用网络机器人技术和网页数据提取技术，形成Web自动采集方法，从海量信息中收集有价值的数据并进行分析研究，形成企业各种决策的依据，解决了数据采集人员及市场研究人员所面临的一个问题，同时扩展了Web的可用性，对数据采集，尤其是自动数据采集的发展做出了一定贡献。

A method for automatic collection of Web data

The invention discloses a method for Web automatic data acquisition, which comprises the following steps: network robot technology and web data extraction technology; the robot technology includes the design of network robot working process, the development of network robot design principle, depth first search strategy and the breadth first search strategy, network trap, balance access and hyperlink extraction; the web data extraction technology including the extraction of Web text and the special characters in text analysis and processing; automatic acquisition method of Web data provided by the invention, make full use of network technology and robot web data extraction technology, the formation of Web automatic sampling method, collect valuable data from the mass of information and analysis and study, form a variety of enterprise decision-making basis, the data acquisition and market researchers One of the problems that faces is extending the availability of Web, and making a contribution to the development of data acquisition, especially automatic data acquisition.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种数据采集技术，特别是一种Web数据自动采集的方法。
技术介绍
随着网络资源的不断丰富和网络信息量的不断膨胀，人们对网络的依赖性越来越强，却也给服务对象从浩如烟海的互联网资源中快速找到自己所需的特定资源带来了不便；信息自古就有无限的价值，随着时代的不断发展，人类不知不觉已经来到了信息时代，各行各业都充斥了无数的信息，而信息的价值就在于数据的流通，如果数据能够及时的流通和传递起来，才能发挥信息真正的不可比拟的价值；在市场经济条件下，采集数据已经成为重要的工具和手段。如何从海量信息中收集有价值的数据并进行分析研究，形成企业各种决策的依据，是数据采集人员及市场研究人员所面临的一个问题；要从大量的数据中迅速的找到并获得自己所需要的信息和服务，变得越来越困难，服务对象在查询信息时往往会迷失他们的目标或者是得到一些比较偏颇的结果；数据必须经过汇总、整合、分析才能产生价值，零散的信息只能是新闻性的，无法体现真正的商业价值；对于企业以及信息分析人员来说，一方面要在大量的信息中过滤出有效的价值点，同时又要降低获取相应信息的成本，使信息的实际使用价值大于收集、分析信息等过程所产生的成本，使信息为企业的决策带来增值价值。互联网的普及，信息技术的发展，形成了大量的信息资源；从海量的信息中抽取出有用的资源，是当前迫切需要解决的问题，而Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中，使用户不能迅速...

【技术保护点】
一种Web数据自动采集的方法，其特征在于包括以下步骤：A、网络机器人技术：A1、设计网络机器人工作流程：将机器人以一个或一组URL为浏览起点对相应的WWW文档进行访问，所述WWW文档为HTML文档；A2、制定网络机器人设计原则；A21、制定机器人不包括的项目标准：在服务器上创建一个机器人文本文件，该文本文件中说明网站不能访问的链接和网站拒绝访问的机器人；A22、制定机器人META标签：即用户在页面中加入一个META标签，该META标签允许一个页面的所有者指定是否允许机器人程序来索引页面或者从页面中提取链接；A3、深度优先搜索策略和广度优先搜索策略；A31、深度优先搜索策略是从起始结点出发，对第一个文档进行分析后取回第一个链接所指向的页面，对该页面进行分析后再取回其第一个链接所指向的文档，反复执行直至搜索到不包含任何超级链接的文档为止，将其定义为一个完整的链，然后返回某一文档，继续选择该文档中的其余超级链接，搜索结束的标志是全部超级链接已搜索完毕；A32、广度优先搜索策略是对第一个文档进行分析后，将该Web页面中所有超级链接搜索完毕，再继续下一层的搜索，直到最底层的搜索完成为止；A4、网...

【技术特征摘要】
1.一种Web数据自动采集的方法，其特征在于包括以下步骤：
A、网络机器人技术：
A1、设计网络机器人工作流程：将机器人以一个或一组URL为浏览起点对
相应的WWW文档进行访问，所述WWW文档为HTML文档；
A2、制定网络机器人设计原则；
A21、制定机器人不包括的项目标准：在服务器上创建一个机器人文本文件，
该文本文件中说明网站不能访问的链接和网站拒绝访问的机器人；
A22、制定机器人META标签：即用户在页面中加入一个META标签，该
META标签允许一个页面的所有者指定是否允许机器人程序来索引页面或者从
页面中提取链接；
A3、深度优先搜索策略和广度优先搜索策略；
A31、深度优先搜索策略是从起始结点出发，对第一个文档进行分析后取回
第一个链接所指向的页面，对该页面进行分析后再取回其第一个链接所指向的
文档，反复执行直至搜索到不包含任何超级链接的文档为止，将其定义为一个
完整的链，然后返回某一文档，继续选择该文档中的其余超级链接，搜索结束
的标志是全部超级链接已搜索完毕；
A32、广度优先搜索策略是对第一个文档进行分析后，将该Web页面中所
有超级链接搜索完毕，再继续下一层的搜索，直到最底层的搜索完成为止；
A4、网络陷阱；
A41、在访问新URL前与待搜索和已搜索URL对列列表中的URL进行比
较，该比较为URL对象间的比较，将URL对列列表中不包含的URL添加到...

【专利技术属性】
技术研发人员：苏晓华，李勇，
申请(专利权)人：大连灵动科技发展有限公司，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人