一种解析网页表格对象节点的方法技术

技术编号：4160714 阅读：324 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种解析网页表格对象节点的方法，包括：步骤１．定义一个三维数据表；步骤２．获取目标网页地址队列；步骤３．对于步骤２中的每一项地址，检查其是否已经存在于步骤１的三维数据表中的第一维中；步骤４．根据网页地址队列下载网页，将所下载的网页存储在网页临时存储区；步骤５．对网页临时存储区中的网页进行表格对象检查，提取存在表格节点的网页等７步。本发明专利技术提供了一套程序化和自动化的方法来实现网页表格节点数据分析流程。通过此流程可以有效获取网页中表格节点的数据，实现分析和比较，特别是为数据增值服务提供可能。本发明专利技术所提供的方法可以帮助用户进行大量的网络信息采集和整理，在互联网信息采集领域具有广阔的应用前景。

Method for analyzing table object node of web page

Including the method, the invention relates to a method for parsing web form object nodes: step 1. define a three-dimensional data table; step 2. get the destination page address queue; step 3. for each address in step 2, check whether the existing first dimension data table in step 1 in step 4.; according to the the web page address queue download page, the download page is stored in a temporary storage area \; a temporary storage area of step 5. on Web pages for the table object check, extracting 7 page step table node. The present invention provides a set of programmed and automated methods for realizing data analysis process of web form node. Through this process, the data of the table nodes in the web pages can be effectively obtained and analyzed and compared, especially for data value-added services. The method provided by the invention can help users carry out a large amount of network information collection and arrangement, and has broad application prospects in the field of Internet information collection.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网页数据分析领域，特别是解析网页表格对象节点的方法。
技术介绍
互联网的飞速发展，己使其成为人们最重要的一个信息来源。然而，信息的膨胀却给信息分析和处理带来了挑战。如何有效抽取用超文本标记语言(HTML)或扩展标记语言(XML)编写的网页中的有关信息，己成为互联网信息服务中一个重要的研宄课题。互联网(Internet)是一个开放的公共信息平台，越来越多的公司把他们的产品信息和服务信息发布通过网站服务器(Web服务器)发布到Internet上，或把整个业务搬到Web上。收集和归类这些动态信息，然后比较分析可以为很多增值的应用提供关键的数据。例如，汽车销售商会将所售产品，如车辆的品牌、型号、价格等数据以网页中表格(Table)的形式，向其受众展示出来；对于消费者来说，需要比较多个汽车销售商所售的统一车型之价格后，才会从价格较低的汽车销售商购买车辆。因此产生了这样的问题 (1)如何获知汽车销售商包含车辆数据表格的网页的位置； (2)如何定位网页中数据表格的位置； (3)如何对表格进行分析，通过比较发现价格最优惠的汽车销售商。为此，需要从这些描述产品的网页中的特定区域(即数据区)抽取相关产品(即数据对象)的属性之类信息。典型的，一个描述产品的网页包括一个数据区，其中涉及一个或多个数据对象，本专利技术就是要解决如何取得网页、如何取得网页中的特定区域的数据、如何归类分析和比较数据的问题。
技术实现思路
鉴于以上需求，本专利技术的目的在于提供一种取得网页，定位网页中的特定区域的数据，以及归类分析和比较数据方法，以提供数...

【技术保护点】
一种解析网页表格对象节点的方法，利用互联网提供一种取得网页，定位网页中的特定区域的数据，以及归类分析和比较数据，其特征在于：本方法包括以下步骤：　步骤１、定义一个三维数据表，设置其第一维是网页的地址，第二维是数据对象中的字段列，第三维是数据对象中的字段值；　步骤２、获取目标网页地址队列；　步骤３、对于步骤２中的每一项地址，检查其是否已经存在于步骤１的三维数据表中的第一维中；如果不存在，则将其填入三维数据表中的第一维中；如果存在，则将其删除，并检查下一项地址；　步骤４、根据网页地址队列下载网页，将所下载的网页存储在网页临时存储区；　步骤５、对网页临时存储区中的网页进行表格对象检查，提取存在表格节点的网页；　步骤６、对步骤３提取出的网页，分析其表格节点的数据区；将数据区中的数据转换为数据对象，该数据对象由字段列和字段值构成；　步骤７、为该网页的地址和从该网页表格节点数据区中提取并转换的数据对象建立一对一的映射关系，同时将该数据对象中的字段列和字段值填入到三维数据表中与第一维中地址相对应的第二维和第三维中。

【技术特征摘要】
1.一种解析网页表格对象节点的方法，利用互联网提供一种取得网页，定位网页中的特定区域的数据，以及归类分析和比较数据，其特征在于本方法包括以下步骤步骤1、定义一个三维数据表，设置其第一维是网页的地址，第二维是数据对象中的字段列，第三维是数据对象中的字段值；步骤2、获取目标网页地址队列；步骤3、对于步骤2中的每一项地址，检查其是否已经存在于步骤I的三维数据表中的第一维中；如果不存在，则将其填入三维数据表中的第一维中；如果存在，则将其删除，并检查下一项地址；步骤4、根据网页地址队列下载网页，将所下载的网页存储在网页临时存储区；步骤5、对网页临时存储区中的网页进行表格对象检查，提取存在表格节点的网页；步骤6、对步骤3提取出的网页，分析其表格节点的数据区；将数据区中的数据转换为数据对象，该数据对象由字段列和字段值构成；步骤7、为该网页的地址和从该网页表格节点数据区中提取并转换的数据对象建立一对一的映射关系，同时将该数据对象中的字段列和字段值填入到三维数据表中与第一维中地址相对应的第二维和第三维中。2.根据权利要求I所述的一种解析网页表格对象节点的方法，其特征在于所述步骤2获取网页地址队列包括两种方式，分别为直接获取和间接获取；所述直接获取方式，为读取用户提供的网络地址队列文件，该队列被存放于一文本文件中，每个地址占用一行，地址需符合URL格式；所述间接获取方式，为读取用户进行搜索的关键词，通过关键词在搜索引擎上搜索，搜索引擎以字符流的形式提供一个HTML文本，通过运用模式匹配(或规则表达式)的方法，将HTML文本中满足指定模式的URL地址抽取出来组成队列。3.根据权利要求2所述的一种解析网页表格对象节点的方法，其特征在于所述指定模式为一种按照一特定规则排列的字符串，该字符串分为三部分，其中第一部分的排列模式为“<Ahref=’”，第三部分的排列模式为“’ >...</A>”；其中第一部分中后面的引号，和第三部分中“>”之前的引号可以是单引号(‘)或双引号(“)，但必...

【专利技术属性】
技术研发人员：孙晨，
申请(专利权)人：北京瑞佳晨科技有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人