一种解析网页表格对象节点的方法技术

技术编号:4160714 阅读:324 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种解析网页表格对象节点的方法,包括:步骤1.定义一个三维数据表;步骤2.获取目标网页地址队列;步骤3.对于步骤2中的每一项地址,检查其是否已经存在于步骤1的三维数据表中的第一维中;步骤4.根据网页地址队列下载网页,将所下载的网页存储在网页临时存储区;步骤5.对网页临时存储区中的网页进行表格对象检查,提取存在表格节点的网页等7步。本发明专利技术提供了一套程序化和自动化的方法来实现网页表格节点数据分析流程。通过此流程可以有效获取网页中表格节点的数据,实现分析和比较,特别是为数据增值服务提供可能。本发明专利技术所提供的方法可以帮助用户进行大量的网络信息采集和整理,在互联网信息采集领域具有广阔的应用前景。

Method for analyzing table object node of web page

Including the method, the invention relates to a method for parsing web form object nodes: step 1. define a three-dimensional data table; step 2. get the destination page address queue; step 3. for each address in step 2, check whether the existing first dimension data table in step 1 in step 4.; according to the the web page address queue download page, the download page is stored in a temporary storage area \; a temporary storage area of step 5. on Web pages for the table object check, extracting 7 page step table node. The present invention provides a set of programmed and automated methods for realizing data analysis process of web form node. Through this process, the data of the table nodes in the web pages can be effectively obtained and analyzed and compared, especially for data value-added services. The method provided by the invention can help users carry out a large amount of network information collection and arrangement, and has broad application prospects in the field of Internet information collection.

【技术实现步骤摘要】

本专利技术涉及网页数据分析领域,特别是解析网页表格对象节点的方法
技术介绍
互联网的飞速发展,己使其成为人们最重要的一个信息来源。然而,信息的膨胀却给信息分析和处理带来了挑战。如何有效抽取用超文本标记语言(HTML)或扩展标记语言(XML)编写的网页中的有关信息,己成为互联网信息服务中一个重要的研宄课题。互联网(Internet)是一个开放的公共信息平台,越来越多的公司把他们的产品信息和服务信息发布通过网站服务器(Web服务器)发布到Internet上,或把整个业务搬到Web上。收集和归类这些动态信息,然后比较分析可以为很多增值的应用提供关键的数据。例如,汽车销售商会将所售产品,如车辆的品牌、型号、价格等数据以网页中表格(Table)的形式,向其受众展示出来;对于消费者来说,需要比较多个汽车销售商所售的统一车型之价格后,才会从价格较低的汽车销售商购买车辆。 因此产生了这样的问题 (1)如何获知汽车销售商包含车辆数据表格的网页的位置; (2)如何定位网页中数据表格的位置; (3)如何对表格进行分析,通过比较发现价格最优惠的汽车销售商。 为此,需要从这些描述产品的网页中的特定区域(即数据区)抽取相关产品(即数据对象)的属性之类信息。典型的,一个描述产品的网页包括一个数据区,其中涉及一个或多个数据对象,本专利技术就是要解决如何取得网页、如何取得网页中的特定区域的数据、如何归类分析和比较数据的问题。
技术实现思路
鉴于以上需求,本专利技术的目的在于提供一种取得网页,定位网页中的特定区域的数据,以及归类分析和比较数据方法,以提供数据增值服务。 本专利技术所采用的技术方案是,包括以下步骤 步骤I、定义一个三维数据表,设置其第一维是网页的地址,第二维是数据对象中的字段列,第三维是数据对象中的字段值; 步骤2、获取目标网页地址队列; 步骤3、对于步骤2中的每一项地址,检查其是否己经存在于步骤I的三维数据表中的第一维中;如果不存在,则将其填入三维数据表中的第一维中;如果存在,则将其删除,并检查下一项地址; 步骤4、根据网页地址队列下载网页,将所下载的网页存储在网页临时存储区; 步骤5、对网页临时存储区中的网页进行表格对象检查,提取存在表格节点的网页; 步骤6、对步骤3提取出的网页,分析其表格节点的数据区;将数据区中的数据转换为数据对象,该数据对象由字段列和字段值构成; 步骤7、为该网页的地址和从该网页表格节点数据区中提取并转换的数据对象建立一对一的映射关系,同时将该数据对象中的字段列和字段值填入到三维表中与第一维中地址相对应的第二维和第三维中。 本专利技术的有益效果是 本专利技术提供了一套程序化和自动化的节点的数据,实现分析和比较,特别是为数据增值服务提供可能。附图说明 以下结合实施例及其附图对本专利技术作进一步说明。 图I是本专利技术方法的流程示意图; 具体实施例方式 本专利技术的实施例,,利用互联网提供一种取得网页,定位网页中的特定区域的数据,以及归类分析和比较数据,本方法包括以下步骤 步骤1、定义一个三维数据表,设置其第一维是网页的地址,第二维是数据对象中的字段列,第三维是数据对象中的字段值; 步骤2、获取目标网页地址队列; 步骤3、对于步骤2中的每一项地址,检查其是否己经存在于步骤I的三维数据表中的第一维中;如果不存在,则将其填入三维数据表中的第一维中;如果存在,则将其删除,并检查下一项地址; 步骤4、根据网页地址队列下载网页,将所下载的网页存储在网页临时存储区; 步骤5、对网页临时存储区中的网页进行表格对象检查,提取存在表格节点的网页; 步骤6、对步骤3提取出的网页,分析其表格节点的数据区;将数据区中的数据转换为数据对象,该数据对象由字段列和字段值构成; 步骤7、为该网页的地址和从该网页表格节点数据区中提取并转换的数据对象建立一对一的映射关系,同时将该数据对象中的字段列和字段值填入到三其中,步骤I的目的是根据需要定义一个数据表,设置好数据保存的结构,这样在进行网页表格解析时,就可以直接将解析得到的数据对象按照设置好的规则存放在步骤I定义的数据表的相应位置,同时,通过这个预先定义的数据表,还可以将解析得到的数据对象与其原始网页的地址进行对应,方便用户在解析后进行其他操作,例如进行数据校验、数据更新等。 在本专利技术的实施例中,步骤2所述的获取网页地址队列包括两种方式,分别为直接获取和间接获取; 所述直接获取方式,为读取用户提供的网络地址队列文件,该队列被存放于一文本文件中,每个地址占用一行,地址需符合URL格式。即用户将需要进行表格解析、保存数据对象的网页的URL地址保存在一个文本文件中;并且在这个文本文件中,按照每个URL地址占用一行的方式存放所有需要的网页地址。 所述间接获取方式,为读取用户进行搜索的关键词,通过关键词在搜索引擎上搜索,搜索引擎以字符流的形式提供一个HTML文本,通过运用模式匹配(或规则表达式)的方法,将HTML文本中满足指定模式的URL地址抽取出来组成队列。例如,用户为获取某些信息,通过google、百度这样的综合互联网搜索引擎或者一些专业领域的搜索引擎进行搜索,可以利用支持本方法的中间服务读取用户输入的关键词,由中间服务通过该关键词在指定的搜索引擎上搜索,并将搜索引擎返回的搜索结果保存下来,这个搜索结果是搜索引擎以字符流的形式提供的一个HTML文本,然后再通过运用模式匹配(或规则表达式)的方法,将HTML文本中满足指定模式的URL地址抽取出来组成队列,并保存成一个文本文件,这个文本文件的格式与直接获取方式中由用户制作的在本实施例中,间接获取方式里面,从HTML文本中抽取URL地址的方式,其所述指定模式为一种按照一特定规则排列的字符串,该字符串分为三部分,其中第一部分的排列模式为“<Ahref=’”,第三部分的排列模式为“’</A>”;这个字符串的形式以下表来表示则更为直观 表1、HTML文本中符合指定模式的字符串的形式 <Ahref=’ URL 地址 ,></A> 第一部分第二部分第三部分 其中第一部分中后面的引号,和第三部分中之前的引号可以是单引号(‘)或双引号(“),但必须同时是双引号或单引号,而不能一个是双引号,另一个是单引号;第三部分中的省略号代表一个标记该A标记的名称或描述;在第一部分和第三部分之间的第二部分字符串即为满足指定模式的URL地址。 在本专利技术的实施例中,所述步骤4包括以下步骤 步骤4a:设置一个计数器,计数器初始值为零,计数器最大值为地址队列长度-I; 步骤4b:清除网页临时存储区; 步骤4c:检查计数器的值,如果计数器的值小于计数器最大值,则每完成前述步骤3的重复性检查之后,计数器+1; —旦计数器的值大于计数器最大值,则结束整个流程; 步骤4d:根据地址队列之顺序,下载网页,所下载之网页存放于网页临时存储区。 步骤4的目的是将网页地址队列中列出的网页下载到网页临时存储区中,同时设置一个计数器,用来检查网页地址的重复性,如果网页的URL地址与三维数据表中第一维中保本文档来自技高网...

【技术保护点】
一种解析网页表格对象节点的方法,利用互联网提供一种取得网页,定位网页中的特定区域的数据,以及归类分析和比较数据,其特征在于:本方法包括以下步骤: 步骤1、定义一个三维数据表,设置其第一维是网页的地址,第二维是数据对象中的字段列,第三维 是数据对象中的字段值; 步骤2、获取目标网页地址队列; 步骤3、对于步骤2中的每一项地址,检查其是否已经存在于步骤1的三维数据表中的第一维中;如果不存在,则将其填入三维数据表中的第一维中;如果存在,则将其删除,并检查下一项地址;  步骤4、根据网页地址队列下载网页,将所下载的网页存储在网页临时存储区; 步骤5、对网页临时存储区中的网页进行表格对象检查,提取存在表格节点的网页; 步骤6、对步骤3提取出的网页,分析其表格节点的数据区;将数据区中的数据转 换为数据对象,该数据对象由字段列和字段值构成; 步骤7、为该网页的地址和从该网页表格节点数据区中提取并转换的数据对象建立一对一的映射关系,同时将该数据对象中的字段列和字段值填入到三维数据表中与第一维中地址相对应的第二维和第三维中。

【技术特征摘要】
1.一种解析网页表格对象节点的方法,利用互联网提供一种取得网页,定位网页中的特定区域的数据,以及归类分析和比较数据,其特征在于本方法包括以下步骤 步骤1、定义一个三维数据表,设置其第一维是网页的地址,第二维是数据对象中的字段列,第三维是数据对象中的字段值; 步骤2、获取目标网页地址队列; 步骤3、对于步骤2中的每一项地址,检查其是否已经存在于步骤I的三维数据表中的第一维中;如果不存在,则将其填入三维数据表中的第一维中;如果存在,则将其删除,并检查下一项地址; 步骤4、根据网页地址队列下载网页,将所下载的网页存储在网页临时存储区; 步骤5、对网页临时存储区中的网页进行表格对象检查,提取存在表格节点的网页; 步骤6、对步骤3提取出的网页,分析其表格节点的数据区;将数据区中的数据转换为数据对象,该数据对象由字段列和字段值构成; 步骤7、为该网页的地址和从该网页表格节点数据区中提取并转换的数据对象建立一对一的映射关系,同时将该数据对象中的字段列和字段值填入到三维数据表中与第一维中地址相对应的第二维和第三维中。2.根据权利要求I所述的一种解析网页表格对象节点的方法,其特征在于所述步骤2获取网页地址队列包括两种方式,分别为直接获取和间接获取; 所述直接获取方式,为读取用户提供的网络地址队列文件,该队列被存放于一文本文件中,每个地址占用一行,地址需符合URL格式;所述间接获取方式,为读取用户进行搜索的关键词,通过关键词在搜索引擎上搜索,搜索引擎以字符流的形式提供一个HTML文本,通过运用模式匹配(或规则表达式)的方法,将HTML文本中满足指定模式的URL地址抽取出来组成队列。3.根据权利要求2所述的一种解析网页表格对象节点的方法,其特征在于所述指定模式为一种按照一特定规则排列的字符串,该字符串分为三部分,其中第一部分的排列模式为“<Ahref=’”,第三部分的排列模式为“’ >...</A>”;其中第一部分中后面的引号,和第三部分中“>”之前的引号可以是单引号(‘)或双引号(“),但必...

【专利技术属性】
技术研发人员:孙晨
申请(专利权)人:北京瑞佳晨科技有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1