一种网络数据解析方法与装置制造方法及图纸

技术编号:8271448 阅读:144 留言:0更新日期:2013-01-31 03:40
本发明专利技术提供了一种网络数据解析方法与装置,用以解决现有技术中网络数据的解析技术存在解析效率低、成本过高的问题。该方法包括:根据网页的XPATH路径中的网络数据路径与其对应的关键字路径的相对位置关系,生成该网页中网络数据的解析规则;对所要解析的网络数据对应的关键字进行匹配,查找到该关键字的当前路径;根据解析规则和查找到的关键字的当前路径,定位所要解析的网络数据的位置;根据所定位的所要解析的网络数据的位置提取出所要解析的网络数据。采用本发明专利技术的技术方案,有助于提高网络数据解析的效率和降低成本。

【技术实现步骤摘要】
本专利技术涉及电子信息领域,尤其涉及一种网络数据解析方法与装置
技术介绍
随着互联网的广泛普及,使对网络数据的应用需求愈来愈大,这就特别需要一个能正确解析出其内容并转成统一格式的工具。这个工具的关键技术就在数据解析上。目前对网络数据的解析技术,特别是对半结构化网页格式的网络数据的解析技术,主要使用的方法是使用正则表达式匹配关键字提取相关内容。但这种技术在实际应用过程中存在一些不足的地方,由于该技术过分依赖于网页中关键字及HTML(Hyper TextMark-up Language,超文本标记语言标签),需要将整个网页进行扫描,同时网页的页面改·动对现在规则影响较大。每次的网页改动都需要开发人员去分析网页,然后重写编写新的匹配规则,再测试,再发布使用,因此该方式造成解析效率低、不灵活、成本过高。在现有技术中,对网络数据的解析技术存在解析效率低、成本过高的问题,对于该问题,目如尚未提出有效解决方案。
技术实现思路
本专利技术的主要目的是提供一种网络数据解析方法与装置,以解决现有技术中网络数据的解析技术存在解析效率低、成本过高的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种网络数据解析方法。本专利技术的网络数据解析方法包括根据网页的XPATH(XML路径语言)路径中的网络数据路径与其对应的关键字路径的相对位置关系,生成该网页中网络数据的解析规则;对所要解析的网络数据对应的关键字进行匹配,查找到该关键字的当前路径;根据解析规则和查找到的关键字的当前路径,定位所要解析的网络数据的位置;根据所定位的所要解析的网络数据的位置提取出所要解析的网络数据。进一步地,对所要解析的网络数据对应的关键字进行匹配之前还包括先匹配出所要解析的网络数据所在的区域关键字;通过区域关键字找到所要解析的网络数据所在的区块。进一步地,对于所要解析的网络数据所在节点包含关键字的解析业务,解析出所要解析的网络数据之前还包括根据所要解析的网络数据在其所在节点中的位置和/或该网络数据的内容,制定所要解析的网络数据的提取规则。进一步地,生成该网页中网络数据的解析规则之前还包括根据网页中的DOM(DocumentObject Model,文档对象模型)结构,生成该网页的XPATH路径。根据本专利技术的另一方面,提供了一种网络数据解析装置。本专利技术的网络数据解析装置包括解析规则生成模块,用于根据网页的XPATH路径中的网络数据路径与其对应的关键字路径的相对位置关系,生成该网页中网络数据的解析规则;关键字匹配模块,用于对所要解析的网络数据对应的关键字进行匹配,查找到该关键字的当前路径;定位模块,用于根据解析规则和查找到的关键字的当前路径,定位所要解析的网络数据的位置;提取模块,用于根据所定位的所要解析的网络数据的位置提取出所要解析的网络数据。进一步地,装置还包括区域匹配模块,用于对所要解析的网络数据对应的关键字进行匹配之前,先匹配出所要解析的网络数据所在的区域关键字;查找模块,用于通过区域关键字找到所要解析的网络数据所在的区块。进一步地,装置还包括提取规则制定模块,用于对于所要解析的网络数据所在节点包含关键字的解析业务,解析出所要解析的网络数据之前,根据所要解析的网络数据在其所在节点中的位置和/或该网络数据的内容,制定所要解析的网络数据的提取规则。进一步地,装置还包括路径生成模块,用于根据网页中的DOM结构,生成该网页 的XPATH路径。根据本专利技术的技术方案,通过设置解析项与其对应的关键字的相对位置有关的解析规则,并且通过关键字匹配的方式定位关键字的当前动态路径,大大提高了解析的效率,降低了人力和维护成本。附图说明说明书附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中图I是根据本专利技术实施例的网络数据解析方法的主要步骤的流程图;图2是本专利技术实施例的网络数据解析方法要解析的第一种网页内容的截图;图3是图2的XPATH路径截图;图4是本专利技术实施例的网络数据解析方法要解析的第二种网页内容的截图;图5是本专利技术实施例的网络数据解析方法要解析的第三种网页内容的截图;图6是对图4中的网络数据提取结果后的截图;图7是本专利技术实施例的网络数据解析方法要解析的第四种网页内容的截图;以及图8是根据本专利技术实施例的网络数据解析装置的主要模块的示意图。具体实施例方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。图I是根据本专利技术实施例的网络数据解析方法的主要步骤的流程图。如图I所示,本专利技术的网络数据解析方法主要包括如下步骤步骤SlOl :根据网页中的DOM结构,生成该网页的XPATH路径。对于该步骤,以图2和图3进行示例说明。图2是本专利技术实施例的网络数据解析方法要解析的第一种网页内容的截图20。如图2所示,该截图20示出了的网页内容为半结构化网页格式的简历。该图共包括以下基本概念区域节点即能代表一个区块的节点,图2中为第4,10行的信息“个人简历,企业信息”。关键节点即关键字节点,图2中为第5,7,11,13行的信息“姓名,性别,企业名称,规模100人以上”。内容节点即要解析的项。图2中为第6,8,12,13行的信息“张三,男,某某公司,规模100人以上”。图3是图2的XPATH路径截图30。该截图30是基于分析图2网页中的DOM结构即各节点生成的。步骤S103 :根据步骤SlOl中网页的XPATH路径中的网络数据路径与其对应的关键字路径的相对位置关系,生成该网页中网络数据的解析规则。在截图30中,可以看出 姓名XPATH = /html [I] /body [I] /div [2]张三XPATH = /html [I]/body [I]/div [3]则解析项“姓名值”的解析规则是 姓名值XPATH的相对位置=姓名XPATH+向下加I通过上述方法同样求得其他解析项的解析规则。由于该解析规则只与位置有关,大大提高了解析的效率和准确性。步骤S105 :对所要解析的网络数据对应的关键字进行匹配,查找到该关键字的当i U路径。因为要想提取解析项中的网络数据,就要找到该解析项的位置,而由步骤S103制定的解析规则可知,要找到解析项的位置,就要查找到解析项对应的关键字的路径。在实际操作过程中关键字的XPATH路径不可能是不变的,会因为各种原因XPATH路径不相同。但是关键字是不变的,可枚举的。所以基于这个特性,我们可以使用关键字匹配找到“关键字”当前所在的XPATH路径,该方法对网页结构变化的动态网页更能体现其操作的灵活性。图4是本专利技术实施例的网络数据解析方法要解析的第二种网页内容的截图40,截图40示出了其为一动态网页,该网页结构中第5行插入了广告信息。这个时候此节点以下的所有节点的XPATH位置全部都变化了。若要查找截图40中关键字“姓名”的路径,就可以通过关键字匹配找到“姓名”当前的动态路径为 /html [I]/body [I]/div [3]。 图5是本专利技术实施例的网络数据解析方法要解析的第三种网页内容的截图50。截图50示出了在同一个网页内出现了两个相同的关键字,这是由于网页内容的多样性,甚至往往会在同一个网页内出现多个相同的关本文档来自技高网...

【技术保护点】
一种网络数据解析方法,其特征在于,包括:根据网页的XPATH路径中的网络数据路径与其对应的关键字路径的相对位置关系,生成该网页中网络数据的解析规则;对所要解析的网络数据对应的关键字进行匹配,查找到该关键字的当前路径;根据所述解析规则和查找到的所述关键字的当前路径,定位所述所要解析的网络数据的位置;根据所定位的所述所要解析的网络数据的位置提取出所述所要解析的网络数据。

【技术特征摘要】
1.一种网络数据解析方法,其特征在于,包括 根据网页的XPATH路径中的网络数据路径与其对应的关键字路径的相对位置关系,生成该网页中网络数据的解析规则; 对所要解析的网络数据对应的关键字进行匹配,查找到该关键字的当前路径; 根据所述解析规则和查找到的所述关键字的当前路径,定位所述所要解析的网络数据的位置; 根据所定位的所述所要解析的网络数据的位置提取出所述所要解析的网络数据。2.根据权利要求I所述的方法,其特征在于,所述对所要解析的网络数据对应的关键字进行匹配之前还包括 先匹配出所述所要解析的网络数据所在的区域关键字; 通过所述区域关键字找到所述所要解析的网络数据所在的区块。3.根据权利要求I所述的方法,其特征在于,对于所述所要解析的网络数据所在节点包含关键字的解析业务,所述解析出所述所要解析的网络数据之前还包括 根据所述所要解析的网络数据在其所在节点中的位置和/或该网络数据的内容,制定所述所要解析的网络数据的提取规则。4.根据权利要求I至3中任一项所述的方法,其特征在于,所述生成该网页中网络数据的解析规则之前还包括 根据所述网页中的DOM结构,生成该网页的XPATH路径。5.一种网络数据解析装置,其特征在于,包括 解析规则生成模块...

【专利技术属性】
技术研发人员:武伟刘生权
申请(专利权)人:北京北森测评技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1