网页信息的解析方法及装置制造方法及图纸

技术编号:10053910 阅读:86 留言:0更新日期:2014-05-16 02:37
本发明专利技术提出了一种网页信息的解析方法,包括以下步骤:将待解析网页的网址与可解析的域名集合中的域名进行匹配;根据匹配成功的域名定位到对应的网址特征集合;将待解析网页的网址与该网址特征集合中的网址特征进行匹配;根据匹配成功的网址特征定位到对应的商品模板集合;将待解析网页与该商品模板集合中的商品模板进行匹配;将待解析的网页按照匹配成功的商品模板进行解析,返回解析结果。本发明专利技术还提供了一种对应的网页信息的解析装置。采用本发明专利技术,网站中多种形式的商品网址都能够准确识别出来,对于不同类型的商品网址能够采用不同种类的商品模板去匹配识别,从而尽可能多地将网页上的商品信息解析出来。

【技术实现步骤摘要】
网页信息的解析方法及装置
本专利技术涉及网页信息的解析技术,特别是当网页的网址多样化,网页信息呈现多样化时的信息解析抽取方法及其相应装置。
技术介绍
随着电子商务网站的不断发展,为了更好的展现出商品的信息,打动前来购物的消费者,现在网站的页面做的越来越复杂,对于要提取这些网站的商品信息的购物搜索来讲,提出了不小的挑战。首先商品页面的网址可能会有多种形式,其次商品页面信息也可能会有多种呈现形式。而传统的购物搜索在提取电商网站的商品页面信息时,一般都只维护一套模板,碰到这种复杂的页面情况时,会显得力不从心,只能成功解析一部分商品,导致解析的成功率比较低下。
技术实现思路
为了克服现有技术存在的缺陷,需要将网站中多种形式的商品网址都能够准确识别出来,对于不同类型的商品网址能够采用不同种类的商品模板去匹配识别,从而尽可能多地将网页上的商品信息解析出来。因此,依据本专利技术的一个方面,本专利技术提出了一种网页信息的解析方法,该方法包括以下步骤:将待解析网页的网址与可解析的域名集合中的域名进行匹配;根据匹配成功的域名定位到对应的网址特征集合;将待解析网页的网址与该网址特征集合中的网址特征进行匹配;根据匹配成功的网址特征定位到对应的商品模板集合;将待解析网页与该商品模板集合中的商品模板进行匹配;将待解析的网页按照匹配成功的商品模板进行解析,返回解析结果。可选地,所述域名集合由一级域名构建。可选地,所述网址特征包括两个项目:域名和特征表达式。可选地,所述特征表达式,是字符串,或者是正则表达式。可选地,所述可解析的域名集合中包括一个或多个域名,所述网址特征集合中包括一个或多个网址特征,所述商品模板集合中包括一个或多个商品模板,商品模板中包含需要从页面内容中提取出来的用于描述商品的项目。可选地,所述商品模板还包括页面类型项,该页面类型项包括用于描述页面类型的正则表达式或字符串,在所述将待解析网页与该商品模板集合中的商品模板进行匹配的步骤中,通过判断待解析网页的网址与商品模板中包括的页面类型项的正则表达式或字符串是否匹配,来确定待解析网页与商品模板是否匹配成功。可选地,同一个商品模板能够隶属于不同的商品模板集合,从而对应于不同的网址特征。可选地,所述涉及匹配的步骤中,是将待解析网页的网址与集合中的元素逐一进行匹配,如果集合中的全部元素都不能与待解析网页的网址匹配成功,则认为匹配失败,不进行下一步骤,解析过程结束。根据本专利技术的另一方面,本专利技术还提出了一种网页信息的解析装置,该解析装置包括以下模块:域名匹配模块,将待解析网页的网址与可解析的域名集合中的域名进行匹配;域名定位模块,根据匹配成功的域名定位到对应的网址特征集合;网址匹配模块,将待解析网页的网址与该网址特征集合中的网址特征进行匹配;网址定位模块,根据匹配成功的网址特征定位到对应的商品模板集合;商品匹配模块,将待解析网页与该商品模板集合中的商品模板进行匹配;解析模块,将待解析的网页按照匹配成功的商品模板进行解析,返回解析结果。可选地,所述域名集合由一级域名构建。可选地,所述网址特征包括两个项目:域名和特征表达式。可选地,所述特征表达式,是字符串,或者是正则表达式。可选地,所述可解析的域名集合中包括一个或多个域名,所述网址特征集合中包括一个或多个网址特征,所述商品模板集合中包括一个或多个商品模板,商品模板中包含需要从页面内容中提取出来的用于描述商品的项目。可选地,所述商品模板还包括页面类型项,该页面类型项包括用于描述页面类型的正则表达式或字符串,在所述商品匹配模块将待解析网页与该商品模板集合中的商品模板进行匹配过程中,通过判断待解析网页的网址与商品模板中包括的页面类型项的正则表达式或字符串是否匹配,来确定待解析网页与商品模板是否匹配成功。可选地,同一个商品模板能够隶属于不同的商品模板集合,从而对应于不同的网址特征。可选地,所述涉及匹配的过程中,是将待解析网页的网址与集合中的元素逐一进行匹配,如果集合中的全部元素都不能与待解析网页的网址匹配成功,则认为匹配失败,不进行后续处理,解析过程结束。根据本专利技术实施例的一种网页信息的解析方法可以看出,本公开解决了多域名、多模板网站的有效信息提取的问题,能够尽可能多地将网页上的商品信息有效并准确的解析出来。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1是根据本专利技术一个实施例的网页信息解析方法的流程图;图2是根据本专利技术一个实施例的商品模板的组织结构示意图;图3是根据本专利技术另一个实施例的网页信息解析装置的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。如图1所示的本专利技术的一种网页信息的解析方法,包括以下步骤:步骤S110,解析开始前,首先需要获取待解析网页的网址。由于并非所有网页的网址都能够被解析,因此,需要根据待解析网页的网址判断其是否能够被解析,比如对于每个商家,都需要区分这个网站表述的商品特征和非商品的特征,商家感兴趣的自然是商品特征,因此具备商品特征的网址是需要被解析并提取的,而不相干或不感兴趣的网址则不需要被解析或提取。在实际运行中,设置一个能够解析的域名集合是一种可选的解决方案,该域名集合中包括一个或多个域名,只需要将网址与域名集合中的域名匹配一下就能够知道该网址的网页是否能被解析。由于域名仍然可能存在多种形式,因此我们优选按照商家的一级域名来构成这个域名集合,使得它更具备独特性。下面举例说明一级域名的含义:商品域名一级域名product.dangdang.comdangdang.comwww.amazon.cnamazon.cn使用一级域名做为划分基准,另外一个好处是有利于下载系统资源调度。步骤S120,将待解析网页的网址与可解析的域名集合中的域名进行匹配,判断域名匹配是否成功,若匹配成功则进行步骤S130继续解析,若匹配不成功则进行步骤S180结束解析。步骤S130,根据匹配成功的域名定位到对应的网址特征集合。步骤S140,将待解析网页的网址与该网址特征集合中的网址特征进行匹配,判断网址特征是否匹配成功,若匹配成功则进行步骤S150继续解析,若匹配不成功则进行步骤S180结束解析。网址特征是指URL特征(统一资源定位符UniformResourceLocator,缩写为URL),URL作为网络资源的唯一地址标识,具有很多有效的特征,例如:时序特征、正交特征、长度特征等,URL特征是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址,互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以本文档来自技高网...
网页信息的解析方法及装置

【技术保护点】

【技术特征摘要】
1.一种网页信息的解析方法,其特征在于包括以下步骤:将待解析网页的网址与可解析的域名集合中的域名进行匹配;根据匹配成功的域名定位到对应的网址特征集合;将待解析网页的网址与该网址特征集合中的网址特征进行匹配;根据匹配成功的网址特征定位到对应的商品模板集合;将待解析网页与该商品模板集合中的商品模板进行匹配;将待解析的网页按照匹配成功的商品模板进行解析,返回解析结果;其中,所述可解析的域名集合中包括一个或多个域名,所述网址特征集合中包括一个或多个网址特征,所述商品模板集合中包括一个或多个商品模板,商品模板中包含需要从页面内容中提取出来的用于描述商品的项目信息。2.根据权利要求1所述的网页信息的解析方法,其特征在于:所述域名集合由一级域名构建。3.根据权利要求1所述的网页信息的解析方法,其特征在于:所述网址特征包括两个项目:域名和特征表达式。4.根据权利要求3所述的网页信息的解析方法,其特征在于:所述特征表达式,是字符串,或者是正则表达式。5.根据权利要求1所述的网页信息的解析方法,其特征在于:所述商品模板还包括页面类型项,该页面类型项包括用于描述页面类型的正则表达式或字符串,在所述将待解析网页与该商品模板集合中的商品模板进行匹配的步骤中,通过判断待解析网页的网址与商品模板中包括的页面类型项的正则表达式或字符串是否匹配,来确定待解析网页与商品模板是否匹配成功。6.根据权利要求1所述的网页信息的解析方法,其特征在于:同一个商品模板能够隶属于不同的商品模板集合,从而对应于不同的网址特征。7.根据权利要求1-4、5、6之一所述的网页信息的解析方法,其特征在于:所述涉及匹配的步骤中,是将待解析网页的网址与集合中的元素逐一进行匹配,如果集合中的全部元素都不能与待解析网页的网址匹配成功,则认为匹配失败,不进行下一步骤,解析过程结束。8.一种网页信息的解析装置,其特征在于包括以下模块:域...

【专利技术属性】
技术研发人员:周雷高扬姜鑫曹晴牛杏媛
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1