网页信息的解析方法及装置制造方法及图纸

技术编号:10053910 阅读:102 留言:0更新日期:2014-05-16 02:37
本发明专利技术提出了一种网页信息的解析方法,包括以下步骤:将待解析网页的网址与可解析的域名集合中的域名进行匹配;根据匹配成功的域名定位到对应的网址特征集合;将待解析网页的网址与该网址特征集合中的网址特征进行匹配;根据匹配成功的网址特征定位到对应的商品模板集合;将待解析网页与该商品模板集合中的商品模板进行匹配;将待解析的网页按照匹配成功的商品模板进行解析,返回解析结果。本发明专利技术还提供了一种对应的网页信息的解析装置。采用本发明专利技术,网站中多种形式的商品网址都能够准确识别出来,对于不同类型的商品网址能够采用不同种类的商品模板去匹配识别,从而尽可能多地将网页上的商品信息解析出来。

【技术实现步骤摘要】
网页信息的解析方法及装置
本专利技术涉及网页信息的解析技术,特别是当网页的网址多样化,网页信息呈现多样化时的信息解析抽取方法及其相应装置。
技术介绍
随着电子商务网站的不断发展,为了更好的展现出商品的信息,打动前来购物的消费者,现在网站的页面做的越来越复杂,对于要提取这些网站的商品信息的购物搜索来讲,提出了不小的挑战。首先商品页面的网址可能会有多种形式,其次商品页面信息也可能会有多种呈现形式。而传统的购物搜索在提取电商网站的商品页面信息时,一般都只维护一套模板,碰到这种复杂的页面情况时,会显得力不从心,只能成功解析一部分商品,导致解析的成功率比较低下。
技术实现思路
为了克服现有技术存在的缺陷,需要将网站中多种形式的商品网址都能够准确识别出来,对于不同类型的商品网址能够采用不同种类的商品模板去匹配识别,从而尽可能多地将网页上的商品信息解析出来。因此,依据本专利技术的一个方面,本专利技术提出了一种网页信息的解析方法,该方法包括以下步骤:将待解析网页的网址与可解析的域名集合中的域名进行匹配;根据匹配成功的域名定位到对应的网址特征集合;将待解析网页的网址与该网址特征集合中的网址特征进行匹配;根本文档来自技高网...
网页信息的解析方法及装置

【技术保护点】

【技术特征摘要】
1.一种网页信息的解析方法,其特征在于包括以下步骤:将待解析网页的网址与可解析的域名集合中的域名进行匹配;根据匹配成功的域名定位到对应的网址特征集合;将待解析网页的网址与该网址特征集合中的网址特征进行匹配;根据匹配成功的网址特征定位到对应的商品模板集合;将待解析网页与该商品模板集合中的商品模板进行匹配;将待解析的网页按照匹配成功的商品模板进行解析,返回解析结果;其中,所述可解析的域名集合中包括一个或多个域名,所述网址特征集合中包括一个或多个网址特征,所述商品模板集合中包括一个或多个商品模板,商品模板中包含需要从页面内容中提取出来的用于描述商品的项目信息。2.根据权利要求1所述的网页信息的解析方法,其特征在于:所述域名集合由一级域名构建。3.根据权利要求1所述的网页信息的解析方法,其特征在于:所述网址特征包括两个项目:域名和特征表达式。4.根据权利要求3所述的网页信息的解析方法,其特征在于:所述特征表达式,是字符串,或者是正则表达式。5.根据权利要求1所述的网页信息的解析方法,其特征在于:所述商品模板还包括页面类型项,该页面类型项包括用于描述页面类型的正则表达式或字符串,在所述将待解析网页与该商品模板集合中的商品模板进行匹配的步骤中,通过判断待解析网页的网址与商品模板中包括的页面类型项的正则表达式或字符串是否匹配,来确定待解析网页与商品模板是否匹配成功。6.根据权利要求1所述的网页信息的解析方法,其特征在于:同一个商品模板能够隶属于不同的商品模板集合,从而对应于不同的网址特征。7.根据权利要求1-4、5、6之一所述的网页信息的解析方法,其特征在于:所述涉及匹配的步骤中,是将待解析网页的网址与集合中的元素逐一进行匹配,如果集合中的全部元素都不能与待解析网页的网址匹配成功,则认为匹配失败,不进行下一步骤,解析过程结束。8.一种网页信息的解析装置,其特征在于包括以下模块:域...

【专利技术属性】
技术研发人员:周雷高扬姜鑫曹晴牛杏媛
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1