一种校验中间页信息的方法和装置制造方法及图纸

技术编号:11204541 阅读:51 留言:0更新日期:2015-03-26 12:38
本发明专利技术提供了一种校验中间页信息的方法和装置,其中方法包括:抓取中间页;利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容;抓取所述中间页所指向的详情页;利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容;将同一待校验数据项在中间页中的内容与在详情页中的内容进行比对;输出比对结果。本发明专利技术不再依赖人工校验,实现了中间页信息校验的自动化,节约了人力成本,且具有高效、准确的特点。

【技术实现步骤摘要】

本专利技术涉及计算机应用
,特别涉及一种校验中间页信息的方法和装置
技术介绍
中间页是一个在搜索引擎和传统产业中间的状态来给别人提供服务,中间页能够将用户带到另外一个网站,这个网站通常是一个传统产业的网站。中间页服务商在实现站内查询时,将各查询结果以信息单元的形式进行整合展示,每个信息单元分别指向具体的详情页,在各信息单元中包含详情页中的关键项目内容。像目前比较火热的去哪儿网、58同城、汽车之家等等。当用户在诸如去哪儿网这类旅游搜索类网站中输入查询项时,返回如图1中所示的中间页。当用户点击其中一个信息单元时,例如点击标题为“北京-桂林往返3天2晚自由行全程入住四星级…”的信息单元时,跳转到具体的详情页,该详情页是某旅行社的网页,如图2中所示。由于中间页展示的信息并不一定是直接从信息原始网页提取的,来源可能多种多样,大部分是由信息提供方以一种结构化的数据形式提供。由于结构化数据的时效性问题,实际情况中经常出现中间页展示的信息与具体详情页的信息不相符的情况,这就需要对中间页的信息进行校验。目前对中间页的信息进行校验采用的多为人工校验,由于中间页信息为海量信息并且需要周期性校验,因此人工成本高昂且耗时太长。
技术实现思路
有鉴于此,本专利技术提供了一种校验中间页信息的方法和装置,以便于降低人工成本,提高效率。具体技术方案如下:本专利技术提供了一种校验中间页信息的方法,该方法包括:抓取中间页;利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容;抓取所述中间页所指向的详情页;利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容;将同一待校验数据项在中间页中的内容与在详情页中的内容进行比对;输出比对结果。根据本专利技术一优选实施方式,所述抓取中间页包括:通过自定义参数构造查询请求,抓取所述查询请求对应的中间页。根据本专利技术一优选实施方式,所述通过自定义参数构造查询请求包括:从中间页网站提供的各查询类目中分别选择至多一个查询关键词进行组合,利用组合得到的查询关键词来构造查询请求。根据本专利技术一优选实施方式,所述中间页模板和所述查询页模板包括:待校验数据项的名称和XPath;依据所述XPath解析待校验数据项的内容。根据本专利技术一优选实施方式,预先针对中间页url的类型信息配置所述中间页模板,在利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容时,根据抓取的中间页url的类型信息确定利用的中间页模板;预先针对详情页url的类型信息配置所述详情页模板,在利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容时,根据抓取的详情页url的类型信息确定利用的详情页模板。根据本专利技术一优选实施方式,从抓取的中间页中解析得到的待校验数据项的内容包括该中间页所指向的详情页地址;利用该中间页所指向的详情页地址执行所述抓取所述中间页所指向的详情页。根据本专利技术一优选实施方式,所述将同一待校验数据项在中间页中的内容与在详情页中的内容进行比对包括:将同一待校验数据项在中间页中的内容与在详情页中的内容进行相似度计算,确定满足相似度要求的待校验数据项在中间页中的内容准确,确定不满足相似度要求的待校验数据项在中间页中的内容不准确。本专利技术还提供了一种校验中间页信息的装置,该装置包括:第一抓取单元,用于抓取中间页;第一解析单元,用于利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容;第二抓取单元,用于抓取所述中间页所指向的详情页;第二解析单元,用于利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容;比对单元,用于将同一待校验数据项在中间页中的内容与在详情页中的内容进行比对;输出单元,用于输出所述比对单元的比对结果。根据本专利技术一优选实施方式,所述第一抓取单元,具体用于通过自定义参数构造查询请求,抓取所述查询请求对应的中间页。根据本专利技术一优选实施方式,所述第一抓取单元,具体用于从中间页网站提供的各查询类目中分别选择至多一个查询关键词进行组合,利用组合得到的查询关键词来构造查询请求。根据本专利技术一优选实施方式,所述中间页模板和所述查询页模板包括:待校验数据项的名称和XPath;所述第一解析单元,具体用于根据中间页模板包括的XPath从抓取的中间页中解析待校验数据项的内容;所述第二解析单元,具体用于根据详情页模板包括的XPath从抓取的详情页中解析待校验数据项的内容。根据本专利技术一优选实施方式,所述中间页模板是预先针对中间页url的类型信息配置的,所述详情页模板是预先针对详情页url的类型信息配置的;所述第一解析单元在利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容时,根据抓取的中间页url的类型信息确定利用的中间页模板;所述第二解析单元在利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容时,根据抓取的详情页url的类型信息确定利用的详情页模板。根据本专利技术一优选实施方式,所述第一解析单元解析得到的待校验数据项的内容包括该中间页所指向的详情页地址;所述第二抓取单元,具体用于利用该中间页所指向的详情页地址执行所述抓取所述中间页所指向的详情页的操作。根据本专利技术一优选实施方式,所述比对单元,具体用于将同一待校验数据项在中间页中的内容与在详情页中的内容进行相似度计算,确定满足相似度要求的待校验数据项在中间页中的内容准确,确定不满足相似度要求的待校验数据项在中间页中的内容不准确。由以上技术方案可以看出,本专利技术能够解析出待校验数据项在中间页中的内容以及在详情页中的内容,并将两者进行比对,从而实现了中间页信息的自动校验,相比较人工校验的方式,降低了人工成本,提高了效率。【附图说明】图1为一个中间页的实例图;图2为一个详情页的实例图;图3为本专利技术实施例提供的方法流程图;图4为本专利技术实施例提供的一个中间页的查询类目实例图;图5为本专利技术实施例提供的装置结构图。【具体实施方式】为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。图3为本专利技术实施例提供的方法流程图,如图3中所示,该方法可以具体包括以下步骤:首先在301中抓取中间页,即通过自定义参数构造查询请求,抓取查询请求对应的中间页。通常在提供中间页服务的网站中,会提本文档来自技高网...
一种校验中间页信息的方法和装置

【技术保护点】
一种校验中间页信息的方法,其特征在于,该方法包括:抓取中间页;利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容;抓取所述中间页所指向的详情页;利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容;将同一待校验数据项在中间页中的内容与在详情页中的内容进行比对;输出比对结果。

【技术特征摘要】
1.一种校验中间页信息的方法,其特征在于,该方法包括:
抓取中间页;
利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容;
抓取所述中间页所指向的详情页;
利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容;
将同一待校验数据项在中间页中的内容与在详情页中的内容进行比对;
输出比对结果。
2.根据权利要求1所述的方法,其特征在于,所述抓取中间页包括:
通过自定义参数构造查询请求,抓取所述查询请求对应的中间页。
3.根据权利要求2所述的方法,其特征在于,所述通过自定义参数构造查
询请求包括:
从中间页网站提供的各查询类目中分别选择至多一个查询关键词进行组
合,利用组合得到的查询关键词来构造查询请求。
4.根据权利要求1所述的方法,其特征在于,所述中间页模板和所述查询
页模板包括:待校验数据项的名称和XPath;
依据所述XPath解析待校验数据项的内容。
5.根据权利要求1或4所述的方法,其特征在于,预先针对中间页url的
类型信息配置所述中间页模板,在利用预先配置的中间页模板从抓取的中间页
中解析待校验数据项的内容时,根据抓取的中间页url的类型信息确定利用的中
间页模板;
预先针对详情页url的类型信息配置所述详情页模板,在利用预先配置的详
情页模板从抓取的详情页中解析待校验数据项的内容时,根据抓取的详情页url
的类型信息确定利用的详情页模板。
6.根据权利要求1所述的方法,其特征在于,从抓取的中间页中解析得到
的待校验数据项的内容包括该中间页所指向的详情页地址;
利用该中间页所指向的详情页地址执行所述抓取所述中间页所指向的详情
页。
7.根据权利要求1所述的方法,其特征在于,所述将同一待校验数据项在
中间页中的内容与在详情页中的内容进行比对包括:
将同一待校验数据项在中间页中的内容与在详情页中的内容进行相似度计
算,确定满足相似度要求的待校验数据项在中间页中的内容准确,确定不满足
相似度要求的待校验数据项在中间页中的内容不准确。
8.一种校验中间页信息的装置,其特征在于,该装置包括:
第一抓取单元,用于抓取中间页;
第一解析单元,用于利用预先配置的中间页模板从抓取的中间页中解析待校

【专利技术属性】
技术研发人员:赵辉闫庆宏沙安澜
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1