【技术实现步骤摘要】
本专利技术涉及计算机应用
,特别涉及一种校验中间页信息的方法和装置。
技术介绍
中间页是一个在搜索引擎和传统产业中间的状态来给别人提供服务,中间页能够将用户带到另外一个网站,这个网站通常是一个传统产业的网站。中间页服务商在实现站内查询时,将各查询结果以信息单元的形式进行整合展示,每个信息单元分别指向具体的详情页,在各信息单元中包含详情页中的关键项目内容。像目前比较火热的去哪儿网、58同城、汽车之家等等。当用户在诸如去哪儿网这类旅游搜索类网站中输入查询项时,返回如图1中所示的中间页。当用户点击其中一个信息单元时,例如点击标题为“北京-桂林往返3天2晚自由行全程入住四星级…”的信息单元时,跳转到具体的详情页,该详情页是某旅行社的网页,如图2中所示。由于中间页展示的信息并不一定是直接从信息原始网页提取的,来源可能多种多样,大部分是由信息提供方以一种结构化的数据形式提供。由于结构化数据的时效性问题,实际情况中经常出现中间页展示的信息与具体详情页的信息不相符的情况,这就需要对中间页的信息进行校验。目前对中间页的信息进行校验采用的多为人工校验,由于中间页信息为海量信息并且需要周期性校验,因此人工成本高昂且耗时太长。
技术实现思路
有鉴于此,本专利技术提供了一种校验中间页信息的方法和装置,以便于降低人工成本,提高效率。具体技术方案如下:本专利技术提供了一种校验中间页信息的方 ...
【技术保护点】
一种校验中间页信息的方法,其特征在于,该方法包括:抓取中间页;利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容;抓取所述中间页所指向的详情页;利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容;将同一待校验数据项在中间页中的内容与在详情页中的内容进行比对;输出比对结果。
【技术特征摘要】 【专利技术属性】
1.一种校验中间页信息的方法,其特征在于,该方法包括:
抓取中间页;
利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容;
抓取所述中间页所指向的详情页;
利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容;
将同一待校验数据项在中间页中的内容与在详情页中的内容进行比对;
输出比对结果。
2.根据权利要求1所述的方法,其特征在于,所述抓取中间页包括:
通过自定义参数构造查询请求,抓取所述查询请求对应的中间页。
3.根据权利要求2所述的方法,其特征在于,所述通过自定义参数构造查
询请求包括:
从中间页网站提供的各查询类目中分别选择至多一个查询关键词进行组
合,利用组合得到的查询关键词来构造查询请求。
4.根据权利要求1所述的方法,其特征在于,所述中间页模板和所述查询
页模板包括:待校验数据项的名称和XPath;
依据所述XPath解析待校验数据项的内容。
5.根据权利要求1或4所述的方法,其特征在于,预先针对中间页url的
类型信息配置所述中间页模板,在利用预先配置的中间页模板从抓取的中间页
中解析待校验数据项的内容时,根据抓取的中间页url的类型信息确定利用的中
间页模板;
预先针对详情页url的类型信息配置所述详情页模板,在利用预先配置的详
情页模板从抓取的详情页中解析待校验数据项的内容时,根据抓取的详情页url
的类型信息确定利用的详情页模板。
6.根据权利要求1所述的方法,其特征在于,从抓取的中间页中解析得到
的待校验数据项的内容包括该中间页所指向的详情页地址;
利用该中间页所指向的详情页地址执行所述抓取所述中间页所指向的详情
页。
7.根据权利要求1所述的方法,其特征在于,所述将同一待校验数据项在
中间页中的内容与在详情页中的内容进行比对包括:
将同一待校验数据项在中间页中的内容与在详情页中的内容进行相似度计
算,确定满足相似度要求的待校验数据项在中间页中的内容准确,确定不满足
相似度要求的待校验数据项在中间页中的内容不准确。
8.一种校验中间页信息的装置,其特征在于,该装置包括:
第一抓取单元,用于抓取中间页;
第一解析单元,用于利用预先配置的中间页模板从抓取的中间页中解析待校
技术研发人员:赵辉,闫庆宏,沙安澜,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。