页面聚合方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:24206866 阅读:20 留言:0更新日期:2020-05-20 15:02
本发明专利技术公开了页面聚合方法、装置、计算机设备及存储介质,其中方法包括:按照抓取要求从站点抓取页面,并将抓取到的页面作为一条物料存储到物料库中;根据物料库中的页面的URL挖掘出分页与封面页之间的映射规则;根据映射规则,将物料库中的封面页对应的分页内容聚合到封面页,生成一条新的物料。应用本发明专利技术所述方案,能够优化推荐结果等。

Page aggregation method, device, computer equipment and storage medium

【技术实现步骤摘要】
页面聚合方法、装置、计算机设备及存储介质
本专利技术涉及计算机应用技术,特别涉及页面聚合方法、装置、计算机设备及存储介质。
技术介绍
推荐系统等可以根据用户的浏览行为为用户提供相关推荐结果。但实践发现,很多网页内容会分成多个页面显示。比如较长的新闻,可能会分成多页显示,用户通过点击下一页等浏览整篇新闻,小说或文摘等站点更是如此,一篇文章经常会分成很多页显示。如果将所有分页都当成独立页面处理,会带来很多问题,比如:推荐结果中有分页,用户点击推荐结果,可能首先看到的是某个中间页,不符合用户的浏览习惯,另外,不同分页本质上属于同一可推荐对象,如果能将内容聚合后用于策略分析,能获得更优质的推荐结果,提升点击率等。
技术实现思路
有鉴于此,本专利技术提供了页面聚合方法、装置、计算机设备及存储介质。具体技术方案如下:一种页面聚合方法,包括:按照抓取要求从站点抓取页面,并将抓取到的页面作为一条物料存储到物料库中;根据所述物料库中的页面的统一资源定位符URL挖掘出分页与封面页之间的映射规则;根据所述映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页,生成一条新的物料。根据本专利技术一优选实施例,所述映射规则中包括:所述映射规则所属的站点、分页的URL的正则形式以及封面页的URL的正则形式。根据本专利技术一优选实施例,所述挖掘出分页与封面页之间的映射规则之后,进一步包括:对挖掘出的映射规则进行过滤,过滤掉不符合要求的映射规则。根据本专利技术一优选实施例,所述对挖掘出的映射规则进行过滤包括:按照预先设定的打分规则,分别对挖掘出的每条映射规则进行打分,根据打分结果确定出所述映射规则是否为符合要求的映射规则。根据本专利技术一优选实施例,所述按照预先设定的打分规则,分别对挖掘出的每条映射规则进行打分,根据打分结果确定出所述映射规则是否为符合要求的映射规则包括:针对任一映射规则,统计满足以下条件的URL对数:所述物料库中的一个分页通过所述映射规则映射到的封面页也存储在所述物料库中,且所述分页与所述封面页的标题的相似度大于预先设定的第一阈值;将统计出的URL对数作为所述映射规则的打分;若所述打分大于预先设定的第二阈值,则确定所述映射规则为符合要求的映射规则,否则,确定所述映射规则为不符合要求的映射规则。根据本专利技术一优选实施例,所述对挖掘出的映射规则进行过滤包括:针对任一映射规则,确定所述映射规则是否位于预先生成的黑名单中,若是,则确定所述映射规则为不符合要求的映射规则。根据本专利技术一优选实施例,获取映射规则的白名单;所述根据所述映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页包括:根据所述白名单中的映射规则以及过滤后的挖掘出的映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页。根据本专利技术一优选实施例,所述根据所述映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页,生成一条新的物料包括:针对所述物料库中的每个页面,分别进行以下处理:确定所述页面是否为分页;若是,则根据所述分页对应的映射规则映射得到所述分页对应的封面页,并分别获取所述封面页对应的各分页,将各分页内容聚合到所述封面页,生成一条新的物料。根据本专利技术一优选实施例,所述分别获取所述封面页对应的各分页包括:根据所述封面页对应的映射规则生成所述封面页对应的各分页的URL;分别确定生成的各URL对应的分页是否存储在所述物料库中,若否,则根据所述分页的URL抓取所述分页。根据本专利技术一优选实施例,该方法进一步包括:当每次满足更新条件时,抓取新的页面存储到所述物料库中,并根据所述物料库中的物料进行映射规则的挖掘以及页面聚合操作。一种页面聚合装置,包括:抓取单元、挖掘单元以及聚合单元;所述抓取单元,用于按照抓取要求从站点抓取页面,并将抓取到的页面作为一条物料存储到物料库中;所述挖掘单元,用于根据所述物料库中的页面的统一资源定位符URL挖掘出分页与封面页之间的映射规则;所述聚合单元,用于根据所述映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页,生成一条新的物料。根据本专利技术一优选实施例,所述映射规则中包括:所述映射规则所属的站点、分页的URL的正则形式以及封面页的URL的正则形式。根据本专利技术一优选实施例,所述装置中进一步包括:过滤单元;所述过滤单元,用于对挖掘出的映射规则进行过滤,过滤掉不符合要求的映射规则。根据本专利技术一优选实施例,所述过滤单元按照预先设定的打分规则,分别对挖掘出的每条映射规则进行打分,根据打分结果确定出所述映射规则是否为符合要求的映射规则。根据本专利技术一优选实施例,所述过滤单元针对任一映射规则,统计满足以下条件的URL对数:所述物料库中的一个分页通过所述映射规则映射到的封面页也存储在所述物料库中,且所述分页与所述封面页的标题的相似度大于预先设定的第一阈值;将统计出的URL对数作为所述映射规则的打分;若所述打分大于预先设定的第二阈值,则确定所述映射规则为符合要求的映射规则,否则,确定所述映射规则为不符合要求的映射规则。根据本专利技术一优选实施例,针对任一映射规则,所述过滤单元确定所述映射规则是否位于预先生成的黑名单中,若是,则确定所述映射规则为不符合要求的映射规则。根据本专利技术一优选实施例,所述过滤单元进一步用于,获取映射规则的白名单;所述聚合单元根据所述白名单中的映射规则以及过滤后的挖掘出的映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页。根据本专利技术一优选实施例,所述聚合单元针对所述物料库中的每个页面,分别进行以下处理:确定所述页面是否为分页;若是,则根据所述分页对应的映射规则映射得到所述分页对应的封面页,并分别获取所述封面页对应的各分页,将各分页内容聚合到所述封面页,生成一条新的物料。根据本专利技术一优选实施例,所述聚合单元根据所述封面页对应的映射规则生成所述封面页对应的各分页的URL,并分别确定生成的各URL对应的分页是否存储在所述物料库中,若否,则根据所述分页的URL抓取所述分页。一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。基于上述介绍可以看出,采用本专利技术所述方案,可从抓取到的物料中自动挖掘出分页与封面页之间的映射规则,进而可根据挖掘出的映射规则,将封面页对应的分页内容聚合到封面页,这样,当需要向用户推荐页面时,可极大地减少推荐结果中的分页,从而更符合用户的浏览习惯,并优化了推荐结果,提升了点击率等。【附图说明】图1为本专利技术所述页面聚合方法实施例的流程图。图2本文档来自技高网...

【技术保护点】
1.一种页面聚合方法,其特征在于,包括:/n按照抓取要求从站点抓取页面,并将抓取到的页面作为一条物料存储到物料库中;/n根据所述物料库中的页面的统一资源定位符URL挖掘出分页与封面页之间的映射规则;/n根据所述映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页,生成一条新的物料。/n

【技术特征摘要】
1.一种页面聚合方法,其特征在于,包括:
按照抓取要求从站点抓取页面,并将抓取到的页面作为一条物料存储到物料库中;
根据所述物料库中的页面的统一资源定位符URL挖掘出分页与封面页之间的映射规则;
根据所述映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页,生成一条新的物料。


2.根据权利要求1所述的方法,其特征在于,
所述映射规则中包括:所述映射规则所属的站点、分页的URL的正则形式以及封面页的URL的正则形式。


3.根据权利要求1所述的方法,其特征在于,
所述挖掘出分页与封面页之间的映射规则之后,进一步包括:
对挖掘出的映射规则进行过滤,过滤掉不符合要求的映射规则。


4.根据权利要求3所述的方法,其特征在于,
所述对挖掘出的映射规则进行过滤包括:
按照预先设定的打分规则,分别对挖掘出的每条映射规则进行打分,根据打分结果确定出所述映射规则是否为符合要求的映射规则。


5.根据权利要求4所述的方法,其特征在于,
所述按照预先设定的打分规则,分别对挖掘出的每条映射规则进行打分,根据打分结果确定出所述映射规则是否为符合要求的映射规则包括:
针对任一映射规则,统计满足以下条件的URL对数:
所述物料库中的一个分页通过所述映射规则映射到的封面页也存储在所述物料库中,且所述分页与所述封面页的标题的相似度大于预先设定的第一阈值;
将统计出的URL对数作为所述映射规则的打分;
若所述打分大于预先设定的第二阈值,则确定所述映射规则为符合要求的映射规则,否则,确定所述映射规则为不符合要求的映射规则。


6.根据权利要求3所述的方法,其特征在于,
所述对挖掘出的映射规则进行过滤包括:
针对任一映射规则,确定所述映射规则是否位于预先生成的黑名单中,若是,则确定所述映射规则为不符合要求的映射规则。


7.根据权利要求3所述的方法,其特征在于,
该方法进一步包括:获取映射规则的白名单;
所述根据所述映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页包括:根据所述白名单中的映射规则以及过滤后的挖掘出的映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页。


8.根据权利要求1所述的方法,其特征在于,
所述根据所述映射规则,将所述物料库中的封面页对应的分页内容聚合到封面页,生成一条新的物料包括:
针对所述物料库中的每个页面,分别进行以下处理:
确定所述页面是否为分页;
若是,则根据所述分页对应的映射规则映射得到所述分页对应的封面页,并分别获取所述封面页对应的各分页,将各分页内容聚合到所述封面页,生成一条新的物料。


9.根据权利要求8所述的方法,其特征在于,
所述分别获取所述封面页对应的各分页包括:
根据所述封面页对应的映射规则生成所述封面页对应的各分页的URL;
分别确定生成的各URL对应的分页是否存储在所述物料库中,若否,则根据所述分页的URL抓取所述分页。


10.根据权利要求1所述的方法,其特征在于,
该方法进一步包括:当每次满足更新条件时,抓取新的页面存储到所述物料库中,并根据所述物料...

【专利技术属性】
技术研发人员:刘欢叶八达陈亮辉潘旭
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1