网站内容获取方法、设备、存储介质以及程序产品技术

技术编号:42562601 阅读:29 留言:0更新日期:2024-08-29 00:31
本申请公开了一种网站内容获取方法、设备、存储介质以及程序产品,涉及数据处理技术领域,所述网站内容获取方法,包括:基于流计算框架,从分布式消息队列获取网站用户访问日志,并存储到Hbase数据库;对所述网站用户访问日志进行离线数据分析,得到第一网站页面链接;基于所述第一网站页面链接,获取第一网站内容。本申请通过上述方案,实现通过用户行为驱动模式获取网站内容,不仅解决了现有爬虫工具无法处理网站层级复杂度问题,而且降低了网站内容遍历的时空复杂度。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种网站内容获取方法、设备、存储介质以及程序产品


技术介绍

1、现代社会中,数字媒体信息充斥着互联网空间。然而其中不乏存在一些违法、有害的媒体信息。因此,为了维护良好的网络生态,需要对互联网媒体信息进行敏感信息的筛查。

2、现有对于敏感信息的筛查需要获取网站内容,目前同类的网站内容获取方法往往采用爬虫工具对网站内容进行遍历,然而在递归遍历时一般只能触达第3级网站目录,且有死循环风险。同时网站存在为其他系统提供各类专属页面,此类页面无法从网站根路径触达,因此爬虫无法爬取到。

3、综上所述,现有爬虫工具存在着无法触达网站的纵向最深层级,且无法探索非网站根域名触达页面的难题。

4、上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。


技术实现思路

1、本申请的主要目的在于提供一种网站内容获取方法、设备、存储介质以及程序产品,旨在解决现有爬虫工具存在着无法触达网站的纵向最深层级,且无法探索非网站根域名触达页面的技术问题。

...

【技术保护点】

1.一种网站内容获取方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述对所述网站用户访问日志进行离线数据分析,得到第一网站页面链接的步骤,包括:

3.如权利要求1所述的方法,其特征在于,所述方法还包括:

4.如权利要求1至3中任一项所述的方法,其特征在于,所述基于所述第一网站页面链接,获取第一网站内容的步骤,包括:

5.如权利要求3所述的方法,其特征在于,所述汇总所述增量网站内容与第一网站内容,得到第二网站内容的步骤之后,还包括:

6.如权利要求5所述的方法,其特征在于,所述基于所述Hbase数据库与...

【技术特征摘要】

1.一种网站内容获取方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述对所述网站用户访问日志进行离线数据分析,得到第一网站页面链接的步骤,包括:

3.如权利要求1所述的方法,其特征在于,所述方法还包括:

4.如权利要求1至3中任一项所述的方法,其特征在于,所述基于所述第一网站页面链接,获取第一网站内容的步骤,包括:

5.如权利要求3所述的方法,其特征在于,所述汇总所述增量网站内容与第一网站内容,得到第二网站内容的步骤之后,还包括:

6.如权利要求5所述的方法,其特征在于,所述基于所述hbase数据库与mysql数据库,建立并存储所述待筛查对象与网站页面链接的映射关系分页表的步骤,包括:

7.如权利要求5所述的方...

【专利技术属性】
技术研发人员:杨剑周刚
申请(专利权)人:招商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1