【技术实现步骤摘要】
网页资源获取方法、装置、电子设备和存储介质
[0001]本公开涉及大数据
,尤其涉及智能搜索领域。
技术介绍
[0002]搜索引擎是运用特定的计算机程序获取互联网上的网页资源,在对网页资源进行组织和处理后,为用户提供搜索服务的系统,能够为用户提供资源搜索的便利。一般来说,搜索引擎需要定期从互联网上获取网页资源,以将网页资源添加到资源内容库中或更新资源内容库中的网页资源。相关技术中,搜索引擎采用固定的IP(Internet Protocol,网际互联协议)地址段进行网页资源的获取。
技术实现思路
[0003]本公开提供了一种网页资源获取方法、装置、电子设备以及存储介质。
[0004]根据本公开的一方面,提供了一种网页资源获取方法,该方法包括:
[0005]在预设站点集合中,确定目标站点集合;其中,该目标站点集合中的各个站点为采用第一地址段访问受限的站点;
[0006]在第一时间段内,采用第二地址段,获取所述目标站点集合中的网页资源;
[0007]基于所述第一时间段内获取网页 ...
【技术保护点】
【技术特征摘要】
1.一种网页资源获取方法,包括:在预设站点集合中,确定目标站点集合;其中,所述目标站点集合中的各个站点为采用第一地址段访问受限的站点;在第一时间段内,采用第二地址段,获取所述目标站点集合中的网页资源;基于所述第一时间段内获取网页资源的成功率,在所述第一地址段和所述第二地址段中确定目标地址段;采用所述目标地址段,获取所述预设站点集合中的网页资源。2.根据权利要求1所述方法,其中,所述在预设站点集合中,确定目标站点集合,包括:采用所述第一地址段,获取所述预设站点集合中的网页资源;在获取所述预设站点集合中的网页资源发生失败的情况下,采用第二地址段,访问所述网页资源所属的站点中的目标网页;在访问所述目标网页成功的情况下,将所述网页资源所属的站点添加到所述目标站点集合中。3.根据权利要求1或2所述的方法,还包括:在所述第一时间段内,采用所述第一地址段,获取所述预设站点集合中除所述目标站点集合中的网页资源以外的其他网页资源。4.根据权利要求1
‑
3中任一项所述的方法,其中,所述基于所述第一时间段内获取网页资源的成功率,在所述第一地址段和所述第二地址段中确定目标地址段,包括:在所述成功率大于或等于成功率阈值的情况下,将所述第二地址段确定为所述目标地址段。5.根据权利要求4所述的方法,其中,所述基于所述第一时间段内获取网页资源的成功率,在所述第一地址段和所述第二地址段中确定目标地址段,包括:在所述成功率小于所述成功率阈值的情况下,将所述第一地址段确定为所述目标地址段。6.根据权利要求4或5所述的方法,还包括:基于第二时间段内获取网页资源的成功率,确定所述成功率阈值;其中,所述第二时间段在所述第一时间段之前。7.一种网页资源获取装置,包括:集合确定模块,用于在预设站点集合中,确定目标站点集合;其中,所述目标站点集合中的各个站点为采用第一地址段访问受限的站点;第一调度模块,用于在第一时间段内,采用第二地址段,获取所述目标站点集合中的网页资源;地址段确定模块,用于基于所述第一时间段内获取网页资源的成功率,...
【专利技术属性】
技术研发人员:张楚然,王鹏,刘明汉,张博,谢筠庭,林赛群,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。