【技术实现步骤摘要】
页面内容采集方法、装置、电子设备和可读介质
[0001]本申请涉及计算机
,尤其涉及一种页面内容采集方法、装置、电子设备和可读介质。
技术介绍
[0002]随着互联网技术的发展,各类网页的显示元素越发丰富和多元化。为了对网页的各类显示信息进行监测和管理,通常需要收集到各个网页中显示出的各类多媒体素材,以便进行分析。
[0003]目前,在相关技术中,对于网页进行信息采集的方式通常采用定制化采集策略,基于不同网络的信息展示情况,定制专用的信息采集策略脚本,通过脚本得到网页中显示的信息。
[0004]然而,上述方案中,定制信息采集策略的过程需要人工完成,由于不同网站的网页配置通常差异很大,不同网站的脚本难以复用,因此需要人工定制大量脚本,消耗成本较大并且扩充采集范围的难度大。
技术实现思路
[0005]基于上述技术问题,本申请提供一种页面内容采集方法、装置、电子设备和可读介质,以避免对各个不同的页面布局设置不同的采集策略,降低页面采集的难度,降低人工成本并且提升了信息采集的效率。
[0 ...
【技术保护点】
【技术特征摘要】
1.一种页面内容采集方法,其特征在于,包括:访问待处理的目标页面,以获取所述目标页面的页面内容;对所述目标页面的页面内容进行图形文件转换,得到所述目标页面的页面图像;对所述目标页面的页面图像进行链接元素检测,得到检测结果,所述链接元素是能够链接到待采集页面的页面对象;根据所述检测结果指示的链接元素,触发所述目标页面中的链接元素以访问所述待采集页面;采集所述待采集页面的页面内容。2.根据权利要求1所述的方法,其特征在于,所述对所述目标页面的页面内容进行图形文件转换,得到所述目标页面的页面图像,包括:针对所述目标页面触发网页浏览指令,以加载所述目标页面中的页面内容;对已加载的页面内容进行截图,得到所述目标页面的页面图像,其中,所述页面图像包括所述目标页面当前显示的内容。3.根据权利要求2所述的方法,其特征在于,所述对已加载的页面内容进行截图,得到所述目标页面的页面图像,包括:根据单次图像采集长度和所述目标页面的页面内容长度,对所述目标页面中已加载的页面内容进行截图,得到所述目标页面的分段图;若存在一个分段图,则将所述分段图确定为所述页面图像;若存在至少两个分段图,则按照所述至少两个分段图的截取顺序对所述至少两个分段图进行拼接,得到所述页面图像。4.根据权利要求1所述的方法,其特征在于,所述触发所述目标页面中的链接元素以访问所述待采集页面,包括:根据所述检测结果中包含的所述链接元素的区域位置,对所述目标页面中处于所述区域位置的链接元素触发点击操作,得到待采集页面地址;根据所述待采集页面地址,对所述待采集页面进行访问。5.根据权利要求4所述的方法,其特征在于,所述采集所述待采集页面的页面内容,包括:从所述待采集页面地址中获取所述待采集页面的地址域名;若所述待采集页面的地址域名与所述目标页面的地址域名不同,则采集所访问的待采集页面的页面内容。6.根据权利要求1所述的方法,其特征在于,所述对所述目标页面的页面内容进行图形文件转换,得到所述目标页面的页面图像之前,所述方法还包括:获取候选目标页面以及对应的页面地址;根据所述候选目标页面,获取所述候选目标页面中的页面链接,所述页面链接用于访问其他目标页面;若所述页面链接的域名与所述页面地址的域名相同,则获取所述页面链接对应的其他目标页面;根据所述候选目标页面和所述其他目标页面,生成信息页面集合;从所述信息页面集合中获取待处理的目标页面。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述对所述目标页面的页面图像进行链接元素检测,得到检测结果,包括:通过目标检测模型,对所述页面图像进行链接元素检测,得到所述页面图像中页面对象的区域框和对应的置信度,所述置信度用于表示所述页面对象是链接元素的概率;若所述置信度大于置信度阈值,则将所述页面对象和对应的区域框确定为链接元素和对应的区域位置,并根据所确定的链接元素和对应的区域位置生成所述检测结果。8.根据权利要求7所述的方法,其特征在于,所述通过目标检测模型,对所述页面图像进行链接元素检...
【专利技术属性】
技术研发人员:郑少胤,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。