【技术实现步骤摘要】
网络信息获取方法、装置和电子设备
本专利技术涉及计算机应用
,特别涉及一种网络信息获取方法、装置、电子设备和计算机可读存储介质。
技术介绍
目前,随着互联网技术的蓬勃发展,网络上存在着大量的信息。相关技术中大多采用爬虫技术来采集网络上的信息,爬虫技术是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,提高了获取网络信息的效率,然而由于网页类型、结构、内容的不同,导致开发人员需要根据不同的网页编写不同的爬虫代码,耗费较大的时间和精力,爬虫程序开发效率较低。
技术实现思路
本专利技术旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种网络信息获取方法,能够将目标网页转化成图片,并对图片进行图像识别以获取目标网页携带的页面元素及其对应的内容,以实现网页信息的获取,相较于相关技术中开发人员根据不同的网页编写不同的爬虫代码,该方法适用于万维网中所有网页的信息获取,节省了大量的人力和时间成本,程序开发效率较高。本专利技术的第二个目的在于提出一种网络信息获取装置。 ...
【技术保护点】
1.一种网络信息获取方法,其特征在于,包括:/n获取目标网页的统一资源定位器URL,其中,所述目标网页为当前需要进行网络信息采集的网页;/n根据所述URL,下载所述目标网页进行缓存;/n根据所述目标网页,生成所述目标网页对应的网页图片;/n对所述网页图片进行图像识别,以获取所述目标网页携带的页面元素和所述页面元素对应的内容。/n
【技术特征摘要】
1.一种网络信息获取方法,其特征在于,包括:
获取目标网页的统一资源定位器URL,其中,所述目标网页为当前需要进行网络信息采集的网页;
根据所述URL,下载所述目标网页进行缓存;
根据所述目标网页,生成所述目标网页对应的网页图片;
对所述网页图片进行图像识别,以获取所述目标网页携带的页面元素和所述页面元素对应的内容。
2.根据权利要求1所述的方法,其特征在于,所述对所述网页图片进行图像识别,以获取所述目标网页携带的页面元素和所述页面元素对应的内容,包括:
将所述网页图片输入训练好的目标机器学习模型中,由所述目标机器学习模型对所述网页图片进行图像特征提取,并根据提取的所述图像特征,获取所述页面元素和所述页面元素对应的内容。
3.根据权利要求2所述的方法,其特征在于,在获取所述页面元素对应的内容后,还包括:
由所述目标机器学习模型对所述页面元素的内容进行关键词提取,根据提取的所述关键词进行内容类型识别,获取所述页面元素的内容对应的目标类型。
4.根据权利要求1所述的方法,其特征在于,在获取所述页面元素对应的内容后,还包括:
对所述页面元素对应的内容进行敏感信息识别,对所述敏感信息进行过滤。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述获取目标网页的统一资源定位器URL,包括:
从URL存储单元中按序或随机读取所述URL,并将当前读取的所述URL所标识的网页作为所述目标网页。
6.根据权利要求5所述的方法,其特征在于,所述URL存储单元中缓存的所述URL采用如下方式获取:
对所述目标网页所在网站的首个网页进行URL抓取,将抓取的所述URL缓存至所述URL存储单元中;
每当获...
【专利技术属性】
技术研发人员:杨硕,官延斌,王庚,
申请(专利权)人:亿存北京信息科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。