网络图片的爬取方法及应用服务器技术

技术编号:17615457 阅读:144 留言:0更新日期:2018-04-04 06:43
本发明专利技术公开了一种网络图片的爬取方法,所述方法包括:获取目标网页的URL;爬取所述目标网页上预定数量的图片;获取所述图片信息;根据所述图片信息创建文件夹并选取所述图片;及将具有相同所述图片信息的图片存储至同一个所述文件夹。本发明专利技术还提供一种应用服务器。本发明专利技术提供的应用服务器及网络图片的爬取方法,在进行网页图片爬取的过程中,不仅可以快速的爬取到相应的目标图片,还可以根据预设策略获取对爬取到的图片进行自动的分类存储,实现了资源快速检索及分类整理的效果。

Network image crawling method and application server

【技术实现步骤摘要】
网络图片的爬取方法及应用服务器
本专利技术涉及通信
,尤其涉及一种网络图片的爬取方法及应用服务器。
技术介绍
网页爬取指网页搜索集子系统中根据统一资源定位符(UniformResourceLocator,URL)完成一篇页面爬取的进程或者线程。对于搜索引擎来说,网页爬取即网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。然而目前的网页爬取过程中,特别是针对图片的爬取过程,虽然可以有效的爬取到目标图片,但并不能实时对爬取到的图片进行有效的整理分类,如此对于利用网页爬取的后续应用来说,限制了对网页爬取的使用,不利用后续应用的性能提升,影响了用户体验。
技术实现思路
有鉴于此,本专利技术提出一种网络图片的爬取方法及应用服务器,在进行网页图片爬取的过程中,不仅可以快速的爬取到相应的目标图片,还可以根据预设策略获取对爬取到的图片进行自动的分类存储,实现了资源快速检索及分类整理的效果。首先,为实现上述目的,本专利技术提出一种应用服务器,所述应用服务器包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网络图片的爬取程序,所述网络图片的爬取程序被所述处理器执行时实现如下步骤:获取目标网页的URL;爬取所述目标网页上预定数量的图片;获取所述图片信息;根据所述图片信息创建文件夹并选取所述图片;及将具有相同所述图片信息的图片存储至同一个所述文件夹。可选地,所述获取所述图片信息的步骤,具体包括:拼接所述图片的URL;及根据所述图片的URL获取所述图片信息。可选地,所述拼接所述图片的URL的步骤,具体包括:拼接所述目标网页的URL、图片前缀、网页页码以及从目标网页链接至所述图片的链接数。可选地,所述根据所述图片信息创建文件夹并选取所述图片的步骤,具体包括:根据所述图片信息命名创建所述文件夹,并确定文件夹的路径;及使用BeautifulSoup解析所述图片信息并获取图片及图片内容。可选地,所述具有相同图片信息的图片为具有相同URL前缀和深度的图片。此外,为实现上述目的,本专利技术还提供一种网络图片的爬取方法,该方法应用于应用服务器,所述方法包括:获取目标网页的URL;爬取所述目标网页上预定数量的图片;获取所述图片信息;根据所述图片信息创建文件夹并选取所述图片;及将具有相同所述图片信息的图片存储至同一个所述文件夹。可选地,所述获取所述图片信息的步骤,具体包括:拼接所述图片的URL;及根据所述图片的URL获取所述图片信息。可选地,所述拼接所述图片的URL的步骤,具体包括:拼接所述目标网页的URL、图片前缀、网页页码以及从目标网页链接至所述图片的链接数。可选地,所述根据所述图片信息创建文件夹并选取所述图片的步骤,具体包括:根据所述图片信息命名创建所述文件夹,并确定文件夹的路径;及使用BeautifulSoup解析所述图片信息并获取图片及图片内容。可选地,所述具有相同图片信息的图片为具有相同URL前缀和深度的图片。进一步地,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有网络图片的爬取程序,所述网络图片的爬取程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的网络图片的爬取方法的步骤。相较于现有技术,本专利技术所提出的应用服务器、网络图片的爬取方法及计算机可读存储介质,首先,获取目标网页的URL;其次,爬取所述目标网页上预定数量的图片;然后,获取所述图片信息;接着,根据所述图片信息创建文件夹并选取所述图片;最后,将具有相同所述图片信息的图片存储至同一个所述文件夹。这样,可以避免现有技术中不能实时对爬取到的图片进行有效的整理分类的弊端。在进行网页图片爬取的过程中,不仅可以快速的爬取到相应的目标图片,还可以根据预设策略获取对爬取到的图片进行自动的分类存储,实现了资源快速检索及分类整理的效果。附图说明图1是本专利技术各个实施例一可选的应用环境示意图;图2是图1中应用服务器一可选的硬件架构的示意图;图3是本专利技术网络图片的爬取程序第一实施例的功能模块示意图;图4为本专利技术网络图片的爬取方法第一实施例的实施流程示意图;图5为本专利技术网络图片的爬取方法第二实施例的实施流程示意图;图6为本专利技术网络图片的爬取方法第三实施例的实施流程示意图。附图标记:移动终端1应用服务器2网络3存储器11处理器12网络接口13网络图片的爬取程序200第一获取模块201图片爬取模块202第二获取模块203创建模块204存储模块205本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在本专利技术中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本专利技术要求的保护范围之内。参阅图1所示,是本专利技术各个实施例一可选的应用环境示意图。在本实施例中,本专利技术可应用于包括,但不仅限于,移动终端1、应用服务器2、网络3的应用环境中。其中,所述移动终端1可以是移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、车载装置等等的可移动设备,以及诸如数字TV、台式计算机、笔记本、服务器等等的固定终端。所述应用服务器2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备,该应用服务器2可以是独立的服务器,也可以是多个服务器所组成的服务器集群。所述网络3可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(GlobalSystemofMobilecommunication,GSM)、宽带码分多址(WidebandCodeDivisionMultipleAccess,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。其中,所述应用服务器2中通过所述网络3分别与一个或多个所述移动终端1(图中仅示出一个)通信连接,每一个所述移动终端1中均安装并运行有与所述应用服务器2对应的应用程序客户端(后文简称“移动终端客户端”)。所述移动终端客户端用于响应移动终端用户的操作,在所述移动终端客户端与所述应用服务器2之间创建长连接,以使所述移动终端客户端能够通过所述长连接与所述应用服务器2进行数据传输和交互。本实施例中,当所述应用服务器2内安装本文档来自技高网...
网络图片的爬取方法及应用服务器

【技术保护点】
一种网络图片的爬取方法,应用于应用服务器,其特征在于,所述方法包括:获取目标网页的URL;爬取所述目标网页上预定数量的图片;获取所述图片信息;根据所述图片信息创建文件夹并选取所述图片;及将具有相同所述图片信息的图片存储至同一个所述文件夹。

【技术特征摘要】
1.一种网络图片的爬取方法,应用于应用服务器,其特征在于,所述方法包括:获取目标网页的URL;爬取所述目标网页上预定数量的图片;获取所述图片信息;根据所述图片信息创建文件夹并选取所述图片;及将具有相同所述图片信息的图片存储至同一个所述文件夹。2.如权利要求1所述的网络图片的爬取方法,其特征在于,所述获取所述图片信息的步骤,具体包括:拼接所述图片的URL;及根据所述图片的URL获取所述图片信息。3.如权利要求2所述的网络图片的爬取方法,其特征在于,所述拼接所述图片的URL的步骤,具体包括:拼接所述目标网页的URL、图片前缀、网页页码以及从目标网页链接至所述图片的链接数。4.如权利要求1所述的网络图片的爬取方法,其特征在于,所述根据所述图片信息创建文件夹并选取所述图片的步骤,具体包括:根据所述图片信息命名创建所述文件夹,并确定文件夹的路径;及使用BeautifulSoup解析所述图片信息并获取图片及图片内容。5.如权利要求1所述的网络图片的爬取方法,其特征在于,所述具有相同图片信息的图片为具有相同URL前缀和深度的图片。6.一种应用服务器,其特征在于,所述应用服务器包括存储器、处理器及存储在所述存储器上并可...

【专利技术属性】
技术研发人员:蔡俊
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1