一种爬虫图片处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:30223133 阅读:24 留言:0更新日期:2021-09-29 09:43
本发明专利技术公开了一种爬虫图片处理方法、装置、计算机设备及存储介质。所述方法包括:利用网络爬虫爬取互联网网页上的图片并加载至内存以得到原始图片;基于原始图片的所占字节量和尺寸大小、预设字节量、预设尺寸对原始图片进行压缩调整以生成压缩图片并存储至到发布目录;将压缩图片加载至内存并进行缩略裁剪操作以生成缩略图并对应地存储至到发布目录。本发明专利技术的方案实现了自动对过大图片进行压缩,节省本地应用空间,压缩过程中对文件大小进行参数化配置,还能自动生成统一尺寸的缩略图,经过以上处理,爬虫系统爬取到的图片可直接用于本地应用主页发布展示,无需再进行人工修改,显著地提升了对爬虫图片的处理效率。显著地提升了对爬虫图片的处理效率。显著地提升了对爬虫图片的处理效率。

【技术实现步骤摘要】
一种爬虫图片处理方法、装置、计算机设备及存储介质


[0001]本专利技术涉及爬虫图片处理
,尤其涉及一种爬虫图片处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]内容聚合类互联网应用经常受制于应用规模、网络资源、空间成本,在应用本身原创内容量有限的前提下,对同行业内容进行转载发布。除了人工转载以外,爬虫系统是最常用的内容转载工具,利用爬虫系统高效转载互联网上同行业应用发布的文本、多媒体等信息,可以有效提高本地应用的内容丰富度,从而吸引更多用户的使用。爬虫系统会爬取互联网中的网页数据,并将数据进行存储后进一步使用。这些网页中包含文本、图片、音频、视频等不同类型的数据,由于不同类型的数据在网页中的加载方式不同,爬虫系统会将各种类型的数据爬取后分别进行存储。
[0003]目前,传统爬虫系统将网页数据下载至本地后,将数据信息直接在本地应用进行发布展示,但由于从多个目标网站爬取到的图片尺寸不一,大小不一,而且目标网站页面中的图片数量可多可少,不受控制(某些页面可能包含成百上千张图片),本地应用系统主页若直接进行发布展示会存在以下问题:(1)若图片使用原尺寸展示,可能由于图片尺寸过大占用大幅的页面空间,影响观感。(2)若对图片进行尺寸约束,则原图片会被拉伸导致失真。(3)部分图片文件过大会浪费硬盘空间,例如一张高清图占用几十兆(MB)的硬盘空间,在爬取的图片数量过多时浪费尤其明显。(4)没有缩略图,列表页面无法预览新闻配图。此外,对于拉伸失真、浪费空间问题,传统爬虫系统在爬取图片后,经过人工处理后可解决,但需美工人员先将图片进行裁剪,网站编辑人员才能转载发布,需要耗费较多的人力,并且处理效率较低,因此亟需改进。

技术实现思路

[0004]有鉴于此,有必要针以上技术问题,提供一种爬虫图片处理方法、装置、计算机设备及存储介质。
[0005]根据本专利技术的第一发面,提供了一种爬虫图片处理方法,所述方法包括:
[0006]利用网络爬虫爬取互联网网页上的图片并加载至内存以得到原始图片;
[0007]基于原始图片的所占字节量和尺寸大小、预设字节量、预设尺寸对原始图片进行压缩调整以生成压缩图片并存储至到发布目录;
[0008]将压缩图片加载至内存并进行缩略裁剪操作以生成缩略图并对应地存储至到发布目录。
[0009]在其中一个实施例中,所述基于原始图片的所占字节量和尺寸大小、预设字节量、预设尺寸对原始图片进行压缩调整以生成压缩图片并存储至到发布目录的步骤包括:
[0010]基于原始图片的所占字节量和预设字节量对所述原始图片进行像素调整以生成第一压缩图片;
[0011]基于第一压缩图片的尺寸和预设尺寸对所述第一压缩图片进行尺寸调整以生成第二压缩图片并存储到发布目录。
[0012]在其中一个实施例中,所述基于原始图片的所占字节量和预设字节量对所述原始图片进行像素调整以生成第一压缩图片的步骤包括:
[0013]计算原始图片文件容量大小以得到所占字节量;
[0014]将原始图片所占字节量与预设字节量进行比较;
[0015]响应于原始图片的所占字节量超过所述预设字节量,则将所述原始图片的像素调整为预设值以生成所述第一压缩图片。
[0016]在其中一个实施例中,所述基于第一压缩图片的尺寸和预设尺寸对所述第一压缩图片进行尺寸调整以生成第二压缩图片并存储到发布目录的步骤包括:
[0017]计算所述第一压缩图片的横向尺寸、纵向尺寸,以及横向尺寸与纵向尺寸的比值以得到原始比例;
[0018]响应于横向尺寸大于第一预设值,且纵向尺寸小于等于第二预设值,则将所述第一压缩图片的横向尺寸修改为第一预设值,并按照所述原始比例同比调整纵向尺寸;
[0019]响应于纵向尺寸大于第二预设值,且横向尺寸小于等于第一预设值,则将所述第一压缩图片的纵向尺寸修改为第二预设值,并按照所述原始比例同比调整横向尺寸;
[0020]响应于横向尺寸大于第一预设值、纵向尺寸大于第二预设值,且所述原始比例大于1,则将所述第一压缩图片的横向尺寸修改为第一预设值,并按照所述原始比例同比调整纵向尺寸;
[0021]响应于横向尺寸大于第一预设值、纵向尺寸大于第二预设值,且所述原始比例小于1,则将所述第一压缩图片的纵向尺寸修改为第二预设值,并按照所述原始比例同比调整横向尺寸;
[0022]将尺寸调整后的第一压缩图片作为所述第二压缩图片并写入发布目录。
[0023]在其中一个实施例中,所述将压缩图片加载至内存并进行缩略裁剪操作以生成缩略图并对应地存储至到发布目录的步骤包括:
[0024]将第二压缩图片加载至内存,并计算所述第二压缩图片的横向尺寸、纵向尺寸;
[0025]响应于所述原始比例大于预设横纵比例,则以第二压缩图片的纵向长度为标准根据所述预设横纵比例计算出新的横向尺寸,并按照新计算出的新的横向尺寸对第二压缩图片的横向进行裁剪;
[0026]响应于所述原始比例小于预设横纵比例,则以第二压缩图片的横向长度为标准根据所述预设横纵比例计算出新的纵向尺寸,并按照新计算出的新的纵向尺寸对第二压缩图片的纵向进行裁剪;
[0027]根据预设横向尺寸或预设纵向尺寸对裁剪后的第二压缩图片进行尺寸调整以生成缩略图并写入发布目录。
[0028]在其中一个实施例中,所述方法还包括:
[0029]建立发布目录内缩略图与第二压缩图片的映射关系;
[0030]响应于接收到发布命令,则对发布目录内的缩略图进行展示;
[0031]响应于接收到对某一缩略图的展示命令,则基于缩略图与第二压缩图片的映射关系确定与所述某一缩略图对应的第二压缩图片并进行展示。
[0032]在其中一个实施例中,所述方法还包括:
[0033]分别在将所生成的第二压缩图片和缩略图存储至发布目录前将二者调整为预设格式;
[0034]其中,所述预设格式为jpeg格式和/或png格式。
[0035]根据本专利技术的第二方面,提供了一种爬虫图片处理装置,所述装置包括:
[0036]爬取模块,用于利用网络爬虫爬取互联网网页上的图片并加载至内存以得到原始图片;
[0037]压缩模块,用于基于原始图片的所占字节量和尺寸大小、预设字节量、预设尺寸对原始图片进行压缩调整以生成压缩图片并存储至到发布目录;
[0038]缩略模块,用于将压缩图片加载至内存并进行缩略裁剪操作以生成缩略图并对应地存储至到发布目录。
[0039]根据本专利技术的第三方面,还提供了一种计算机设备,该计算机设备包括:
[0040]至少一个处理器;以及
[0041]存储器,存储器存储有可在处理器上运行的计算机程序,处理器执行程序时执行前述的爬虫图片处理方法。
[0042]根据本专利技术的第四方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时执行前述的爬虫图片处理方法。
[0043本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种爬虫图片处理方法,其特征在于,所述方法包括:利用网络爬虫爬取互联网网页上的图片并加载至内存以得到原始图片;基于原始图片的所占字节量和尺寸大小、预设字节量、预设尺寸对原始图片进行压缩调整以生成压缩图片并存储至到发布目录;将压缩图片加载至内存并进行缩略裁剪操作以生成缩略图并对应地存储至到发布目录。2.根据权利要求1所述的爬虫图片处理方法,其特征在于,所述基于原始图片的所占字节量和尺寸大小、预设字节量、预设尺寸对原始图片进行压缩调整以生成压缩图片并存储至到发布目录的步骤包括:基于原始图片的所占字节量和预设字节量对所述原始图片进行像素调整以生成第一压缩图片;基于第一压缩图片的尺寸和预设尺寸对所述第一压缩图片进行尺寸调整以生成第二压缩图片并存储到发布目录。3.根据权利要求2所述的爬虫图片处理方法,其特征在于,所述基于原始图片的所占字节量和预设字节量对所述原始图片进行像素调整以生成第一压缩图片的步骤包括:计算原始图片文件容量大小以得到所占字节量;将原始图片所占字节量与预设字节量进行比较;响应于原始图片的所占字节量超过所述预设字节量,则将所述原始图片的像素调整为预设值以生成所述第一压缩图片。4.根据权利要求2所述的爬虫图片处理方法,其特征在于,所述基于第一压缩图片的尺寸和预设尺寸对所述第一压缩图片进行尺寸调整以生成第二压缩图片并存储到发布目录的步骤包括:计算所述第一压缩图片的横向尺寸、纵向尺寸,以及横向尺寸与纵向尺寸的比值以得到原始比例;响应于横向尺寸大于第一预设值,且纵向尺寸小于等于第二预设值,则将所述第一压缩图片的横向尺寸修改为第一预设值,并按照所述原始比例同比调整纵向尺寸;响应于纵向尺寸大于第二预设值,且横向尺寸小于等于第一预设值,则将所述第一压缩图片的纵向尺寸修改为第二预设值,并按照所述原始比例同比调整横向尺寸;响应于横向尺寸大于第一预设值、纵向尺寸大于第二预设值,且所述原始比例大于1,则将所述第一压缩图片的横向尺寸修改为第一预设值,并按照所述原始比例同比调整纵向尺寸;响应于横向尺寸大于第一预设值、纵向尺寸大于第二预设值,且所述原始比例小于1,则将所述第一压缩图片的纵向尺寸修改为第二预设值,并按照所述原始比例同比调整横向尺寸;将尺寸调整后的第一压缩图片作为所述第二压缩图片并写入发布目录...

【专利技术属性】
技术研发人员:宁林林
申请(专利权)人:山东英信计算机技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1