数据处理方法、装置及存储介质制造方法及图纸

技术编号:20242453 阅读:47 留言:0更新日期:2019-01-29 23:22
本申请实施例公开了一种数据处理方法,所述方法包括:确定待转储的数据对应的索引标记;查询数据库中是否保存有与所述索引标记对应的元信息;如果所述数据库中包含所述索引标记对应的元信息,则将所述元信息发送给内容提供服务器进行保存,其中,所述内容提供服务器用于响应于页面访问请求,根据所述元信息从数据存储服务器获取所述数据。

【技术实现步骤摘要】
数据处理方法、装置及存储介质
本申请涉及互联网
,特别涉及一种数据处理方法、装置及存储介质。
技术介绍
随着网络的迅速发展,如何有效地提取并利用网络上的信息成为一个巨大的挑战。因此,网络爬虫应运而生。网络爬虫,是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。使用网络爬虫技术,能从互联网上爬取大量的网页内容,然后对网页进行分析、去除其中的广告等内容,得到有价值的内容部分。然后将这些有价值的内容部分转储到内容分发网络(CDN,contentDeliverynetwork)。通过转储,可以防止源网站的网页失效,又能利用内容分发网络来加快用户下载速度。其中,对于网页中包含的文字内容,由于其占用空间小,内容变化大,可以不进行转储。对于网页中包含的图片、音频、视频等多媒体内容,通常需要进行转储。以图片为例,其转储的过程可以包括下面几个步骤:(1)根据爬取到的统一资源定位符(URL,UniformResourceLocator)下载待转储的图片;(2)根据预定的目标尺寸,对下载的所述图片进行裁减压缩;(3)将裁减压缩后的所述图片到上传内容分发网络;(4)读取所述图片的元信息,包括:图本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:确定待转储的数据对应的索引标记;查询数据库中是否保存有与所述索引标记对应的元信息;如果所述数据库中包含所述索引标记对应的元信息,则将所述元信息发送给内容提供服务器进行保存,其中,所述内容提供服务器用于响应于页面访问请求,根据所述元信息从数据存储服务器获取与所述元信息对应的数据。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:确定待转储的数据对应的索引标记;查询数据库中是否保存有与所述索引标记对应的元信息;如果所述数据库中包含所述索引标记对应的元信息,则将所述元信息发送给内容提供服务器进行保存,其中,所述内容提供服务器用于响应于页面访问请求,根据所述元信息从数据存储服务器获取与所述元信息对应的数据。2.根据权利要求1所述的方法,其特征在于,所述待转储的数据为图片;所述确定待转储的数据对应的索引标记包括:根据所述待转储的图片的统一资源定位符URL和目标尺寸,确定所述图片对应的索引标记。3.根据权利要求2所述的方法,其特征在于,所述根据待转储的图片的统一资源定位符URL和目标尺寸,确定所述图片对应的索引标记包括:根据散列算法,将所述统一资源定位符URL转换为字符串;根据所述内容提供服务器的展示需要,确定所述目标尺寸;将所述字符串和所述目标尺寸结合在一起,得到所述图片对应的索引标记。4.根据权利要求3所述的方法,其特征在于,进一步包括:如果所述数据库中不包含所述索引标记对应的元信息,查询本地磁盘中是否包含以所述字符串为文件名的本地图片;如果本地磁盘中包含所述本地图片,对所述本地磁盘中的本地图片进行处理,得到所述待转储的图片;将所述待转储的图片上传到所述数据存储服务器;将所述待转储的图片的元信息以及所述索引标记关联存储到所述数据库。5.根据权利要求4所述的方法,其特征在于,进一步包括:如果本地磁盘中不包含以所述字符串为文件名的本地图片,根据所述图片的统一资源定位符URL下载该图片;根据所述目标尺寸对所述下载的图片进行处理,得到所述待转储的图片。6.根据权利要求2所述的方法,其特征在于,进一步包括:接收网页爬取服务器爬取的网页的超文本标记语言HTML文本;从所述HTML文本中,获取所述图片的统一资源定位符URL。7.根据权利要求6所述的方法,进一步包括:从所述HTML文本中,获取所述网页包含的文字内容;将所述文字内容发送给所述内容提供服务器,使得所述内容提供服务器将所述文字内容与所述元信息对应保存。8.根据权利要求1所述的方法,其中,所述数据库为分布式缓存,所述元信息以JS对象简谱JSON格式保...

【专利技术属性】
技术研发人员:王炼曾庚卓邱彬陈杨
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1