【技术实现步骤摘要】
一种复杂互联网数据爬取的方法及系统
[0001]本专利技术涉及信息
,尤其涉及一种复杂互联网数据爬取的方法及系统。
技术介绍
[0002]在进行网络数据提取时,由于网络数据的来源途径多样,导致提取到的数据中存在大量重复数据,出于成本考虑,这些重复数据在存储时也只是进行简单的去重,例如仅仅根据哈希校验或者常规过滤器进行去重,这种去重方式只能过滤到内容完全重复的情况,如果进行过网页调整,则无法识别过滤,后续需要进行人工去重。
[0003]此外,对于大量的图像数据,一般也只是通过常规方式去重,这种处理方式效率低下,而如果不进行去重,则使得进行数据存储时,出现大量冗余数据,不仅增加了存储成本,也给后续使用带来不便。
技术实现思路
[0004]为了解决上述现有技术中存在的技术问题,本专利技术提供了一种复杂互联网数据爬取的方法及系统。
[0005]一种复杂互联网数据爬取的方法,该方法包括:构建分块数据库以及分块信息索引,所述分块数据库包括用于储存文字数据的文字数据库和用于存储图像数据的图像数据库,所 ...
【技术保护点】
【技术特征摘要】
1.一种复杂互联网数据爬取的方法,其特征在于,该方法包括:构建分块数据库以及分块信息索引,所述分块数据库包括用于储存文字数据的文字数据库和用于存储图像数据的图像数据库,所述分块信息索引为对文字数据、图像数据进行分块特征标注形成的特征信息,并且所述分块信息索引与分块数据库具有一一对应关系;获取待存储的网页数据;根据所述网页数据的源代码的标签对所述网页数据进行分块以得到文字数据、图像数据;将分块后的网页数据进行特征处理后与所述分块信息索引进行对比,若一致,则将所述分块后的网页数据链接至该对比一致的分块信息索引中,并生成对应的二级索引码;若不一致,则生成对应于该不一致的分块后的网页数据的分块信息索引以及一级索引码,并将所述分块后的网页数据存储于对应的分块数据库中。2.根据权利要求1所述的复杂互联网数据爬取的方法,其特征在于,将所述网页数据进行特征处理后与所述分块信息索引进行对比包括:当所述网页数据为文字数据时,提取文字数据的标签正文内容,计算文字数据的字符数,将所述标签正文内容开头的前预设个字符和结尾的后预设个字符合并后形成特征数据,将所述特征数据与分块信息索引中的特征信息进行对比;当所述网页数据为图像数据时,记录图像数据的分辨率,并提取图像中目标区域中预设个像素点的灰度值形成特征数据,将所述特征数据与分块信息索引中的特征信息进行对比。3.根据权利要求2所述的复杂互联网数据爬取的方法,其特征在于,提取图像中目标区域中预设个像素点的灰度值,包括:获取图像分辨率,根据图像分辨率确定目标区域;所述目标区域为第一顶点、第二顶点、第三顶点、第四顶端围成的区域,其中,第一顶点为(M/2
‑
i,N/2
‑
j),第二顶点为(M/2+i+1,N/2
‑
j),第三顶点为(M/2+i+1,N/2+j+1),第四顶点为(M/2
‑
i,N/2+j+1),其中,M为像素点列数,N为像素点行数,i、j∈[5,10],且i和j均为整数。4.根据权利要求2所述的复杂互联网数据爬取的方法,其特征在于,前预设个字符和后预设个字符均为10
‑
20个字符。5.根据权利要求1所述的复杂互联网数据爬取的方法,其特征在于,构建网页信息数据库,所述网页数据库用于存储网页数据的数据来源、索引码和网页数据重复字段。6.根据权利要求5所述的复杂互联网数据爬取的方法,其特征在于,构建所述网页信息数据库包括:获取待存储的网页数据的来源;根据所述网页数据从分块数据库读取该网页数据对应的索引码;依次判断文字数据、图像数据和视频数据对应的索引码类型,当所述索引码为一级索引码时,网页数据重复字段对应位置1...
【专利技术属性】
技术研发人员:薛玲,李仲正,檀晓阳,
申请(专利权)人:云目未来科技湖南有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。