System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及网络数据采集,具体涉及一种网络数据采集方法及装置。
技术介绍
1、现有网络数据采集采用全采集模式,即对每一个目标网站上的所有信息内容进行采集,或对指定条件的内容进行全网采集,以获取查全的信息,但是这样会出现,同一个指定条件在多个网页显示相同或近似的内容,会出现大量的重复采集。
2、也即,现有技术中网络数据采集重复率较高。
技术实现思路
1、本申请实施例提供一种网络数据采集方法及装置,可以降低网络数据采集的重复率。
2、第一方面,本申请提供的网络数据采集方法,包括:
3、获取需要采集数据的目标网页链接;
4、判断预设数据库中是否存储有与所述目标网页链接相同的网页链接;
5、若所述预设数据库中存储有与所述目标网页链接相同的网页链接,则跳过所述目标网页链接。
6、可选地,所述网络数据采集方法,包括:
7、若所述预设数据库中未存储有与所述目标网页链接相同的网页链接,则获取所述目标网页链接对应的http响应头信息;
8、基于所述http响应头信息判断所述目标网页链接的页面是否变化;
9、若所述目标网页链接的页面未变化,则跳过所述目标网页链接。
10、可选地,所述http响应头信息包括last-modified字段和etag字段。
11、可选地,所述网络数据采集方法,包括:
12、若所述目标网页链接的页面变化,则获取所述目标网页链接对应的目标
13、基于所述目标网页链接对应的目标url特征判断所述预设数据库中是否存储有与所述目标url特征相同的url特征;
14、若所述预设数据库中存储有与所述目标url特征相同的url特征,则跳过所述目标网页链接。
15、可选地,所述获取所述目标网页链接对应的目标url特征,包括:
16、获取所述目标网页链接的原始url;
17、将所述原始url标准化或者将所述原始url的参数剔除,得到所述目标url特征。
18、可选地,所述网络数据采集方法,包括:
19、若所述预设数据库中是否未存储有与所述目标url特征相同的url特征,则采集所述目标网页链接对应的目标网页;
20、获取所述目标网页的目标字段信息,其中,所述目标字段信息包括网页标题和网页关键词;
21、基于所述目标网页的目标字段信息判断所述预设数据库中是否存储有字段信息与所述目标字段信息相同的网页;
22、若所述预设数据库中存储有字段信息与所述目标字段信息相同的网页,则确定所述目标网页为重复网页并剔除所述目标网页。
23、可选地,所述网络数据采集方法包括:
24、若所述预设数据库中未存储有字段信息与所述目标字段信息相同的网页,则采集所述目标网页的信息并存入预设数据库。
25、第二方面,本申请提供的网络数据采集装置,包括:
26、获取模块,用于获取需要采集数据的目标网页链接;
27、判断模块,用于判断预设数据库中是否存储有与所述目标网页链接相同的网页链接;
28、确定模块,用于若所述预设数据库中存储有与所述目标网页链接相同的网页链接,则跳过所述目标网页链接。
29、可选地,所述网络数据采集方法,包括:
30、若所述预设数据库中未存储有与所述目标网页链接相同的网页链接,则获取所述目标网页链接对应的http响应头信息;
31、基于所述http响应头信息判断所述目标网页链接的页面是否变化;
32、若所述目标网页链接的页面未变化,则跳过所述目标网页链接。
33、可选地,所述http响应头信息包括last-modified字段和etag字段。
34、可选地,所述网络数据采集方法,包括:
35、若所述目标网页链接的页面变化,则获取所述目标网页链接对应的目标url特征;
36、基于所述目标网页链接对应的目标url特征判断所述预设数据库中是否存储有与所述目标url特征相同的url特征;
37、若所述预设数据库中存储有与所述目标url特征相同的url特征,则跳过所述目标网页链接。
38、可选地,所述获取所述目标网页链接对应的目标url特征,包括:
39、获取所述目标网页链接的原始url;
40、将所述原始url标准化或者将所述原始url的参数剔除,得到所述目标url特征。
41、可选地,所述网络数据采集方法,包括:
42、若所述预设数据库中是否未存储有与所述目标url特征相同的url特征,则采集所述目标网页链接对应的目标网页;
43、获取所述目标网页的目标字段信息,其中,所述目标字段信息包括网页标题和网页关键词;
44、基于所述目标网页的目标字段信息判断所述预设数据库中是否存储有字段信息与所述目标字段信息相同的网页;
45、若所述预设数据库中存储有字段信息与所述目标字段信息相同的网页,则确定所述目标网页为重复网页并剔除所述目标网页。
46、可选地,所述网络数据采集方法包括:
47、若所述预设数据库中未存储有字段信息与所述目标字段信息相同的网页,则采集所述目标网页的信息并存入预设数据库。
48、第三方面,本申请提供的电子设备,包括存储器和处理器,存储器存储有计算机程序,处理器用于运行存储器内的计算机程序,实现本申请所提供的网络数据采集方法中的步骤。
49、第四方面,本申请提供的计算机可读存储介质,存储有多条指令,该指令适于处理器进行加载,实现本申请所提供的网络数据采集方法中的步骤。
50、第五方面,本申请提供的计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现本申请所提供的网络数据采集方法中的步骤。
51、本申请中,相较于相关技术,获取需要采集数据的目标网页链接;判断预设数据库中是否存储有与目标网页链接相同的网页链接;若预设数据库中存储有与目标网页链接相同的网页链接,则跳过目标网页链接。本申请在数据采集时,通过比较网页链接跳过相同链接,避免二次采集,从而降低网络数据采集的重复率。
52、进一步的,本申请还利用http响应头、url特征以及目标网页的目标字段信息的方法进一步去重,避免二次采集,从而降低网络数据采集的重复率。
本文档来自技高网...【技术保护点】
1.一种网络数据采集方法,其特征在于,所述网络数据采集方法包括:
2.根据权利要求1所述的网络数据采集方法,其特征在于,所述网络数据采集方法,包括:
3.根据权利要求2所述的网络数据采集方法,其特征在于,所述HTTP响应头信息包括Last-Modified字段和ETag字段。
4.根据权利要求2所述的网络数据采集方法,其特征在于,所述网络数据采集方法,包括:
5.根据权利要求4所述的网络数据采集方法,其特征在于,所述获取所述目标网页链接对应的目标URL特征,包括:
6.根据权利要求4所述的网络数据采集方法,其特征在于,所述网络数据采集方法,包括:
7.根据权利要求6所述的网络数据采集方法,其特征在于,所述网络数据采集方法包括:
8.一种网络数据采集装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序,以执行权利要求1至7任一项所述的网络数据采集方法中的步骤。
10.一种计算机可读存
...【技术特征摘要】
1.一种网络数据采集方法,其特征在于,所述网络数据采集方法包括:
2.根据权利要求1所述的网络数据采集方法,其特征在于,所述网络数据采集方法,包括:
3.根据权利要求2所述的网络数据采集方法,其特征在于,所述http响应头信息包括last-modified字段和etag字段。
4.根据权利要求2所述的网络数据采集方法,其特征在于,所述网络数据采集方法,包括:
5.根据权利要求4所述的网络数据采集方法,其特征在于,所述获取所述目标网页链接对应的目标url特征,包括:
6.根据权利要求4所述的网络数据采集方法...
【专利技术属性】
技术研发人员:张金灿,艾翔,
申请(专利权)人:深圳豹变网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。