System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及互联网,特别是涉及一种数据采集方法、装置、设备以及存储介质。
技术介绍
1、相关技术中,当用户需要针对被授权的网页采集目标素材数据时,通常调用数据采集端执行数据采集任务。用户通过客户端向数据采集端提供一些参数,例如目标素材数据所在的初始网页地址、需要采集的页面数、关键词等,随后数据采集端可以模拟点击与翻页,利用网页下载器获取当前页面的网页源代码,然后提交给网页解析器进行解析,以从网页源代码中将目标素材数据提取出来并反馈给客户端的用户。但是,当其他客户端需要采集相同的目标素材数据时,数据采集端仍需要重复执行该数据采集任务,造成数据采集端的资源浪费。
2、因此,如何降低数据采集端的资源浪费成为亟需解决的技术问题。
技术实现思路
1、本专利技术实施例的目的在于提供一种数据采集方法、装置、设备以及存储介质,以降低数据采集端的资源浪费。具体技术方案如下:
2、第一方面,本专利技术实施例提供了一种数据采集方法,应用于数据采集端,所述方法包括:
3、响应于接收到客户端发送的数据采集请求,确定所述数据采集请求中所携带的、关于待获取的目标素材数据的描述信息;其中,所述描述信息中至少包括所述目标素材数据所需来源于的目标网页的网页标识信息;
4、基于所述描述信息中的网页标识信息,检测预设的指定数据库中是否存在所述目标网页所在的网站地址;其中,所述指定数据库中存储有所述数据采集端定时进行网页内容采集时所需访问的至少一个网站地址;
5
6、其中,所述目标数据库中存储有:所述数据采集端定时按照预定采集方式对所述指定数据库中所包括的网站地址进行网页内容采集后所得到的素材数据,且所述目标数据库中的素材数据以素材包的形式存储;
7、各个素材包是按照预定打包规则打包得到,所述预定打包规则包括至少将所述目标数据库中的、属于不同网页的素材数据打包成不同素材包的规则;每一素材包具有唯一的编码,所述编码至少用于表征该素材包中的素材数据所来源于的网页的网页标识信息。
8、可选地,所述方法还包括:
9、若不存在,基于所述描述信息中的网页标识信息,对所述目标网页进行网页内容采集,并将所采集网页内容中符合所述描述信息的素材数据,作为目标素材数据反馈至所述客户端。
10、可选地,所述数据采集端定时按照预定采集方式对所述指定数据库中所包括的网站地址进行网页内容采集,包括:
11、响应于检测到达到预定的数据采集时间,确定所述指定数据库所包括的网站地址中待进行网页内容采集的第一类网页和第二类网页;其中,所述第一类网页为预先设置有相应的网页内容采集模板的网页,所述第二类网页为未设置有相应的网页内容采集模板的网页,每一网页内容采集模板中设置有所对应网页的页面布局下、预定类型的素材数据的采集规则;
12、针对所述第一类网页,对所述第一类网页进行网页加载,并按照所述第一类网页对应的网页内容采集模板进行网页内容采集,得到所述第一类网页的素材数据;
13、针对所述第二类网页,对所述第二类网页进行网页加载,对所述第二类网页的全部内容进行网页内容采集,并对所采集的网页内容进行预定过滤处理,得到所述第二类网页的素材数据。
14、可选地,所述数据采集端定时按照预定采集方式对所述指定数据库中所包括的网站地址进行网页内容采集,包括:
15、响应于检测到达到预定的数据采集时间,对所述指定数据库中所包括的网站地址下的各个网页进行网页加载;
16、基于当前所加载的网页,生成具有预定的目标数据格式的网页数据,作为当前所加载网页的素材数据;
17、其中,所述目标数据格式包括快照格式,和/或,富文本格式。
18、可选地,所述基于当前所加载的网页,生成具有目标数据格式的网页数据,得到当前所加载网页的素材数据,包括:
19、若所述目标数据格式为快照格式,对当前所加载网页中的冗余元素进行移除后,重新加载当前网页,并确定当前网页的网页高度;基于所确定的网页高度对当前网页进行长截图,得到快照格式的网页内容,作为当前所加载网页的素材数据;
20、若所述目标数据格式为富文本格式,利用预定转换工具将当前所加载网页的网页内容转换为富文本格式,作为当前所加载网页的素材数据。
21、第二方面,本专利技术实施例提供了一种数据采集装置,应用于数据采集端,所述装置包括:
22、确定模块,用于响应于接收到客户端发送的数据采集请求,确定所述数据采集请求中所携带的、关于待获取的目标素材数据的描述信息;其中,所述描述信息中至少包括所述目标素材数据所需来源于的目标网页的网页标识信息;
23、检测模块,用于基于所述描述信息中的网页标识信息,检测预设的指定数据库中是否存在所述目标网页所在的网站地址;其中,所述指定数据库中存储有所述数据采集端定时进行网页内容采集时所需访问的至少一个网站地址;
24、获取模块,用于若存在,基于所述描述信息中的网页标识信息,从目标数据库获取具有与所述描述信息相匹配的编码的素材包,得到目标素材数据,并将所得到的目标素材数据反馈至所述客户端;
25、其中,所述目标数据库中存储有:所述数据采集端定时按照预定采集方式对所述指定数据库中所包括的网站地址进行网页内容采集后所得到的素材数据,且所述目标数据库中的素材数据以素材包的形式存储;
26、各个素材包是按照预定打包规则打包得到,所述预定打包规则包括至少将所述目标数据库中的、属于不同网页的素材数据打包成不同素材包的规则;每一素材包具有唯一的编码,所述编码至少用于表征该素材包中的素材数据所来源于的网页的网页标识信息。
27、可选地,所述装置还包括:
28、采集模块,用于若不存在,基于所述描述信息中的网页标识信息,对所述目标网页进行网页内容采集,并将所采集网页内容中符合所述描述信息的素材数据,作为目标素材数据反馈至所述客户端。
29、可选地,所述数据采集端定时按照预定采集方式对所述指定数据库中所包括的网站地址进行网页内容采集,包括:
30、响应于检测到达到预定的数据采集时间,确定所述指定数据库所包括的网站地址中待进行网页内容采集的第一类网页和第二类网页;其中,所述第一类网页为预先设置有相应的网页内容采集模板的网页,所述第二类网页为未设置有相应的网页内容采集模板的网页,每一网页内容采集模板中设置有所对应网页的页面布局下、预定类型的素材数据的采集规则;
31、针对所述第一类网页,对所述第一类网页进行网页加载,并按照所述第一类网页对应的网页内容采集模板进行网页内容采集,得到所述第一类网页的素材数据;
32、针对所述第二类网页,对所述第二类网页进行网页加载,本文档来自技高网...
【技术保护点】
1.一种数据采集方法,其特征在于,应用于数据采集端,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1或2所述的方法,其特征在于,所述数据采集端定时按照预定采集方式对所述指定数据库中所包括的网站地址进行网页内容采集,包括:
4.根据权利要求1或2所述的方法,其特征在于,所述数据采集端定时按照预定采集方式对所述指定数据库中所包括的网站地址进行网页内容采集,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于当前所加载的网页,生成具有目标数据格式的网页数据,得到当前所加载网页的素材数据,包括:
6.一种数据采集装置,其特征在于,应用于数据采集端,所述装置包括:
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
8.根据权利要求6或7所述的装置,其特征在于,所述数据采集端定时按照预定采集方式对所述指定数据库中所包括的网站地址进行网页内容采集,包括:
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法。
...【技术特征摘要】
1.一种数据采集方法,其特征在于,应用于数据采集端,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1或2所述的方法,其特征在于,所述数据采集端定时按照预定采集方式对所述指定数据库中所包括的网站地址进行网页内容采集,包括:
4.根据权利要求1或2所述的方法,其特征在于,所述数据采集端定时按照预定采集方式对所述指定数据库中所包括的网站地址进行网页内容采集,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于当前所加载的网页,生成具有目标数据格式的网页数据,得到当前所加载网页的素材数据,包括:
...【专利技术属性】
技术研发人员:李剑戈,张永泰,周瑞雪,胡强,
申请(专利权)人:中信建投证券股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。