【技术实现步骤摘要】
一种数据采集的方法、装置、计算机设备和存储介质
[0001]本申请涉及计算机
,特别是涉及一种数据采集的方法、装置、计算机设备和存储介质。
技术介绍
[0002]在数据采集过程中,往往会发生各种异常情况导致数据丢失,导致采集数据不全等问题。当出现这种问题时,传统技术中,通常会对数据采集过程中的请求失败做简单的重试操作。
[0003]然而,在真实的数据采集过程中,数万采集程序同时运行时,每天产生的异常请求不计其数,只对请求失败做简单的重试,很难找回因请求失败造成的数据。
技术实现思路
[0004]基于此,有必要针对上述技术问题,提供一种能够具体分析出数据丢失发生在采集过程中的具体阶段并有针对性地进行重试以提高采集准确率的数据采集方法、装置、计算机设备和存储介质。
[0005]一种数据采集的方法,所述方法包括:
[0006]获取采集异常的请求信息及对应的日志信息;
[0007]从所述日志信息中确定出所述请求信息发生异常时对应的采集阶段,所述采集阶段与采集内容、采集时间相对应; ...
【技术保护点】
【技术特征摘要】
1.一种数据采集的方法,其特征在于,所述方法包括:获取采集异常的请求信息及对应的日志信息;从所述日志信息中确定出所述请求信息发生异常时对应的采集阶段,所述采集阶段与采集网页的内容、采集时间相对应;按照与所述采集阶段相匹配的请求重试方式,重试所述请求信息。2.根据权利要求1所述的方法,其特征在于,所述获取采集异常的请求信息及对应的日志信息,包括:从预设的日志信息数据库中,利用结构化的查询语句查询采集异常的请求信息及对应的日志信息。3.根据权利要求2所述的方法,其特征在于,所述日志信息数据库被设置为按照如下方式获得:对采集程序的各个采集阶段进行日志记录,所述采集程序与所述请求信息相对应;将记录到的日志信息存储到日志信息数据库中。4.根据权利要求3所述的方法,其特征在于,所述将记录到的日志信息存储到日志信息数据库中,包括:在所述采集程序发生异常时,将记录到的日志信息存储到日志信息数据库中。5.根据权利要求1所述的方法,其特征在于,所述日志信息包括下述中的至少一种:请求信息、响应信息、采集程序发生异常的时间、网页中链接的数量。6.根据权利要求1所述的方法,其特征在于,所述从所述日志信息中确定出所...
【专利技术属性】
技术研发人员:顾杨,叶秀清,陆紫华,王凯,
申请(专利权)人:企查查科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。