数据采集方法、数据采集平台、客户端及业务服务器技术

技术编号:18860953 阅读:19 留言:0更新日期:2018-09-05 14:25
本发明专利技术公开一种数据采集方法、数据采集平台、客户端及业务服务器,所述方法包括:基于主动数据采集服务,采集业务服务器中的结构化数据和对应于所述结构化数据的第一日志信息;基于被动数据采集服务,接收客户端所发送的与所述结构化数据相关的非结构化数据和对应于所述非结构化数据的第二日志信息,其中所述第一日志信息与所述第二日志信息相互关联;基于所述第一日志信息和所述第二日志信息,关联存储所述结构化数据和所述非结构化数据。本发明专利技术实施例的数据采集的方法将非结构化数据和结构化数据进行关联存储,实现了对非结构化数据的被动数据采集,且混合实施了主动数据采集和被动数据采集,提高了数据收集的效率。

Data acquisition method, data acquisition platform, client and business server.

The invention discloses a data acquisition method, a data acquisition platform, a client and a service server. The method comprises: acquiring structured data in the service server and the first log information corresponding to the structured data based on the active data acquisition service, and receiving the client based on the passive data acquisition service. The transmitted unstructured data associated with the structured data and the second log information corresponding to the unstructured data, wherein the first log information is associated with the second log information, and the structured data and the unstructured data are stored in association based on the first log information and the second log information. Structured data. The method of data acquisition according to the embodiment of the invention associates the unstructured data with the structured data, realizes the passive data acquisition of the unstructured data, and implements the active data acquisition and the passive data acquisition, thereby improving the efficiency of data collection.

【技术实现步骤摘要】
数据采集方法、数据采集平台、客户端及业务服务器
本专利技术属于软件开发
,尤其涉及一种数据采集方法、数据采集平台、客户端及业务服务器。
技术介绍
计算机信息化系统中的数据分为结构化数据和非结构化数据。结构化数据的格式和排列形式是较有规律的,一般包含两种形式,其一是指可以使用关系型数据库表示和存储的二维形式的数据;其二是指虽不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,以用来分隔语义元素以及对记录和字段进行分层的数据(也被称为半结构化数据)。相比之下,非结构化数据的格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解,是不方便用数据库、二维逻辑表来表现的数据;具体而言,非结构化数据包括一些格式的办公文档、图片、音频和视频信息等等。为了实现对用户数据的收集,目前相关技术提出了一些解决方案,例如有基于开源的技术如ApacheFlume和ApacheSqoop所实现的数据采集方案;也还有商家(如阿里云)所提供的一些数据集成方案。但是,本申请的专利技术人在实践本申请的过程中发现目前相关技术至少存在以下缺陷:一方面,目前的数据采集方案一般都是针对结构化数据的收集,且是以主动式的数据收集方式所实施的,都无法实现被动式的数据收集方案;另一方面,由于非结构化数据对客户端和协议的统一性要求高、数据量大,导致目前相关技术也难以实现对非结构化数据的有效收集。
技术实现思路
本专利技术实施例提供一种数据采集方法、数据采集平台、客户端及业务服务器,用于至少解决上述技术问题之一。第一方面,本专利技术实施例提供一种数据采集方法,应用于数据采集平台,所述方法包括:基于主动数据采集服务,采集业务服务器中的结构化数据和对应于所述结构化数据的第一日志信息;基于被动数据采集服务,接收客户端所发送的与所述结构化数据相关的非结构化数据和对应于所述非结构化数据的第二日志信息,其中所述第一日志信息与所述第二日志信息相互关联;基于所述第一日志信息和所述第二日志信息,关联存储所述结构化数据和所述非结构化数据。第二方面,本专利技术实施例提供一种数据采集方法,应用于客户端,所述方法包括:获取非结构化数据和对应于所述非结构化数据的第二日志信息;为所述第二日志信息分配唯一的关联ID;发送所述关联ID至用于管理所述客户端的业务服务器,以使得所述业务服务器能够基于所述关联ID关联所述第二日志信息和对应于结构化数据的第一日志信息,其中所述结构化数据与所述非结构数据相关;基于被动数据采集服务,发送所述非结构化数据和具有所述关联ID的所述第二日志信息至数据采集平台。第三方面,本专利技术实施例提供一种数据采集方法,应用于业务服务器,所述方法包括:从客户端接收已被分配至第二日志信息的关联ID,其中所述第二日志信息对应于非结构化数据;获取与所述非结构化数据相关的结构化数据和对应于所述结构化数据的第一日志信息;为所述第一日志信息分配所述关联ID,以关联所述第一日志信息与所述第二日志信息;其中,所述结构化数据和具有所述关联ID的所述第一日志信息,用于基于主动数据采集服务而被数据采集平台主动采集。第四方面,本专利技术实施例提供一种数据采集平台,包括:主动采集程序模块,用于基于主动数据采集服务,采集业务服务器中的结构化数据和对应于所述结构化数据的第一日志信息;被动采集程序模块,用于基于被动数据采集服务,接收客户端所发送的与所述结构化数据相关的非结构化数据和对应于所述非结构化数据的第二日志信息,其中所述第一日志信息与所述第二日志信息相互关联;关联存储程序模块,用于基于所述第一日志信息和所述第二日志信息,关联存储所述结构化数据和所述非结构化数据。第五方面,本专利技术实施例提供一种客户端,包括:信息获取程序模块,用于获取非结构化数据和对应于所述非结构化数据的第二日志信息;关联ID分配程序模块,用于为所述第二日志信息分配唯一的关联ID;关联ID发送程序模块,用于发送所述关联ID至用于管理所述客户端的业务服务器,以使得所述业务服务器能够基于所述关联ID关联所述第二日志信息和对应于结构化数据的第一日志信息,其中所述结构化数据与所述非结构数据相关;被动服务响应程序模块,用于基于被动数据采集服务,发送所述非结构化数据和具有所述关联ID的所述第二日志信息至数据采集平台。第六方面,本专利技术实施例提供一种业务服务器,包括:关联ID接收程序模块,用于从客户端接收已被分配至第二日志信息的关联ID,其中所述第二日志信息对应于非结构化数据;信息获取程序模块,用于获取与所述非结构化数据相关的结构化数据和对应于所述结构化数据的第一日志信息;关联ID分配程序模块,为所述第一日志信息分配所述关联ID,以关联所述第一日志信息与所述第二日志信息;其中,所述结构化数据和具有所述关联ID的所述第一日志信息,用于基于主动数据采集服务而被数据采集平台主动采集。第七方面,本专利技术实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法的步骤。第八方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。本专利技术实施例的有益效果在于:其一,基于数据的日志信息的关联性,关联存储在业务服务器端的结构化数据及与该结构化数据相关的在客户端的非结构化数据,实现了对非结构化数据和结构化数据两类数据的关联存储,并提供了一种对非结构化数据的被动收集方案,使得所收集的数据可以进行统一存储,并可以方便后期的分析、挖掘等工作;其二,通过实施了主动数据采集服务和被动数据采集服务的混合数据收集方案,相比于单纯的主动数据采集方案,提高了数据的传输效率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术的应用于数据采集平台的数据采集方法的一实施例的流程图;图2为本专利技术实施例中的应用于客户端的数据采集方法的一实施例的流程图;图3为本专利技术实施例中的应用于业务服务器的数据采集方法的一实施例流程图;图4为本专利技术实施例中的应用数据采集方法的架构的一实施例的框架示意图;图5为图4所示的本专利技术实施例的架构的工作原理流程图;图6为本专利技术实施例的数据采集平台的一实施例的结构框图;图7为本专利技术实施例的客户端的一实施例的结构框图;图8为本专利技术实施例的业务服务器的一实施例的结构框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本专利技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序本文档来自技高网...

【技术保护点】
1.一种数据采集方法,应用于数据采集平台,所述方法包括:基于主动数据采集服务,采集业务服务器中的结构化数据和对应于所述结构化数据的第一日志信息;基于被动数据采集服务,接收客户端所发送的与所述结构化数据相关的非结构化数据和对应于所述非结构化数据的第二日志信息,其中所述第一日志信息与所述第二日志信息相互关联;基于所述第一日志信息和所述第二日志信息,关联存储所述结构化数据和所述非结构化数据。

【技术特征摘要】
1.一种数据采集方法,应用于数据采集平台,所述方法包括:基于主动数据采集服务,采集业务服务器中的结构化数据和对应于所述结构化数据的第一日志信息;基于被动数据采集服务,接收客户端所发送的与所述结构化数据相关的非结构化数据和对应于所述非结构化数据的第二日志信息,其中所述第一日志信息与所述第二日志信息相互关联;基于所述第一日志信息和所述第二日志信息,关联存储所述结构化数据和所述非结构化数据。2.根据权利要求1所述的方法,其中,所述关联存储所述结构化数据和所述非结构化数据包括:压缩所接收到的所述非结构化数据;关联并存储所述结构化数据和经压缩的所述非结构化数据。3.根据权利要求1所述的方法,其中,在关联存储所述结构化数据和所述非结构化数据之后,所述方法还包括:基于预定周期,对所关联存储的所述结构化数据和所述非结构化数据按照统一的逻辑视图进行一致化处理。4.一种数据采集平台,包括:主动采集程序模块,用于基于主动数据采集服务,采集业务服务器中的结构化数据和对应于所述结构化数据的第一日志信息;被动采集程序模块,用于基于被动数据采集服务,接收客户端所发送的与所述结构化数据相关的非结构化数据和对应于所述非结构化数据的第二日志信息,...

【专利技术属性】
技术研发人员:陆峰黄彬覃江
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1