The invention discloses a data acquisition method, a data acquisition platform, a client and a service server. The method comprises: acquiring structured data in the service server and the first log information corresponding to the structured data based on the active data acquisition service, and receiving the client based on the passive data acquisition service. The transmitted unstructured data associated with the structured data and the second log information corresponding to the unstructured data, wherein the first log information is associated with the second log information, and the structured data and the unstructured data are stored in association based on the first log information and the second log information. Structured data. The method of data acquisition according to the embodiment of the invention associates the unstructured data with the structured data, realizes the passive data acquisition of the unstructured data, and implements the active data acquisition and the passive data acquisition, thereby improving the efficiency of data collection.
【技术实现步骤摘要】
数据采集方法、数据采集平台、客户端及业务服务器
本专利技术属于软件开发
,尤其涉及一种数据采集方法、数据采集平台、客户端及业务服务器。
技术介绍
计算机信息化系统中的数据分为结构化数据和非结构化数据。结构化数据的格式和排列形式是较有规律的,一般包含两种形式,其一是指可以使用关系型数据库表示和存储的二维形式的数据;其二是指虽不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,以用来分隔语义元素以及对记录和字段进行分层的数据(也被称为半结构化数据)。相比之下,非结构化数据的格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解,是不方便用数据库、二维逻辑表来表现的数据;具体而言,非结构化数据包括一些格式的办公文档、图片、音频和视频信息等等。为了实现对用户数据的收集,目前相关技术提出了一些解决方案,例如有基于开源的技术如ApacheFlume和ApacheSqoop所实现的数据采集方案;也还有商家(如阿里云)所提供的一些数据集成方案。但是,本申请的专利技术人在实践本申请的过程中发现目前相关技术至少存在以下缺陷:一方面,目前的数据采集方案一般都是针对结构化数据的收集,且是以主动式的数据收集方式所实施的,都无法实现被动式的数据收集方案;另一方面,由于非结构化数据对客户端和协议的统一性要求高、数据量大,导致目前相关技术也难以实现对非结构化数据的有效收集。
技术实现思路
本专利技术实施例提供一种数据采集方法、数据采集平台、客户端及业务服务器,用于至少解决上述技术问题之一。第一方面,本专利技术实施例提供一种数据采集方 ...
【技术保护点】
1.一种数据采集方法,应用于数据采集平台,所述方法包括:基于主动数据采集服务,采集业务服务器中的结构化数据和对应于所述结构化数据的第一日志信息;基于被动数据采集服务,接收客户端所发送的与所述结构化数据相关的非结构化数据和对应于所述非结构化数据的第二日志信息,其中所述第一日志信息与所述第二日志信息相互关联;基于所述第一日志信息和所述第二日志信息,关联存储所述结构化数据和所述非结构化数据。
【技术特征摘要】
1.一种数据采集方法,应用于数据采集平台,所述方法包括:基于主动数据采集服务,采集业务服务器中的结构化数据和对应于所述结构化数据的第一日志信息;基于被动数据采集服务,接收客户端所发送的与所述结构化数据相关的非结构化数据和对应于所述非结构化数据的第二日志信息,其中所述第一日志信息与所述第二日志信息相互关联;基于所述第一日志信息和所述第二日志信息,关联存储所述结构化数据和所述非结构化数据。2.根据权利要求1所述的方法,其中,所述关联存储所述结构化数据和所述非结构化数据包括:压缩所接收到的所述非结构化数据;关联并存储所述结构化数据和经压缩的所述非结构化数据。3.根据权利要求1所述的方法,其中,在关联存储所述结构化数据和所述非结构化数据之后,所述方法还包括:基于预定周期,对所关联存储的所述结构化数据和所述非结构化数据按照统一的逻辑视图进行一致化处理。4.一种数据采集平台,包括:主动采集程序模块,用于基于主动数据采集服务,采集业务服务器中的结构化数据和对应于所述结构化数据的第一日志信息;被动采集程序模块,用于基于被动数据采集服务,接收客户端所发送的与所述结构化数据相关的非结构化数据和对应于所述非结构化数据的第二日志信息,...
【专利技术属性】
技术研发人员:陆峰,黄彬,覃江,
申请(专利权)人:苏州思必驰信息科技有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。