数据采集方法及系统技术方案

技术编号:23099207 阅读:37 留言:0更新日期:2020-01-14 20:37
本发明专利技术公开了一种数据采集方法及系统,通过采集目标软件的行为数据,调用J2SE服务,根据包括行为数据的数据类型、Topic类和数据存储路径的对应关系的预设配置表将行为数据写入Kafka系统,通过流式计算从Kafka系统中抽取行为数据,并进行储存。本发明专利技术在采集新数据类型的行为数据时,将配置预设配置表中行为数据的数据类型相应修改成目标软件的行为数据所属数据类型,并配置好目标软件的行为数据所属数据类型相对应的Topic类及数据存储路径的对应关系,即可实现对目标软件的行为数据的采集,不再需要开发数据接口和修改程序代码,大幅缩短数据采集周期。

Data acquisition method and system

【技术实现步骤摘要】
数据采集方法及系统
本专利技术涉及数据处理
,具体为一种数据采集方法及系统。
技术介绍
通过大数据来指导运营策略、改善用户体验,同时也通过对数据半自动或者自动分析,来快速定位被监控系统的问题,是目前进行流量精细化运营的主要手段。其中,针对手机软件(Application,APP),一般通过对APP进行数据采集,来获取后续分析用的大数据。现有的数据采集方法,是对不同数据类型的目标数据开发相对应的数据接口,通过该数据接口进行目标数据的采集。然而从采集需求的提出到开发、测试、投产一般需要至少3个月的时间。目前的app中需要采集的数据类型多、范围广、埋点难度高、需求大,按照现有采集方法,需要消耗大量的时间成本和金钱成本。
技术实现思路
本专利技术提供了一种数据采集方法及系统,可以解决现有技术中由于需要对不同数据类型的目标数据开发相对应的数据接口进行数据采集,导致数据采集会消耗大量的时间成本和金钱成本的问题。为达到上述目的,本专利技术提供了如下技术方案:一种数据采集方法,包括:采集目标软件的行为数据;调用J2SE服务,根据包括行为数据的数据类型、Topic类和数据存储路径的对应关系的预设配置表,按照行为数据的数据类型与Topic类的对应关系,将所述目标软件的行为数据写入Kafka系统;其中,相同类型的行为数据写入Kafka系统中的同一个Topic类中;根据预设配置表中Topic类与数据存储路径的对应关系,通过流式计算从Kafka系统中抽取属于同一Topic类的行为数据,并根据所述数据存储路径对属于同一Topic类的行为数据进行储存。可选的,所述采集目标软件的行为数据,包括:通过软件开发工具包SDK采集目标软件的行为数据,并将所述目标软件的行为数据转换为JSON报文的格式。可选的,所述预设配置表的建立过程,包括:根据行为数据的数据类型进行分类,在Kafka系统中为每一种数据类型设置一个Topic类,以及设置每一种类型的行为数据的数据存储路径;根据相对应的行为数据的数据类型、Topic类和数据存储路径建立所述预设配置表。可选的,所述根据包括行为数据的数据类型、Topic类和数据存储路径的对应关系的预设配置表,按照行为数据的数据类型与Topic类的对应关系,将所述目标软件的行为数据写入Kafka系统,包括:调用J2SE服务将所述JSON报文拆分成至少一条行为数据,并根据所述预设配置表中行为数据的数据类型与Topic类的对应关系将拆分出的行为数据逐条写入所述Kafka系统,并将拆分出的行为数据逐条与所述Kafka系统的Topic类对应。可选的,所述根据所述预设配置表中Topic类与数据存储路径的对应关系,通过流式计算从Kafka系统中抽取属于同一Topic类的行为数据,包括:根据所述预设配置表中Topic类和数据存储路径的对应关系,通过流式计算从Kafka系统以固定时间间隔抽取属于同一Topic类的行为数据,并根据所述数据存储路径进行储存。一种数据采集系统,包括:采集单元,用于采集目标软件的行为数据;写入单元,用于调用J2SE服务,根据包括行为数据的数据类型、Topic类和数据存储路径的对应关系的预设配置表,按照行为数据的数据类型与Topic类的对应关系,将所述目标软件的行为数据写入Kafka系统;其中,相同类型的行为数据写入Kafka系统中的同一个Topic类中;抽取单元,用于根据预设配置表中Topic类与数据存储路径的对应关系,通过流式计算从Kafka系统中抽取属于同一Topic类的行为数据,并根据所述数据存储路径对属于同一Topic类的行为数据进行储存。可选的,所述采集单元,用于通过软件开发工具包SDK采集目标软件的行为数据,并将所述目标软件的行为数据转换为JSON报文的格式。可选的,所述数据采集系统,还包括:设置单元,用于根据行为数据的数据类型进行分类,在Kafka系统中为每一种数据类型设置一个Topic类,以及设置每一种类型的行为数据的数据存储路径;建立单元,用于根据相对应的行为数据的数据类型、Topic类和数据存储路径建立所述预设配置表。可选的,所述写入单元,用于调用J2SE服务将所述JSON报文拆分成至少一条行为数据,并根据所述预设配置表中行为数据的数据类型与Topic类的对应关系将拆分出的行为数据逐条写入所述Kafka系统,并将拆分出的行为数据逐条与所述Kafka系统的Topic类对应。可选的,所述抽取单元,用于根据所述预设配置表中Topic类和数据存储路径的对应关系,通过流式计算从Kafka系统以固定时间间隔抽取属于同一Topic类的行为数据,并根据所述数据存储路径进行储存。经由上述技术方案可知,本专利技术公开了一种数据采集方法及系统,通过采集目标软件的行为数据,调用J2SE服务,根据包括行为数据的数据类型、Topic类和数据存储路径的对应关系的预设配置表将行为数据写入Kafka系统,通过流式计算从Kafka系统中抽取行为数据,并进行储存。本专利技术在采集新数据类型的行为数据时,将配置预设配置表中行为数据的数据类型相应修改成目标软件的行为数据所属数据类型,并配置好目标软件的行为数据所属数据类型相对应的Topic类及数据存储路径的对应关系,即可实现对目标软件的行为数据的采集,不再需要开发数据接口和修改程序代码,大幅缩短数据采集周期。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例公开的一种数据采集方法的流程图;图2为为本专利技术实施例公开的数据采集方法的流程示意图;图3为本专利技术实施例公开的一种数据采集系统的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。由
技术介绍
可知,现有的数据采集方法,是对不同数据类型的目标数据开发相对应的数据接口,通过该数据接口进行目标数据的采集。然而从采集需求的提出到开发、测试、投产一般需要至少3个月的时间。目前的app中需要采集的数据类型多、范围广、埋点难度高、需求大,按照现有采集方法,需要消耗大量的时间成本和金钱成本。有鉴于此,本专利技术提供了一种数据采集方法及系统,可以解决现有技术中由于需要对不同数据类型的目标数据开发相对应的数据接口进行数据采集,导致数据采集会消耗大量的时间成本和金钱成本的问题。如图1所示,本专利技术实施例公开了一种数据采集方法方法,包括以下步骤:本文档来自技高网
...

【技术保护点】
1.一种数据采集方法,其特征在于,包括:/n采集目标软件的行为数据;/n调用J2SE服务,根据包括行为数据的数据类型、Topic类和数据存储路径的对应关系的预设配置表,按照行为数据的数据类型与Topic类的对应关系,将所述目标软件的行为数据写入Kafka系统;其中,相同类型的行为数据写入Kafka系统中的同一个Topic类中;/n根据预设配置表中Topic类与数据存储路径的对应关系,通过流式计算从Kafka系统中抽取属于同一Topic类的行为数据,并根据所述数据存储路径对属于同一Topic类的行为数据进行储存。/n

【技术特征摘要】
1.一种数据采集方法,其特征在于,包括:
采集目标软件的行为数据;
调用J2SE服务,根据包括行为数据的数据类型、Topic类和数据存储路径的对应关系的预设配置表,按照行为数据的数据类型与Topic类的对应关系,将所述目标软件的行为数据写入Kafka系统;其中,相同类型的行为数据写入Kafka系统中的同一个Topic类中;
根据预设配置表中Topic类与数据存储路径的对应关系,通过流式计算从Kafka系统中抽取属于同一Topic类的行为数据,并根据所述数据存储路径对属于同一Topic类的行为数据进行储存。


2.根据权利要求1所述的数据采集方法,其特征在于,所述采集目标软件的行为数据,包括:
通过软件开发工具包SDK采集目标软件的行为数据,并将所述目标软件的行为数据转换为JSON报文的格式。


3.根据权利要求1所述的数据采集方法,其特征在于,所述预设配置表的建立过程,包括:
根据行为数据的数据类型进行分类,在Kafka系统中为每一种数据类型设置一个Topic类,以及设置每一种类型的行为数据的数据存储路径;
根据相对应的行为数据的数据类型、Topic类和数据存储路径建立所述预设配置表。


4.根据权利要求2所述的数据采集方法,其特征在于,所述根据包括行为数据的数据类型、Topic类和数据存储路径的对应关系的预设配置表,按照行为数据的数据类型与Topic类的对应关系,将所述目标软件的行为数据写入Kafka系统,包括:
调用J2SE服务将所述JSON报文拆分成至少一条行为数据,并根据所述预设配置表中行为数据的数据类型与Topic类的对应关系将拆分出的行为数据逐条写入所述Kafka系统,并将拆分出的行为数据逐条与所述Kafka系统的Topic类对应。


5.根据权利要求1所述的数据采集方法,其特征在于,所述根据所述预设配置表中Topic类与数据存储路径的对应关系,通过流式计算从Kafka系统中抽取属于同一Topic类的行为数据,包括:
根据所述预设配置表中Topic类和数据存储路...

【专利技术属性】
技术研发人员:钟华剑康伟王鹏晴陈世强李晓东徐雅光刘利刚刘宪伟张广斌刘子成
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1