数据采集及解析方法及系统技术方案

技术编号:15090604 阅读:88 留言:0更新日期:2017-04-07 19:11
本发明专利技术涉及行为数据的日常采集及解析。本发明专利技术提供一种数据采集及解析方法,终端上报数据时,系统采集上报数据,根据预设周期存储至本地磁盘;系统对本地磁盘存储的上报数据进行多线程扫描解析,并将解析数据存储至kafka。数据采集及解析系统,包括数据采集接口、本地磁盘、数据解析模块及kafka存储节点;所述数据采集接口,用于终端上报数据时,采集上报数据,并根据预设周期将上报数据存储至本地磁盘;所述数据解析模块,用于对本地磁盘存储的上报数据进行多线程扫描解析,并将解析数据存储至kafka。快速可靠的实现对终端上传数据的采集和解析。适用于在Java技术基础上,构建大规模数据的采集及解析。

Data acquisition and analysis method and system

The present invention relates to the daily collection and analysis of behavioral data. The invention provides a data acquisition and analysis method, terminal data report, data gathering and reporting system, according to the preset period and stored in the local disk; the reported data on local disk storage system for multi-threaded scanning analysis, and analytical data to kafka. The data acquisition and analysis system, including data acquisition interface, local disk, data analysis module and Kafka storage node; the data acquisition interface, data acquisition terminal for reporting, reporting data, and according to the preset period will be reported to the local disk data storage; the data analysis module, data for reporting on local disk storage multithreaded scanning analysis, and analytical data to kafka. Fast and reliable implementation of data acquisition and analysis of the terminal. Based on the Java technology, the construction of large-scale data acquisition and analysis.

【技术实现步骤摘要】

本专利技术涉及终端上报的行为数据的日常采集及解析,特别涉及在Java技术基础上,构建大规模数据的采集及解析。
技术介绍
随着智能家电的普及,如何分析用户终端的各项数据,挖掘用户的隐形需求,为用户提供更加丰富、友好的服务,成为各大家电厂商研究的重要方向。基于这些要求,对终端数据的采集和解析,为后续的大数据处理工作提供数据支撑,成为了一项重要的基础工作。Java技术广泛应用于各大系统平台的软件开发,利用Java技术开发web程序进行数据采集、数据解析,可以跨平台移植,方便进行大规模部署、更新、升级。传统的数据采集、解析方法包括两种:一、数据的实时采集、解析;二、数据的延时采集、解析。实时的数据采集、解析方法由一套web程序提供采集、解析功能,即在数据上报的第一时间触发采集、解析程序,采集到的数据立刻进行解析、存储;延时的数据采集、解析方法的则由采集程序和解析程序构成,采集程序先将终端上报的数据写入到服务器的本地磁盘空间,解析程序扫描本地数据文件,读取数据进行解析处理、存储。
技术实现思路
本专利技术所要解决的技术问题,就是提供一种数据采集及解析方法及系统以实现更加快速、可靠的数据采集及解析。本专利技术解决所述技术问题,采用的技术方案是,数据采集及解析方法,包括:终端上报数据时,系统采集上报数据,根据预设周期存储至本地磁盘;系统对本地磁盘存储的上报数据进行多线程扫描解析,并将解析数据存储至kafka。具体的,终端通过post方式上报数据。具体的,系统采集上报数据,将其转换为String格式的字符串,并将字符串保存在列表中,根据预设周期将列表中的数据写入到本地磁盘。具体的,系统对本地磁盘存储数据进行多线程扫描解析,每个线程中,系统将String类型的字符串数据转换为json格式的数据,获取各字段值,并对各字段值进行解析。进一步的,所述对各字段值进行解析包括:获取\designation\字段值判断解密类型,调用解密程序进行数据解密,得到解密数据;获取\ip\字段值,调用IP解析程序对IP进行解析,得到IP地址信息及时间信息。进一步的,系统将解密数据、IP地址信息及时间信息组合成json格式的数据存入kafka,所述kafka存储节点至少为一个。数据采集及解析系统,包括数据采集接口、本地磁盘、数据解析模块及kafka存储节点;所述数据采集接口与本地磁盘连接,本地磁盘与数据解析模块连接,数据解析模块与kafka存储节点连接;所述数据采集接口,用于终端上报数据时,采集上报数据,并根据预设周期将上报数据存储至本地磁盘;所述数据解析模块,用于对本地磁盘存储的上报数据进行多线程扫描解析,并将解析数据存储至kafka。具体的,终端通过post方式上报数据至数据采集接口。具体的,数据采集接口采集上报数据,将其转换为String格式的字符串,并将字符串保存在列表中,根据预设周期将列表中的数据写入到本地磁盘。具体的,数据解析模块对本地磁盘存储的上报数据进行多线程扫描解析,每个线程中,系统将String类型的字符串数据转换为json格式的数据,获取各字段值,并对各字段值进行解析。进一步的,所述对各字段值进行解析包括:获取\designation\字段值判断解密类型,调用解密程序进行数据解密,得到解密数据;获取\ip\字段值,调用IP解析程序对IP进行解析,得到IP地址信息及时间信息。进一步的,系统将解密数据、IP地址信息及时间信息组合成json格式的数据存入kafka,所述kafka存储节点至少为一个。本专利技术的有益效果是:由于数据解析主程序或调用的解密程序、IP解析程序的升级及维护不会影响到数据采集工作的正常进行,所以不会造成数据丢失,保证了采集数据的完整性;快速、可靠的实现对终端上传数据的采集和解析。附图说明图1为本专利技术数据采集及解析方法及系统实施例的流程图。以下结合实施例的具体实施方式,对本专利技术的上述内容再作进一步的详细说明。但不应将此理解为本专利技术上述主题的范围仅限于以下的实例。在不脱离本专利技术上述技术思想情况下,根据本领域普通技术知识和惯用手段做出的各种替换或变更,均应包括在本专利技术的范围内。具体实施方式下面结合附图及实施例详细描述本专利技术的技术方案:本专利技术针对现有技术中实时数据采集、解析的服务器环境、网络条件、程序更新及程序升级容易造成的数据丢失及延时数据采集及解析的实效性太低的问题,提供一种数据采集及解析方法,包括:终端上报数据时,系统采集上报数据,根据预设周期存储至本地磁盘;系统对本地磁盘存储的上报数据进行多线程扫描解析,并将解析数据存储至kafka。数据采集及解析系统,包括数据采集接口、本地磁盘、数据解析模块及kafka存储节点;所述数据采集接口与本地磁盘连接,本地磁盘与数据解析模块连接,数据解析模块与kafka存储节点连接;所述数据采集接口,用于终端上报数据时,采集上报数据,并根据预设周期将上报数据存储至本地磁盘;所述数据解析模块,用于对本地磁盘存储的上报数据进行多线程扫描解析,并将解析数据存储至kafka。由于数据解析主程序或调用的解密程序、IP解析程序的升级及维护不会影响到数据采集工作的正常进行,所以不会造成数据丢失,保证了采集数据的完整性;快速、可靠的实现对终端上传数据的采集和解析。实施例本例结合实时数据采集解析方法和延时数据采集解析方法的优点,提供一种更加快速、可靠的数据采集及解析方法。从而解决实时数据采集解析的服务器环境、网络条件、程序更新、升级时容易造成的数据丢失问题;解决了延时数据采集解析方法的实效性太低的问题。本例的总体构思为:在Java技术的基础上,提供跨平台(linux、windows)的数据采集及解析方法。如图1所示,首先,开发数据采集程序和数据解析程序,部署到linux(windows)服务器上。其次数据采集程序提供数据采集服务接口,终端数据通过http协议中的post方式传递json格式的数据触发采集服务接口,采集服务接口获取到json格式的上报数据,以字符串的形式逐条写入到本地磁盘,完成数据的采集工作。数据解析程序,首先开启多线程并发执行,各线程调用主程序扫描本地磁盘目录,获取数据采集程序存储的数据文件,对文件数据逐条进行读取,将读取到的字符串转换为json数据,提取其中的加密数据、加密方式、IP地址等,进行数据解密和IP解析等工作,存入到数据库,完成数据解析工作。家电终端数据的采集和解析主要受以下两个方面影响:1,家电产品终端上报的数据内容本文档来自技高网...

【技术保护点】
数据采集及解析方法,其特征在于,包括:终端上报数据时,系统采集上报数据,根据预设周期存储至本地磁盘;系统对本地磁盘存储的上报数据进行多线程扫描解析,并将解析数据存储至kafka。

【技术特征摘要】
1.数据采集及解析方法,其特征在于,包括:终端上报数据时,系统采集上报数据,根
据预设周期存储至本地磁盘;系统对本地磁盘存储的上报数据进行多线程扫描解析,并将解
析数据存储至kafka。
2.根据权利要求1所述的数据采集及解析方法,其特征在于,终端通过post方式上报
数据。
3.根据权利要求1所述的数据采集及解析方法,其特征在于,系统采集上报数据,将其
转换为String格式的字符串,并将字符串保存在列表中,根据预设周期将列表中的数据写入
到本地磁盘。
4.根据权利要求1所述的数据采集及解析方法,其特征在于,系统对本地磁盘存储数据
进行多线程扫描解析,每个线程中,系统将String类型的字符串数据转换为json格式的数
据,获取各字段值,并对各字段值进行解析。
5.根据权利要求4所述的数据采集及解析方法,其特征在于,所述对各字段值进行解析
包括:获取\designation\字段值判断解密类型,调用解密程序进行数据解密,得到解密数据;
获取\ip\字段值,调用IP解析程序对IP进行解析,得到IP地址信息及时间信息。
6.根据权利要求5所述的数据采集及解析方法,其特征在于,系统将解密数据、IP地
址信息及时间信息组合成json格式的数据存入kafka,所述kafka存储节点至少为一个。
7.数据采集及解析系统,其特征在于,包括数据采集接口、本地磁盘、数据解析模块及
kafka存储节点;所述数据采集接口与本地磁盘连接,本...

【专利技术属性】
技术研发人员:唐永瑞漆尧杜科
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1