一种基于大数据平台的无线城市审计数据离线分析方法技术

技术编号:17939650 阅读:36 留言:0更新日期:2018-05-15 20:04
本发明专利技术属于无线城市大数据离线分析技术领域,特别涉及一种基于大数据平台的无线城市审计数据离线分析方法。本发明专利技术通过数据预处理模块和ETL工具,提高了审计数据的采集质量,数据存储采用分布式文件系统,解决了亿级数据存储的容量瓶颈,同时保证了审计数据的安全性;部分审计数据表采用内存存储,极大地提高了审计数据的存储和读取速度。数据分析利用MapReduce计算框架,分析速度快,大大提高了审计数据与用户进行交互式展示。本无线城市审计数据离线分析方法能够处理的用户基数大、信息量大、处理速度快,满足了现有的业务数据存储和处理需求,针对亿级信息,更好地完成了审计数据的扩展与分析。

An off-line analysis method for wireless city audit data based on big data platform

The invention belongs to the field of wireless city big data off-line analysis technology, in particular to a off-line analysis method of wireless city audit data based on big data platform. Through the data preprocessing module and the ETL tool, the invention improves the quality of the audit data collection. The data storage uses the distributed file system to solve the bottleneck of the capacity of the multi billion level data storage, and ensures the security of the audit data. The audit data table uses memory storage and greatly improves the audit data storage. Storage and reading speed. Data analysis using MapReduce computing framework, analysis speed, greatly improving the audit data and user interactive display. This wireless city audit data off-line analysis method can deal with large number of users, large amount of information and fast processing speed. It meets the needs of the existing business data storage and processing, and has completed the expansion and analysis of audit data for hundreds of millions of levels of information.

【技术实现步骤摘要】
一种基于大数据平台的无线城市审计数据离线分析方法
本专利技术属于无线城市大数据离线分析
,特别涉及一种基于大数据平台的无线城市审计数据离线分析方法。
技术介绍
近年来,随着信息技术的飞速发展以及广泛应用,智能手机方便、及时的联网更是公众的主要需求。移动互联网用户产生和应用的数据量日益增大,亿级用户数据的出现和数据结构的多样化,如此庞大的数据采集并储存到服务器非常复杂,无线城市蕴含大量的数据,是服务于政府、公司和公众的新一代无线WIFI技术,无线城市统一运营平台被视为未来城市信息化发展的重要方向,是提高城市信息化水平的重要手段。无线城市大数据的技术研究以云计算为基础,建立具有无线城市行业特点的无线城市云计算数据中心,研究适合无线城市大数据的价值规律、应用场景的大数据系统框架、数据分析方法是无线城市大数据的发展方向,大数据正是新形势下技术融合型发展和应用智能化理念的集中体现,具有应对数据体量巨大、数据类型繁多、价值密度低和处理速度快等数据特征的技术架构,及以行业内外高附加值的内容增值服务为目标的应用模式,其核心就是信息资源的开发利用。随着无线城市建设的不断深入和推进,公众联网的数据量呈指数级增长,公众联网的数据分为认证数据和审计数据两类。认证数据具体是是指公众每天连接无线网络的情况。审计数据是指公众连接网络后,在浏览网站的过程中各类上网行为,这类数据的数据量较认证数据来说,数据量大,各种繁多,混杂和不确定性的特点,如何分析公众的上网行为,如何有效地分析利用这些审计数据,增加数据的鲁棒性和关联度是无线城市数据分析面临的问题和挑战。但是传统的无线城市审计数据离线分析方法能够处理的用户基数小、信息量小、处理速度慢,无法满足现有的业务数据存储和处理需求。
技术实现思路
本专利技术为了克服上述现有技术的不足,提供了一种基于大数据平台的无线城市审计数据离线分析方法,本无线城市审计数据离线分析方法能够处理的用户基数大、信息量大、处理速度快。一种基于大数据平台的无线城市审计数据离线分析方法,包括以下操作步骤:S1、采集审计数据,并将采集的审计数据以文件扩展名为CSV的形式存储至FTP服务器;S2、大数据平台定时调度所述FTP服务器中的以文件扩展名为CSV的形式存储的审计数据;S3、采用ETL方式对步骤S2中的审计数据进行预处理,得到预处理后的审计数据;S4、将预处理后的审计数据存储至分布式文件系统中;S5、对所述分布式文件系统中的审计数据进行离线处理;S6、所述大数据平台将离线处理后的审计数据进行展示。优选的,步骤S3的具体操作步骤包括:S31、将步骤S2中的审计数据中的每一条记录封装成数据流类型的对象,将数据流类型的对象插入到缓存队列中,等待下一步操作;S32、匹配数据流类型的对象的特征,对审计数据进行预处理,得到匹配后的数据;S33、将匹配后的数据发送至存储器。优选的,步骤S32的具体操作步骤包括:S321、配置数据流类型的对象的匹配模板,设置匹配规则;S322、生成相应的匹配器,将所述匹配模板加入到匹配器中;S323、用匹配器依次读取数据流类型的对象,依次匹配数据流类型的对象的特征;如果匹配成功,则保存该数据流类型的对象匹配后的值;如果匹配不成功,则交由下一个匹配器继续匹配,直到匹配完所有的数据流类型的对象,得到匹配后的数据。优选的,步骤S5的具体操作步骤包括:S51、使用Hive进行数据仓库建模,将结构化的数据文件映射为数据库表,并提供完整的SQL查询功能,将SQL语句转换为Phoenix处理的数据;S52、运用Phoenix处理审计数据;S53、利用MapReduce分析方式对经过步骤S52处理的审计数据进行查询分析操作,得到业务需求的数据;S54、将步骤S53中的业务需求的数据存储到HBase结果表中;S55、将审计数据存储到业务数据库中。进一步的,步骤S1中的采集审计数据包括图片文件,操作日志文件,域名流量日志,协议维度流量日志,行为日志,操作日志,基本流量信息,基本时长日志,通道流量日志,准入访问日志,域名流量日志。进一步的,步骤S1中的所述大数据平台将离线处理后的审计数据使用Echart图形、表格化的方式展示进行展示。进一步的,所述分布式文件系统为HDFS分布式文件系统。进一步的,步骤S321中的设置匹配规则是根据正则表达式来设置匹配规则。本专利技术的有益效果在于:1)、本专利技术通过数据预处理模块和ETL工具,提高了审计数据的采集质量,数据存储采用分布式文件系统,解决了亿级数据存储的容量瓶颈,同时保证了审计数据的安全性;部分审计数据表采用内存存储,极大地提高了审计数据的存储和读取速度。数据分析利用MapReduce计算框架,分析速度快,大大提高了审计数据与用户进行交互式展示。本无线城市审计数据离线分析方法能够处理的用户基数大、信息量大、处理速度快,满足了现有的业务数据存储和处理需求,针对亿级信息,更好地完成了审计数据的扩展与分析。2)、对以文件扩展名为CSV的形式存储的审计数据进行预处理,得到预处理后的审计数据,清除无效的、错误的、缺失的审计数据,过滤异常值和无意义的值,大大的提高了审计数据的质量。3)、将预处理后的审计数据存储至HDFS分布式文件系统中,所述HDFS分布式文件系统为Hadoop大数据平台的子系统之一,提供了高可靠性的底层存储支持。附图说明图1为本专利技术的一个实施例的无线城市审计数据离线分析方法的流程图;图2为本专利技术的一个实施例的无线城市审计数据离线分析方法的整体流程图;图3为本专利技术的一个实施例的采用ETL方式对以文件扩展名为CSV的形式存储的审计数据进行预处理的流程图;图4为本专利技术的一个实施例的对分布式文件系统中的审计数据进行离线处理的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1、2所示,一种基于大数据平台的无线城市审计数据离线分析方法,包括以下操作步骤:S1、采集审计数据,并将采集的审计数据以文件扩展名为CSV的形式存储至FTP服务器;S2、大数据平台定时调度所述FTP服务器中的以文件扩展名为CSV的形式存储的审计数据;S3、采用ETL方式对步骤S2中的审计数据进行预处理,得到预处理后的审计数据;S4、将预处理后的审计数据存储至HDFS分布式文件系统中;S5、对所述分布式文件系统中的审计数据进行离线处理;S6、所述大数据平台将离线处理后的审计数据进行展示。通过ETL工具进行步骤S3操作,数据分析利用MapReduce计算框架,分析速度快,大大提高了审计数据与用户进行交互式展示。本专利技术采用审计数据采集,根据厂家提供的审计数据信息,直接将各种格式的审计数据文件上传至FTP服务器中,采集各种格式的审计数据包括图片文件,操作日志文件,域名流量日志,协议维度流量日志,行为日志,操作日志,基本流量信息,基本时长日志,通道流量日志,准入访问日志,域名流量日志,为进一步的数据预处理提供源数据。公众联网的数据分为认证数据和审计数据两类,认证数据具体是指公众每天连接本文档来自技高网
...
一种基于大数据平台的无线城市审计数据离线分析方法

【技术保护点】
一种基于大数据平台的无线城市审计数据离线分析方法,其特征在于,包括以下操作步骤:S1、采集审计数据,并将采集的审计数据以文件扩展名为CSV的形式存储至FTP服务器;S2、大数据平台定时调度所述FTP服务器中的以文件扩展名为CSV的形式存储的审计数据;S3、采用ETL方式对步骤S2中的审计数据进行预处理,得到预处理后的审计数据;S4、将预处理后的审计数据存储至分布式文件系统中;S5、对所述分布式文件系统中的审计数据进行离线处理;S6、所述大数据平台将离线处理后的审计数据进行展示。

【技术特征摘要】
1.一种基于大数据平台的无线城市审计数据离线分析方法,其特征在于,包括以下操作步骤:S1、采集审计数据,并将采集的审计数据以文件扩展名为CSV的形式存储至FTP服务器;S2、大数据平台定时调度所述FTP服务器中的以文件扩展名为CSV的形式存储的审计数据;S3、采用ETL方式对步骤S2中的审计数据进行预处理,得到预处理后的审计数据;S4、将预处理后的审计数据存储至分布式文件系统中;S5、对所述分布式文件系统中的审计数据进行离线处理;S6、所述大数据平台将离线处理后的审计数据进行展示。2.如权利要求1所述的一种基于大数据平台的无线城市审计数据离线分析方法,其特征在于,步骤S3的具体操作步骤包括:S31、将步骤S2中的审计数据中的每一条记录封装成数据流类型的对象,将数据流类型的对象插入到缓存队列中,等待下一步操作;S32、匹配数据流类型的对象的特征,对审计数据进行预处理,得到匹配后的数据;S33、将匹配后的数据发送至存储器。3.如权利要求2所述的一种基于大数据平台的无线城市审计数据离线分析方法,其特征在于,步骤S32的具体操作步骤包括:S321、配置数据流类型的对象的匹配模板,设置匹配规则;S322、生成相应的匹配器,将所述匹配模板加入到匹配器中;S323、用匹配器依次读取数据流类型的对象,依次匹配数据流类型的对象的特征;如果匹配成功,则保存该数据流类型的对象匹配后的值;如果匹配不成功,则交由下一个匹配器继续匹配,直到匹配完所有的数据...

【专利技术属性】
技术研发人员:邓惠元范联伟余保华徐圣吉展昭张金国吴磊胡鸿超
申请(专利权)人:安徽四创电子股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1