The invention belongs to the field of wireless city big data off-line analysis technology, in particular to a off-line analysis method of wireless city audit data based on big data platform. Through the data preprocessing module and the ETL tool, the invention improves the quality of the audit data collection. The data storage uses the distributed file system to solve the bottleneck of the capacity of the multi billion level data storage, and ensures the security of the audit data. The audit data table uses memory storage and greatly improves the audit data storage. Storage and reading speed. Data analysis using MapReduce computing framework, analysis speed, greatly improving the audit data and user interactive display. This wireless city audit data off-line analysis method can deal with large number of users, large amount of information and fast processing speed. It meets the needs of the existing business data storage and processing, and has completed the expansion and analysis of audit data for hundreds of millions of levels of information.
【技术实现步骤摘要】
一种基于大数据平台的无线城市审计数据离线分析方法
本专利技术属于无线城市大数据离线分析
,特别涉及一种基于大数据平台的无线城市审计数据离线分析方法。
技术介绍
近年来,随着信息技术的飞速发展以及广泛应用,智能手机方便、及时的联网更是公众的主要需求。移动互联网用户产生和应用的数据量日益增大,亿级用户数据的出现和数据结构的多样化,如此庞大的数据采集并储存到服务器非常复杂,无线城市蕴含大量的数据,是服务于政府、公司和公众的新一代无线WIFI技术,无线城市统一运营平台被视为未来城市信息化发展的重要方向,是提高城市信息化水平的重要手段。无线城市大数据的技术研究以云计算为基础,建立具有无线城市行业特点的无线城市云计算数据中心,研究适合无线城市大数据的价值规律、应用场景的大数据系统框架、数据分析方法是无线城市大数据的发展方向,大数据正是新形势下技术融合型发展和应用智能化理念的集中体现,具有应对数据体量巨大、数据类型繁多、价值密度低和处理速度快等数据特征的技术架构,及以行业内外高附加值的内容增值服务为目标的应用模式,其核心就是信息资源的开发利用。随着无线城市建设的不断深入和推进,公众联网的数据量呈指数级增长,公众联网的数据分为认证数据和审计数据两类。认证数据具体是是指公众每天连接无线网络的情况。审计数据是指公众连接网络后,在浏览网站的过程中各类上网行为,这类数据的数据量较认证数据来说,数据量大,各种繁多,混杂和不确定性的特点,如何分析公众的上网行为,如何有效地分析利用这些审计数据,增加数据的鲁棒性和关联度是无线城市数据分析面临的问题和挑战。但是传统的无线城市审计数据 ...
【技术保护点】
一种基于大数据平台的无线城市审计数据离线分析方法,其特征在于,包括以下操作步骤:S1、采集审计数据,并将采集的审计数据以文件扩展名为CSV的形式存储至FTP服务器;S2、大数据平台定时调度所述FTP服务器中的以文件扩展名为CSV的形式存储的审计数据;S3、采用ETL方式对步骤S2中的审计数据进行预处理,得到预处理后的审计数据;S4、将预处理后的审计数据存储至分布式文件系统中;S5、对所述分布式文件系统中的审计数据进行离线处理;S6、所述大数据平台将离线处理后的审计数据进行展示。
【技术特征摘要】
1.一种基于大数据平台的无线城市审计数据离线分析方法,其特征在于,包括以下操作步骤:S1、采集审计数据,并将采集的审计数据以文件扩展名为CSV的形式存储至FTP服务器;S2、大数据平台定时调度所述FTP服务器中的以文件扩展名为CSV的形式存储的审计数据;S3、采用ETL方式对步骤S2中的审计数据进行预处理,得到预处理后的审计数据;S4、将预处理后的审计数据存储至分布式文件系统中;S5、对所述分布式文件系统中的审计数据进行离线处理;S6、所述大数据平台将离线处理后的审计数据进行展示。2.如权利要求1所述的一种基于大数据平台的无线城市审计数据离线分析方法,其特征在于,步骤S3的具体操作步骤包括:S31、将步骤S2中的审计数据中的每一条记录封装成数据流类型的对象,将数据流类型的对象插入到缓存队列中,等待下一步操作;S32、匹配数据流类型的对象的特征,对审计数据进行预处理,得到匹配后的数据;S33、将匹配后的数据发送至存储器。3.如权利要求2所述的一种基于大数据平台的无线城市审计数据离线分析方法,其特征在于,步骤S32的具体操作步骤包括:S321、配置数据流类型的对象的匹配模板,设置匹配规则;S322、生成相应的匹配器,将所述匹配模板加入到匹配器中;S323、用匹配器依次读取数据流类型的对象,依次匹配数据流类型的对象的特征;如果匹配成功,则保存该数据流类型的对象匹配后的值;如果匹配不成功,则交由下一个匹配器继续匹配,直到匹配完所有的数据...
【专利技术属性】
技术研发人员:邓惠元,范联伟,余保华,徐圣吉,展昭,张金国,吴磊,胡鸿超,
申请(专利权)人:安徽四创电子股份有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。