高效处理IP地址区域定位的方法和系统技术方案

技术编号:16270016 阅读:58 留言:0更新日期:2017-09-22 21:41
本发明专利技术涉及一种高效处理IP地址区域定位的方法和系统,其方法包括:S1:通过日志文件收集单元收集包括IP地址的日志文件数据并存入文件池;S2:通过部署在Hadoop中的ETL对步骤S1中收集到的数据进行包括过滤动作的预处理,并将预处理好的数据收集到Hadoop集群中并再次通过ETL对数据进行压缩处理;S3:通过hive的UDF功能对步骤S2中提取到的数据进行进一步提取并进行分析处理以获取IP地址定位信息。优点在于:通过利用hive调用Hadoop进行分布式计算,将IP地址定位功能通过hive的UDF功能开发集成,完成对IP地址区域定位的高效处理,提高IP地址的提取效率,降低资源的消耗。

【技术实现步骤摘要】
高效处理IP地址区域定位的方法和系统
本专利技术属于计算机系统领域,尤其涉及一种高效处理IP地址区域定位的方法和系统。
技术介绍
随着Internet技术的飞速发展,运行于Internet上的各种应用和服务也随之大量涌现,大数据的时代已经来临。在生活中,通常需要对IP地址进行提取区域地址,但是随着数据海量增加,直接利用本地计算对IP地址进行提取区域地址,会消耗大量资源和内存,并且效率以及IP地址定位覆盖率低。为了解决上述技术问题,人们进行了长期的探索,例如中国专利公开了一种IP地址定位方法和CDN调度方法以及装置[申请号:CN201410401480.2],该IP地址定位方法包括获取与目标IP地址关联的IP地址,所述关联的IP地址是至少一个,所述关联的IP地址的地理位置信息是已知的;根据预先设置的所述关联的IP地址对应的参数,以及所述关联的IP地址的地理位置信息,计算所述目标IP地址对应已知地理位置信息的置信度数值;根据所述置信度数值,确定所述目标IP地址的地理位置信息。再如,中国专利公开了一种主动式IP地址分配方法及系统[申请号:CN200810068746.0],特点是,服务器内存储用户属性的数据,每个用户属性对应分配一个固定的IP地址,客户端通过PPPOE网络连接,服务器分配临时IP地址,与客户端建立连接;然后服务器将客户端的用户属性进行认证,找出与用户属性所对应的IP地址,将该IP地址赋予客户端设备,并且客户端断开与服务器的临时连接。本专利技术将用户属性与IP地址进行强制对应和绑定,由服务器对IP地址进行统一的分配和主动式管理,可以解决用户随意更换IP及MAC、PPPOE服务的随机分配、用户身份确认及源地址认证等问题。可以实现IP地址定位、管理和控制,方便进行各种延伸管理和用户跟踪及身份强制认证。上述方案虽然解决了现有技术的部分问题,但是仍然存在不足,例如,消耗资源过多,提取效率仍然不够高等。
技术实现思路
本专利技术的目的是针对上述问题,提供一种能够通过UDF功能定位IP地址的高效处理IP地址区域定位的方法;本专利技术的另一目的是针对上述问题,提供一种基于高效处理IP地址区域定位的方法的高效处理IP地址区域定位的系统;为达到上述目的,本专利技术采用了下列技术方案:本专利技术的高效处理IP地址区域定位的方法包括如下步骤:S1:通过日志文件收集单元收集包括IP地址的日志文件数据并存入文件池;S2:通过部署在Hadoop中的ETL对步骤S1中收集到的数据进行包括过滤动作的预处理,并将预处理好的数据收集到Hadoop集群中并再次通过ETL对数据进行压缩处理;S3:通过hive的UDF功能对步骤S2中提取到的数据进行进一步提取并进行分析处理以获取IP地址定位信息。通过上述技术方案,将IP地址定位功能通过hive的UDF功能开发集成,以完成对IP地址区域定位的高效处理。在上述的高效处理IP地址区域定位的方法中,在步骤S1中,所述的日志收集单元为用于对分布式的海量日志文件进行采集、聚合和传输的Flume系统。在上述的高效处理IP地址区域定位的方法中,在步骤S3之后,还包括将数据结构化处理的步骤:通过hive建立数据文件的表结构,并通过Mysql将hive和hdfs进行建表关联以将数据结构化处理。在上述的高效处理IP地址区域定位的方法中,在步骤S2中,所述的ETL的程序包括用于对数据进行清洗处理、合并处理、上传处理、压缩处理和分布式提取处理的一系列程序,且所述的对数据进行压缩处理通过调用hive的ORC格式中的高压缩算法完成。在上述的高效处理IP地址区域定位的方法中,在步骤S3中,获取IP地址定位信息的方法包括:在本地连接Hadoop集群,并通过基于UDF完成的基于hive的IP地址区域定位程序在IP-区域库中寻找与当前IP地址相匹配的结果,若匹配成功,返回当前IP地址所对应的区域信息。在上述的高效处理IP地址区域定位的方法中,所述Hadoop的分布式系统通过以下方法构建:搭建部署有至少一台主机和至少一台从机的Hadoop2.7.1的集群环境,对HIVE和HDFS的环境与配置进行配置,且将HiveMetastore、mysql和hiveserver2组建在一台主机上,并对NamenodeHA和ResourceManagerHA进行设置以构建分布式系统。在上述的高效处理IP地址区域定位的方法中,在分布式系统的各节点搭建有tomcat分布式集群,并通过Nginx对tomcat所在机器的流量进行调配。在上述的高效处理IP地址区域定位的方法中,在步骤S3之后,还包括以下步骤:在对提取到的IP地址区域定位结果进行输出后对结果进行进一步分析和/或生成报表。在上述的高效处理IP地址区域定位的方法中,输出的结果通过可视化配置进行可视化显示,所述的可视化配置包括数据采集可视化配置、数据接入可视化配置、数据计算可视化配置和数据输出可视化配置中的任意一种或多种组合的配置。一种基于高效处理IP地址区域定位的方法的高效处理IP地址区域定位的系统。本专利技术高效处理IP地址区域定位的方法和系统相较于现有技术具有以下优点:1、利用hive调用Hadoop进行分布式计算来完成IP地址定位,效率高且消耗资源低;2、对各台机器进行流量调配,实现负载均衡;3、将数据进行结构化处理,以便于IP地址区域的提取。附图说明图1是本专利技术实施例一的技术架构图;图2是本专利技术实施例一的数据流程图。具体实施方式本专利技术可用于高效处理IP地址区域定位,克服了现有技术直接利用本地计算对IP地址进行提取区域地址,导致消耗大量资源和内存,并且效率低下的问题。以下是本专利技术的优选实施例并结合附图,对本专利技术的技术方案作进一步的描述,但本专利技术并不限于这些实施例。实施例一如图1和图2所示,高效处理IP地址区域定位的方法包括如下步骤:S1:通过日志文件收集单元收集包括IP地址(InternetProtocolAddress,互联网协议地址)的日志文件数据并存入文件池;其中日志收集单元为能够对分布式的海量日志文件进行采集、聚合和传输的Flume系统。Flume系统是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。IP地址:被用来给Internet(互联网)上的电脑一个编号,并且服务提供商为每个用户动态分配的IP地址都是唯一的,并且与宽带帐号对应,因此根据IP区域库可以提取用户实际地址。S2:通过部署在Hadoop(分布式系统基础架构)中的ETL(ExtractTransformandLoad,提取、转换和加载)对步骤S1中收集到的数据进行包括过滤动作的预处理,并将预处理好的数据收集到Hadoop集群中并再次通过ETL对数据进行压缩处理;S3:通过hive(数据仓库架构)的UDF(用户自定义函数)功能对步骤S2中提取到的数据进行进一步提取并进行分析处理以获取IP地址定位信息。其中,结果分析格式如下:8CAB8E8C2A30;101.227.10.59;上海市;1008CAB8E8CAD18;101.226.129.182;杭州市;678CAB8E8CFE90;101.201.179.38;北京市670……进一步地,Hadoop的分布式系统通过以下方法构建:搭建部署有至少一台主机和至少一台从本文档来自技高网
...
高效处理IP地址区域定位的方法和系统

【技术保护点】
一种高效处理IP地址区域定位的方法,其特征在于,包括如下步骤:S1:通过日志文件收集单元收集包括IP地址的日志文件数据并存入文件池;S2:通过部署在Hadoop中的ETL对步骤S1中收集到的数据进行包括过滤动作的预处理,并将预处理好的数据收集到Hadoop集群中并再次通过ETL对数据进行压缩处理;S3:通过hive的UDF功能对步骤S2中提取到的数据进行进一步提取并进行分析处理以获取IP地址定位信息。

【技术特征摘要】
1.一种高效处理IP地址区域定位的方法,其特征在于,包括如下步骤:S1:通过日志文件收集单元收集包括IP地址的日志文件数据并存入文件池;S2:通过部署在Hadoop中的ETL对步骤S1中收集到的数据进行包括过滤动作的预处理,并将预处理好的数据收集到Hadoop集群中并再次通过ETL对数据进行压缩处理;S3:通过hive的UDF功能对步骤S2中提取到的数据进行进一步提取并进行分析处理以获取IP地址定位信息。2.根据权利要求1所述的高效处理IP地址区域定位的方法,其特征在于,在步骤S1中,所述的日志收集单元为用于对分布式的海量日志文件进行采集、聚合和传输的Flume系统。3.根据权利要求1所述的高效处理IP地址区域定位的方法,其特征在于,在步骤S3之后,还包括将数据结构化处理的步骤:通过hive建立数据文件的表结构,并通过Mysql将hive和hdfs进行建表关联以将数据结构化处理。4.根据权利要求1所述的高效处理IP地址区域定位的方法,其特征在于,在步骤S2中,所述的ETL的程序包括用于对数据进行清洗处理、合并处理、上传处理、压缩处理和分布式提取处理的一系列程序,且所述的对数据进行压缩处理通过调用hive的ORC格式中的高压缩算法完成。5.根据权利要求4所述的高效处理IP地址区域定位的方法,其特征在于,在步骤S3中,获取IP地址定位信息的方法包括:在本地连接Hadoop集群,并通过基于UDF完成的基...

【专利技术属性】
技术研发人员:欧阳涛
申请(专利权)人:上海斐讯数据通信技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1