一种基于多数据源融合的IP地域类特征提取方法技术

技术编号:16156306 阅读:58 留言:0更新日期:2017-09-06 20:40
本发明专利技术实施例提供一种基于多数据源融合的IP地域类特征提取方法,包括:步骤1、基于现有的IP地址定位数据库,计算每一定位数据库的权威度;步骤2、基于现有的IP地址定位数据库,计算每一定位数据库中定位数据的完整度;步骤3、根据步骤1和步骤2中的每一定位数据库的权威度和每一定位数据库中定位数据的完整度,确定定位数据的可信度;步骤4、根据定位数据的可信度,选取定位数据构建IP地域类特征知识库。

【技术实现步骤摘要】
一种基于多数据源融合的IP地域类特征提取方法
本专利技术涉及数据分析领域,具体涉及一种基于多数据源融合的IP地域类特征提取方法。
技术介绍
IP地址(InternetProtocolAddress,网际协议地址)是网络中节点的唯一标识。由于IP地址具有唯一性,且是一种符合协议的地址格式,因此它更像是人们在互联网这个“社会”的“身份证”。随着社会与网络科技的发展,互联网的多数核心业务都需要对IP地址进行精准定位。但全球的IP地址数以亿计,遍布于世界上每个角落,不同的IP地址可能包含了不同的地域属性,如大洲、国家、地区、运营商、时区、经纬度等。如何从这浩瀚的网络中得到IP地址精准的地域类属性,是一项极具挑战性的任务。随着定位技术的发展,互联网上也出现了一些优秀的定位数据库,如GeoLite2IP地址数据库、纯真IP地址数据库、百度IP地址数据库、淘宝IP地址数据库、全球IPv4地址归属地数据库(ipip.net)、中国行政区域经纬度信息表等网络数据库。但这些数据库的来源多种多样,格式规范不统一,并且都有自己的局限性,比如有些只是针对特定国家的定位比较准确,需要收费,没有规范的接口供用户使用等。所以如何利用现有定位数据库,解决现有数据库定位数据冲突、定位不准等问题,如何将国内外优秀的定位数据库汇集到一起,构建一套面向全球IP的地域类特征知识库,如何构建一个相对全面的定位数据库,是目前亟待解决的一个问题。
技术实现思路
针对现有技术中存在的IP地址数据库采用各种不同的格式导致无法进行数据融合的问题,本专利技术要解决的技术问题是提出一种基于多数据源融合的IP地域类特征提取方法。为了解决上述问题,本专利技术实施例提出了一种基于多数据源融合的IP地域类特征提取方法,包括:步骤1、基于现有的IP地址定位数据库,计算每一定位数据库的权威度;Authorityi=Coveri+Concidencei;其中Authorityi为第i个定位数据库的权威度,Coveri为定位数据库中数据占所有定位数据库的总数居的比重;Concidencei为定位数据库与其他定位数据中数据的重合的比重;步骤2、基于现有的IP地址定位数据库,计算每一定位数据库中定位数据的完整度;步骤3、根据步骤1和步骤2中的每一定位数据库的权威度和每一定位数据库中定位数据的完整度,确定定位数据的可信度;步骤4、根据定位数据的可信度,选取定位数据构建IP地域类特征知识库。其中,步骤1中的定位数据库的权威度通过Authorityi以下方式计算:步骤11、通过以下公式(1)计算定位数据库的覆盖率,其中覆盖率为定位数据库中数据占所有定位数据库的总数居的比重;其中DBi表示不同的定位数据库,i=1,2,……,n分别表示n种不同的定位数据库,value表示定位数据库中的数据数;步骤12、通过以下公式(2)计算一个定位数据库与其他定位数据中数据的重合的比重,作为重合率其中,H运算表示对集合做不去除重复元素的并运算,B运算表示计算某个元素在H运算结果中的个数,Count运算表示H运算结果中所有元素的个数,m表示数据库中包含网段的个数;则定位数据库权威度为:Authorityi=Coveri+Concidencei。其中,步骤2中的定位数据的完整度通过以下方法计算:步骤21、从IP地域类属性的12种指标中选择至少一个指标作为评价指标,以建立定位数据完整度Integrity评价指标L元组E<e1,e2,……,eL>;其中所述12种指标包括:IP地址所属网段、大洲、大洲ID、国家、国家ID、一级行政区域、二级行政区域、三级行政区域、互联网服务提供商、时区、经度、纬度。步骤22、基于评价指标L元组E<e1,e2,……,eL>,利用如下公式计算定位数据的完整度Integrity:其中:Interityip,i表示IP地址ip在第i个定位数据库中的定位数据完整度,wj(i=1,2,……,L)为各个评价指标特征的权值系数,满足wj>0其中,表示IP地址ip在第i个定位数据库的第j个特征指标的值,其计算公式如下:其中,定位数据的可信度通过以下方法计算:通过定位数据库的权威度和定位数据的完整度计算定位数据的可信度:Credibility(ipvalue(x,i))=Interityip,i*Authorityi其中Credibility(ipvalue(x,i))表示IP地址为ip的特征指标x在第i个定位数据库中的定位数据值的可信度,Interityip,i表示IP地址为ip在第i个定位数据库中的定位数据的完整度,Authorityi表示第i个定位数据库的权威度;其中,对于IP地址为ip的特征指标x的可信度计算如下所示:其中j∈[1,n],表示特征指标x的不去重的取值个数;而对于重复的属性取值即当ipvalue(x)=ipvalue(x,i),则特征指标x的可信度为所有重复属性值的可信度之和,可以看作特征指标x的加权投票可信度,Max运算表示取加权投票可信度的最大值。其中,步骤4具体包括:基于定位数据的可信度,对IP地址的地域类特征的进行筛选,并构建IP地域类特征知识库。本专利技术的上述技术方案的有益效果如下:上述技术方案提出了一种基于多数据源融合的IP地域类特征提取方法,其具有以下优势:1、针对互联网上多种定位数据库数据结构不统一以及定位冲突的问题,本专利技术将IP地域类特征表示为九元组的形式,利用国内外定位数据库的分层特性和IP定位数据,提出了一种基于多数据源的IP地域类特征提取方法。该方法通过计算定位数据的可信度(Credibility)实现IP地域类特征的提取,定位数据可信度的确定则依赖于定位数据库的权威度(Authority)和定位数据的完整度(Integrity)。2、针对定位数据库权威度的计算问题,本专利技术通过分析国内外主流IP定位数据库的结构及各数据库之间的数据差异,提出了一种基于IP定位数据库之间差异的权威度评价方法。3、针对定位数据完整度的计算问题,本专利技术基于IP地域类特征的九元组表示方法,构建了一种定位数据完整度的定量评估模型。4、针对定位数据可信度评价中多源数据库定位数据冲突问题,本专利技术考虑数据库权威度和定位数据完整度两项指标,利用加权投票机制算法,提出了一种多特征多模态的可信度定量评价模型,实现了定位数据库可信度的定量计算。5、针对目前国内外IP地域类属性的差异,提出了一种基于定位数据可信度的IP地域类特征筛选算法,构建了一套面向全球IP的地域类特征知识库。附图说明图1为本专利技术实施例的基于多数据源融合的IP地域类特征提取方法具体实施方式为使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。本专利技术根据IP地域类特征的组成结构,通过对互联网中现有的多个定位数据库(在本专利技术实施例中采用五个最常见淘宝IP地址库、纯真IP地址库、新浪IP地址库、百度地址数据库、全球IPv4地址归属地数据库ipip.net)与中国行政区域经纬度信息表进行分析,实现对国内外IP地域类特征的提取,提出了一种基于多数据源的IP地域类特征提取方法,最终构建一套面向全球IP的地域类特征知识库。本专利技术通过计算定位数据的可信度(Credibility),选本文档来自技高网...
一种基于多数据源融合的IP地域类特征提取方法

【技术保护点】
一种基于多数据源融合的IP地域类特征提取方法,其特征在于,包括:步骤1、基于现有的IP地址定位数据库,计算每一定位数据库的权威度;Authorityi=Coveri+Concidencei;其中Authorityi为第i个定位数据库的权威度,Coveri为定位数据库中数据占所有定位数据库的总数居的比重;Concidencei为定位数据库与其他定位数据中数据的重合的比重;步骤2、基于现有的IP地址定位数据库,计算每一定位数据库中定位数据的完整度;步骤3、根据步骤1和步骤2中的每一定位数据库的权威度和每一定位数据库中定位数据的完整度,确定定位数据的可信度;步骤4、根据定位数据的可信度,选取定位数据构建IP地域类特征知识库。

【技术特征摘要】
1.一种基于多数据源融合的IP地域类特征提取方法,其特征在于,包括:步骤1、基于现有的IP地址定位数据库,计算每一定位数据库的权威度;Authorityi=Coveri+Concidencei;其中Authorityi为第i个定位数据库的权威度,Coveri为定位数据库中数据占所有定位数据库的总数居的比重;Concidencei为定位数据库与其他定位数据中数据的重合的比重;步骤2、基于现有的IP地址定位数据库,计算每一定位数据库中定位数据的完整度;步骤3、根据步骤1和步骤2中的每一定位数据库的权威度和每一定位数据库中定位数据的完整度,确定定位数据的可信度;步骤4、根据定位数据的可信度,选取定位数据构建IP地域类特征知识库。2.根据权利要求1所述的基于多数据源融合的IP地域类特征提取方法,其特征在于,其中步骤1中的定位数据库的权威度通过Authorityi以下方式计算:步骤11、通过以下公式(1)计算定位数据库的覆盖率,其中覆盖率为定位数据库中数据占所有定位数据库的总数居的比重;其中DBi表示不同的定位数据库,i=1,2,……,n分别表示n种不同的定位数据库,value表示定位数据库中的数据数;步骤12、通过以下公式(2)计算一个定位数据库与其他定位数据中数据的重合的比重,作为重合率其中,H运算表示对集合做不去除重复元素的并运算,B运算表示计算某个元素在H运算结果中的个数,Count运算表示H运算结果中所有元素的个数,m表示数据库中包含网段的个数;则定位数据库权威度为:Authorityi=Coveri+Concidencei。3.根据权利要求1所述的基于多数据源融合的IP地域类特征提取方法,其特征在于,步骤2中的定位数据的完整度通过以下方法计算:步骤21、从IP地域类属性的12种指标中选择至少一个指标作为评价指标,以建立定位数据完整度Integrity评价指标L元组E&l...

【专利技术属性】
技术研发人员:佟玲玲杜翠兰翟羽佳张琳孙旷怡张仰森张艳华郑佳王建
申请(专利权)人:国家计算机网络与信息安全管理中心北京信息科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1