虚假流量的识别方法及装置、存储介质、服务器制造方法及图纸

技术编号:21167014 阅读:33 留言:0更新日期:2019-05-22 09:38
一种虚假流量的识别方法及装置、存储介质、服务器,所述识别方法包括:从一组流量数据中提取多个信息对,每一信息对包括IP地址及其关联的地理位置信息;对所述多个信息对进行统计,以确定每一IP地址对应的IP中心地理位置以及覆盖半径,所述IP中心地理位置以及覆盖半径定义所述IP地址的覆盖范围;接收待检测的流量数据,根据所述待检测的流量数据中的信息对以及所述IP地址的覆盖范围,确定所述待检测的流量数据是否为虚假流量。通过本发明专利技术提供的技术方案,可以更加准确地检测虚假流量和真实流量,有利于甄别虚假流量。

False traffic identification methods and devices, storage media, servers

A method and device, storage medium and server for identifying false traffic include: extracting multiple pairs of information from a set of traffic data, each pair of information including IP address and its associated geographic location information; counting the multiple pairs of information to determine the corresponding IP center geographic location and coverage radius of each IP address, and the IP center geographic location. The location and coverage radius define the coverage range of the IP address, receive the traffic data to be detected, and determine whether the traffic data to be detected is false traffic according to the information pair of the traffic data to be detected and the coverage range of the IP address. Through the technical scheme provided by the invention, the false flow and the real flow can be detected more accurately, and the false flow can be discriminated.

【技术实现步骤摘要】
虚假流量的识别方法及装置、存储介质、服务器
本专利技术涉及大数据
,具体地涉及一种虚假流量的识别方法及装置、存储介质、服务器。
技术介绍
在互联网实时竞价(RealTimeBidding,简称RTB)广告流量中,存在大量虚假流量(亦称作弊流量)。所述虚假流量通过伪造自己的互联网协议(InternetProtocol,简称IP)地址、地理位置信息等低廉的作弊手段伪造成真实流量,用以欺骗广告主。真实的IP地址与其地理位置信息是相对固定的,具有预设匹配关系。然而,虚假流量的IP地址和与之关联的地理位置信息(例如,经纬度数据)通常是随机生成的。因而,利用虚假流量的地理位置信息可能与真实的地理位置信息的差异性,可以检测部分虚假流量。现有技术方案基于流量数据的IP地址关联的地理位置信息与该IP地址匹配的地理位置信息是否存在差异的比较结果,判断所述流量数据是否为虚假流量。然而,通过IP地址确定与地理位置的预设匹配关系,通常仅仅对应到城市地理位置。例如,某一IP地址匹配的地理位置信息为中国上海,另一IP地址匹配的地理位置信息为中国北京,其地理位置精度太低。假设真实的流量数据的IP地位关联的地理位置信息为上海静安区,而用于欺骗广告住的虚假流量的IP地址关联的地理位置信息为上海浦东新区,那么由于现有技术方案只精确到城市级别,因而采用现有技术方案,是无法识别出该虚假流量的。
技术实现思路
本专利技术解决的技术问题是如何优化虚假流量识别方法,以更加准确甄别虚假流量和真实流量。为解决上述技术问题,本专利技术实施例提供一种虚假流量的识别方法,包括:从一组流量数据中提取多个信息对,每一信息对包括IP地址及其关联的地理位置信息;对所述多个信息对进行统计,以确定每一IP地址对应的IP中心地理位置以及覆盖半径,所述IP中心地理位置以及覆盖半径定义所述IP地址的覆盖范围;接收待检测的流量数据,根据所述待检测的流量数据中的信息对以及所述IP地址的覆盖范围,确定所述待检测的流量数据是否为虚假流量。可选的,所述识别方法还包括:对所述多个信息对进行统计之前,根据IP地址与地理位置的预设匹配关系,对所述多个信息对进行过滤,以剔除IP地址与其关联的地理位置信息不匹配的信息对。可选的,所述根据所述待检测的流量数据中的信息对以及所述IP地址的覆盖范围,确定所述待检测的流量数据是否为虚假流量包括:对于所述待检测的流量数据,确定各个信息对中待检测的IP地址及其地理位置信息;如果所述待检测的IP地址的地理位置信息落入所述待检测的IP地址的覆盖范围,则确定所述待检测的流量数据为真实流量,如果未落入,则确定所述待检测的流量数据为虚假流量。可选的,所述对所述多个信息对进行统计,以确定每一IP地址对应的IP中心地理位置以及覆盖半径包括:根据IP地址划分所述多个信息对,将具有相同IP地址的信息对划分为同一信息簇;针对每一信息簇中的IP地址,对所述IP地址关联的地理位置信息进行统计,以得到所述IP地址对应的IP中心地理位置,并计算所述IP中心地理位置与每一信息对中的地理位置信息的距离,以得到多个距离值;基于所述多个距离值拟合高斯分布曲线,以得到所述高斯分布曲线的距离标准差;根据所述距离标准差确定所述覆盖半径。可选的,每一信息对中的地理位置信息包括经度信息和纬度信息,所述IP中心地理位置包括经度信息和纬度信息,所述计算所述IP中心地理位置与每一信息对中的地理位置信息的距离包括:利用经纬度距离公式,计算所述IP中心地理位置与每一信息对中的地理位置信息的距离。可选的,所述经纬度距离公式如下:其中,d表示两点间距离,r表示地球半径,表示纬度信息,λ1、λ2表示经度信息。可选的,所述根据所述距离标准差确定所述覆盖半径包括:将k·σ确定为所述覆盖半径,其中,k表示预设因子,k>1,且k为实数,σ表示所述距离标准差。为解决上述技术问题,本专利技术实施例还提供一种虚假流量的识别装置,包括:提取模块,适于从一组流量数据中提取多个信息对,每一信息对包括IP地址及其关联的地理位置信息;统计模块,适于对所述多个信息对进行统计,以确定每一IP地址对应的IP中心地理位置以及覆盖半径,所述IP中心地理位置以及覆盖半径定义所述IP地址的覆盖范围;确定模块,适于接收待检测的流量数据,根据所述待检测的流量数据中的信息对以及所述IP地址的覆盖范围,确定所述待检测的流量数据是否为虚假流量。为解决上述技术问题,本专利技术实施例还提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述方法的步骤。为解决上述技术问题,本专利技术实施例还提供一种服务器,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述方法的步骤。与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:本专利技术实施例提供一种虚假流量的识别方法,包括:从一组流量数据中提取多个信息对,每一信息对包括IP地址及其关联的地理位置信息;对所述多个信息对进行统计,以确定每一IP地址对应的IP中心地理位置以及覆盖半径,所述IP中心地理位置以及覆盖半径定义所述IP地址的覆盖范围;接收待检测的流量数据,根据所述待检测的流量数据中的信息对以及所述IP地址的覆盖范围,确定所述待检测的流量数据是否为虚假流量。通过本专利技术实施例提供的技术方案,可以利用大量流量数据中的地理位置信息统计出每一IP地址对应的IP中心地理位置,并可以基于该IP地址的覆盖半径确定覆盖范围,并利用所述覆盖范围降低IP中心地理位置统计误差带来的不利影响。对比现有技术,利用所述覆盖范围可以更加准确地确定IP地址匹配的真实地理位置,进而可以更加准确判断虚假流量和真实流量,以甄别防范虚假流量。进一步,对所述多个信息对进行统计之前,所述方法还包括:根据IP地址与地理位置的预设匹配关系,对所述多个信息对进行过滤,以剔除IP地址与其关联的地理位置信息不匹配的信息对。本专利技术实施例可以在对多个信息对进行统计之前,采用现有技术方案过滤到无效信息对,进一步有利于统计出准确度高的IP中心地理位置,为后续甄别虚假流量打下基础。进一步,所述根据所述距离标准差确定所述覆盖半径包括:将k·σ确定为所述覆盖半径,其中,k表示预设因子,k>1,且k为实数,σ表示所述距离标准差。通过本专利技术实施例,可以利用预设因子和距离标准差定义所述IP地址的覆盖范围,可以有效降低统计误差带来的不利影响,有利于进一步提高虚假流量的甄别准确度。附图说明图1是本专利技术实施例的一种虚假流量的识别方法的流程示意图;图2是本专利技术实施例的一种虚假流量的识别装置的结构示意图。具体实施方式本领域技术人员理解,如
技术介绍
所言,互联网广告流量中存在大量虚假流量,由于现有技术中的IP地址与地理位置的预设匹配关系的精度较低,因而,利用上述预设匹配关系仍然难以准确识别待检测的流量数据是虚假流量还是真实流量。本专利技术实施例提供一种虚假流量的识别方法,包括:从一组流量数据中提取多个信息对,每一信息对包括IP地址及其关联的地理位置信息;对所述多个信息对进行统计,以确定每一IP地址对应的IP中心地理位置以及覆盖半径,所述IP中心地理位置以及覆盖半径定义所述IP地址的覆盖范围;接收待检测的流量数据,根据所述待检测的流量数据中的信本文档来自技高网
...

【技术保护点】
1.一种虚假流量的识别方法,其特征在于,包括:从一组流量数据中提取多个信息对,每一信息对包括IP地址及其关联的地理位置信息;对所述多个信息对进行统计,以确定每一IP地址对应的IP中心地理位置以及覆盖半径,所述IP中心地理位置以及覆盖半径定义所述IP地址的覆盖范围;接收待检测的流量数据,根据所述待检测的流量数据中的信息对以及所述IP地址的覆盖范围,确定所述待检测的流量数据是否为虚假流量。

【技术特征摘要】
1.一种虚假流量的识别方法,其特征在于,包括:从一组流量数据中提取多个信息对,每一信息对包括IP地址及其关联的地理位置信息;对所述多个信息对进行统计,以确定每一IP地址对应的IP中心地理位置以及覆盖半径,所述IP中心地理位置以及覆盖半径定义所述IP地址的覆盖范围;接收待检测的流量数据,根据所述待检测的流量数据中的信息对以及所述IP地址的覆盖范围,确定所述待检测的流量数据是否为虚假流量。2.根据权利要求1所述的识别方法,其特征在于,对所述多个信息对进行统计之前,还包括:根据IP地址与地理位置的预设匹配关系,对所述多个信息对进行过滤,以剔除IP地址与其关联的地理位置信息不匹配的信息对。3.根据权利要求1所述的识别方法,其特征在于,所述根据所述待检测的流量数据中的信息对以及所述IP地址的覆盖范围,确定所述待检测的流量数据是否为虚假流量包括:对于所述待检测的流量数据,确定各个信息对中待检测的IP地址及其地理位置信息;如果所述待检测的IP地址的地理位置信息落入所述待检测的IP地址的覆盖范围,则确定所述待检测的流量数据为真实流量,如果未落入,则确定所述待检测的流量数据为虚假流量。4.根据权利要求1所述的识别方法,其特征在于,所述对所述多个信息对进行统计,以确定每一IP地址对应的IP中心地理位置以及覆盖半径包括:根据IP地址划分所述多个信息对,将具有相同IP地址的信息对划分为同一信息簇;针对每一信息簇中的IP地址,对所述IP地址关联的地理位置信息进行统计,以得到所述IP地址对应的IP中心地理位置,并计算所述IP中心地理位置与每一信息对中的地理位置信息的距离,以得到多个距离值;基于所述多个距离值拟合高斯分布曲...

【专利技术属性】
技术研发人员:汤奇峰葛虎跃
申请(专利权)人:上海晶赞融宣科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1