A method and device, storage medium and server for identifying false traffic include: extracting multiple pairs of information from a set of traffic data, each pair of information including IP address and its associated geographic location information; counting the multiple pairs of information to determine the corresponding IP center geographic location and coverage radius of each IP address, and the IP center geographic location. The location and coverage radius define the coverage range of the IP address, receive the traffic data to be detected, and determine whether the traffic data to be detected is false traffic according to the information pair of the traffic data to be detected and the coverage range of the IP address. Through the technical scheme provided by the invention, the false flow and the real flow can be detected more accurately, and the false flow can be discriminated.
【技术实现步骤摘要】
虚假流量的识别方法及装置、存储介质、服务器
本专利技术涉及大数据
,具体地涉及一种虚假流量的识别方法及装置、存储介质、服务器。
技术介绍
在互联网实时竞价(RealTimeBidding,简称RTB)广告流量中,存在大量虚假流量(亦称作弊流量)。所述虚假流量通过伪造自己的互联网协议(InternetProtocol,简称IP)地址、地理位置信息等低廉的作弊手段伪造成真实流量,用以欺骗广告主。真实的IP地址与其地理位置信息是相对固定的,具有预设匹配关系。然而,虚假流量的IP地址和与之关联的地理位置信息(例如,经纬度数据)通常是随机生成的。因而,利用虚假流量的地理位置信息可能与真实的地理位置信息的差异性,可以检测部分虚假流量。现有技术方案基于流量数据的IP地址关联的地理位置信息与该IP地址匹配的地理位置信息是否存在差异的比较结果,判断所述流量数据是否为虚假流量。然而,通过IP地址确定与地理位置的预设匹配关系,通常仅仅对应到城市地理位置。例如,某一IP地址匹配的地理位置信息为中国上海,另一IP地址匹配的地理位置信息为中国北京,其地理位置精度太低。假设真实的流量数据的IP地位关联的地理位置信息为上海静安区,而用于欺骗广告住的虚假流量的IP地址关联的地理位置信息为上海浦东新区,那么由于现有技术方案只精确到城市级别,因而采用现有技术方案,是无法识别出该虚假流量的。
技术实现思路
本专利技术解决的技术问题是如何优化虚假流量识别方法,以更加准确甄别虚假流量和真实流量。为解决上述技术问题,本专利技术实施例提供一种虚假流量的识别方法,包括:从一组流量数据中提取多个信息对,每 ...
【技术保护点】
1.一种虚假流量的识别方法,其特征在于,包括:从一组流量数据中提取多个信息对,每一信息对包括IP地址及其关联的地理位置信息;对所述多个信息对进行统计,以确定每一IP地址对应的IP中心地理位置以及覆盖半径,所述IP中心地理位置以及覆盖半径定义所述IP地址的覆盖范围;接收待检测的流量数据,根据所述待检测的流量数据中的信息对以及所述IP地址的覆盖范围,确定所述待检测的流量数据是否为虚假流量。
【技术特征摘要】
1.一种虚假流量的识别方法,其特征在于,包括:从一组流量数据中提取多个信息对,每一信息对包括IP地址及其关联的地理位置信息;对所述多个信息对进行统计,以确定每一IP地址对应的IP中心地理位置以及覆盖半径,所述IP中心地理位置以及覆盖半径定义所述IP地址的覆盖范围;接收待检测的流量数据,根据所述待检测的流量数据中的信息对以及所述IP地址的覆盖范围,确定所述待检测的流量数据是否为虚假流量。2.根据权利要求1所述的识别方法,其特征在于,对所述多个信息对进行统计之前,还包括:根据IP地址与地理位置的预设匹配关系,对所述多个信息对进行过滤,以剔除IP地址与其关联的地理位置信息不匹配的信息对。3.根据权利要求1所述的识别方法,其特征在于,所述根据所述待检测的流量数据中的信息对以及所述IP地址的覆盖范围,确定所述待检测的流量数据是否为虚假流量包括:对于所述待检测的流量数据,确定各个信息对中待检测的IP地址及其地理位置信息;如果所述待检测的IP地址的地理位置信息落入所述待检测的IP地址的覆盖范围,则确定所述待检测的流量数据为真实流量,如果未落入,则确定所述待检测的流量数据为虚假流量。4.根据权利要求1所述的识别方法,其特征在于,所述对所述多个信息对进行统计,以确定每一IP地址对应的IP中心地理位置以及覆盖半径包括:根据IP地址划分所述多个信息对,将具有相同IP地址的信息对划分为同一信息簇;针对每一信息簇中的IP地址,对所述IP地址关联的地理位置信息进行统计,以得到所述IP地址对应的IP中心地理位置,并计算所述IP中心地理位置与每一信息对中的地理位置信息的距离,以得到多个距离值;基于所述多个距离值拟合高斯分布曲...
【专利技术属性】
技术研发人员:汤奇峰,葛虎跃,
申请(专利权)人:上海晶赞融宣科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。