一种确定网站接口非正常流量的方法及装置制造方法及图纸

技术编号:21184799 阅读:17 留言:0更新日期:2019-05-22 15:24
一种确定网站接口非正常流量的方法及装置,该方法包括:统计网站接口对应的每个ip的请求量x、以及每个x对应的ip个数f(x),获得由第一批数据点(x,f(x))构成的第一集合;获得第二批数据点(x,f1(x)),其中,f1(x)=f(x)*x,对数据点(x,f1(x))中的x和f1(x)都取对数,获得第二集合;按x从小到大的顺序,取第二集合中前预设比例的数据点作为第三集合,对其中的数据点进行线性回归;从第二集合中取出在拟合直线L上方的数据点,作为第四集合;在第二集合中确定M点(Xm,f1(Xm)),其中f1(Xm)为f1(x)的最小值;在第四集合中筛选出x大于Xm的所有数据点,形成第五集合;根据第五、第二集合中的数据点,确定非正常流量占比。该方法能快速获得各接口的非正常流量占比。

A Method and Device for Determining Abnormal Flow of Website Interface

A method and device for determining abnormal traffic of a website interface includes: counting the number of requests x for each IP corresponding to the website interface and the number f(x) of IPS corresponding to each x, obtaining the first set of data points (x, f(x)); obtaining the second batch of data points (x, f1(x)), where f1(x) = f(x)*x, logarithmizing X and f1(x) in the data points (x, f1(x)). Get the second set; in the order of X from small to large, take the pre-preset proportion data points in the second set as the third set, and make linear regression to the data points in the second set; take the data points above the fitting line L from the second set as the fourth set; determine the M point (Xm, F1 (Xm) in the second set, where F1 (Xm) is the minimum value of F1 (x); filter out that x is greater than or equal to X in the fourth set. All data points of Xm form the fifth set, and the proportion of abnormal traffic is determined according to the data points in the fifth and second set. This method can quickly obtain the abnormal traffic proportion of each interface.

【技术实现步骤摘要】
一种确定网站接口非正常流量的方法及装置
本专利技术涉及数据分析,具体涉及一种确定网站接口非正常流量的方法及装置。
技术介绍
网站是给用户输出数据的,这时有些用户处于各种原因,使用机器模拟人类的网页访问请求。这样的机器访问一般量很大还很频繁,对服务器的健康状态会造成不良的影响。反抓站系统是封禁这部分非正常访问的系统。每个网站都有许多不同的接口,用户请求这些接口来使用不同功能。接口是会有非正常流量的,主要是一些别有用心的人写程序刷访问量,刷赞及类似行为。这些非正常流量不仅掩盖了真实的流量,增大网站的负载,而且对正常用户也是不公平的。但是这些流量经过伪装,其和正常流量并无不同,现在目标是对各个接口来说,从其流量中找出异常的比例然后针对性的制定拦截策略。其中,找出(各个接口的)异常流量占比是最为关键的一步。对于现有技术,一般是把一天所有访问日志收集起来,把访问较多且访问接口唯一的ip都找出来,然后统计这些ip的所有访问,这些访问都是非正常流量。简单来说,收集一天内的所有日志,统计其出现的所有ip,然后再统计每个ip对应的访问量。寻找单ip访问量高且访问接口单一的ip,将其所有访问算作是非正常流量,然后汇总再除以总访问量,就得到了每天的非正常流量百分比。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:(1)一天所有日志可能很大,统计所需机器过多,时间过长。(2)这种方案只能找出单ip刷单一接口的情况,多ip或多接口则无能为力。(3)只能得到总流量的无效流量占比,无法得到各个接口的无效流量占比。
技术实现思路
本专利技术实施例提供一种确定网站接口非正常流量的方法及装置,以利用最小的资源高效地确定各个接口的异常流量占比。第一方面,本专利技术实施例提供了一种确定网站接口非正常流量的方法,其包括:统计网站接口对应的每个ip的请求量x、以及每个请求量x对应的ip个数f(x),得到第一批数据点(x,f(x)),由第一批数据点(x,f(x))构成第一集合D1;根据所述第一批数据点(x,f(x)),获得第二批数据点(x,f1(x)),其中f1(x)=f(x)*x,再对所述第二批数据点(x,f1(x))中的x和f1(x)都取对数得到第三批数据点(logx,logf1(x)),由第三批数据点(logx,logf1(x))构成第二集合D2;按x从小到大的顺序,从所述第二集合D2中提取排序靠前的预设比例的第一部分数据点,由提取出的第一部分数据点构成第三集合D3,在双对数坐标系中对所述第三集合D3中的数据点进行线性回归,得到拟合直线L;从所述第二集合D2中提取出在所述拟合直线L上方的第二部分数据点,由第二部分数据点构成第四集合D4;在所述第二集合D2中确定M点(logXm,logf1(Xm)),其中f1(Xm)为f1(x)的最小值,在所述第四集合D4中筛选出logx大于logXm的第三部分数据点,由第三部分数据点构成第五集合D5;根据所述第五集合D5中数据点和所述第二集合D2中的数据点,确定所述网站接口的非正常流量占比。第二方面,本专利技术实施例提供了一种确定各个接口非正常流量百分比的装置,其包括:第一集合获得模块,用于统计网站接口对应的每个ip的请求量x、以及每个请求量x对应的ip个数f(x),得到第一批数据点(x,f(x)),由第一批数据点(x,f(x))构成第一集合D1;第二集合获得模块,用于根据所述第一批数据点(x,f(x)),获得第二批数据点(x,f1(x)),其中,f1(x)=f(x)*x,再对所述第二批数据点(x,f1(x))中的x和f1(x)都取对数,得到第三批数据点(logx,logf1(x)),由第三批数据点(logx,logf1(x))构成第二集合D2;第三集合获得及线性回归模块,用于按x从小到大的顺序,从所述第二集合D2中提取排序靠前的预设比例的第一部分数据点,由提取出的第一部分数据点构成第三集合D3,在双对数坐标系中对所述第三集合D3中的数据点进行线性回归,得到拟合直线L;第四集合获得模块,用于从所述第二集合D2中提取出在所述拟合直线L上方的第二部分数据点,由第二部分数据点构成第四集合D4;M点确定模块,用于在所述第二集合D2中确定M点(logXm,logf1(Xm)),其中f1(Xm)为f1(x)的最小值;第五集合获得模块,用于在所述第四集合D4中筛选出logx大于logXm的第三部分数据点,由第三部分数据点构成第五集合D5;非正常流量占比确定模块,用于根据所述第五集合D5中数据点和所述第二集合D2中的数据点,确定所述网站接口的非正常流量占比。第三方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的确定网站接口非正常流量的方法。第四方面,本专利技术实施例提供了一种计算机设备,其包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如第一方面所述的确定网站接口非正常流量的方法。上述技术方案具有如下有益效果:本专利技术实施例的上述技术方案的有益技术效果包括:由于采用了新型的非正常流量比例统计方法,即使用幂律分布、线性回归和M值和来判断网站中各个接口的非正常流量占比的方法,本实施例只用少量机器和时间就能完成这一任务。而且本实施例能够发现多ip刷接口的情况,并且把这一因素纳入各个接口的无效流量占比。最后,能够得到各个接口的无效流量占比。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例的一种确定网站接口非正常流量的方法的流程图;图2是本专利技术实施例的第一个例子的请求量-ip个数双对数坐标系示意图(横坐标是请求量的对数,纵坐标是ip个数的对数);图3是本专利技术实施例的第二个例子的请求量-ip个数双对数坐标系示意图(横坐标是请求量的对数,纵坐标是ip个数的对数);图4是本专利技术实施例的第三个例子的请求量-ip个数双对数坐标系示意图(横坐标是请求量的对数,纵坐标是ip个数的对数);图5是本专利技术实施例的第四个例子的请求量-ip个数双对数坐标系示意图(横坐标是请求量的对数,纵坐标是ip个数的对数);图6是本专利技术实施例的一种确定网站接口非正常流量的装置200的功能框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。首先对本专利技术实施例涉及的技术术语进行术语定义:反抓站系统:网站是给用户输出数据的,这时有些用户处于各种原因,使用机器模拟人类的网页访问请求。这样的机器访问一般量很大还很频繁,对服务器的健康状态会造成不良的影响。反抓站系统是封禁这部分非正常访问的系统。接口:每个网站都有许多不同的接口,用户请求这些接口来使用不同功能。接口是会有非正常流量的,主要是本文档来自技高网...

【技术保护点】
1.一种确定网站接口非正常流量的方法,其特征在于,包括:统计网站接口对应的每个ip的请求量x、以及每个请求量x对应的ip个数f(x),得到第一批数据点(x,f(x)),由第一批数据点(x,f(x))构成第一集合D1;根据所述第一批数据点(x,f(x)),获得第二批数据点(x,f1(x)),其中f1(x)=f(x)*x,再对所述第二批数据点(x,f1(x))中的x和f1(x)都取对数,得到第三批数据点(logx,logf1(x)),由第三批数据点(logx,logf1(x))构成第二集合D2;按x从小到大的顺序,从所述第二集合D2中提取排序靠前的预设比例的第一部分数据点,由提取出的第一部分数据点构成第三集合D3,在双对数坐标系中对所述第三集合D3中的数据点进行线性回归,得到拟合直线L;从所述第二集合D2中提取出在所述拟合直线L上方的第二部分数据点,由第二部分数据点构成第四集合D4;在所述第二集合D2中确定M点(logXm,logf1(Xm)),其中f1(Xm)为f1(x)的最小值,在所述第四集合D4中筛选出logx大于logXm的第三部分数据点,由第三部分数据点构成第五集合D5;根据所述第五集合D5中数据点和所述第二集合D2中的数据点,确定所述网站接口的非正常流量占比。...

【技术特征摘要】
1.一种确定网站接口非正常流量的方法,其特征在于,包括:统计网站接口对应的每个ip的请求量x、以及每个请求量x对应的ip个数f(x),得到第一批数据点(x,f(x)),由第一批数据点(x,f(x))构成第一集合D1;根据所述第一批数据点(x,f(x)),获得第二批数据点(x,f1(x)),其中f1(x)=f(x)*x,再对所述第二批数据点(x,f1(x))中的x和f1(x)都取对数,得到第三批数据点(logx,logf1(x)),由第三批数据点(logx,logf1(x))构成第二集合D2;按x从小到大的顺序,从所述第二集合D2中提取排序靠前的预设比例的第一部分数据点,由提取出的第一部分数据点构成第三集合D3,在双对数坐标系中对所述第三集合D3中的数据点进行线性回归,得到拟合直线L;从所述第二集合D2中提取出在所述拟合直线L上方的第二部分数据点,由第二部分数据点构成第四集合D4;在所述第二集合D2中确定M点(logXm,logf1(Xm)),其中f1(Xm)为f1(x)的最小值,在所述第四集合D4中筛选出logx大于logXm的第三部分数据点,由第三部分数据点构成第五集合D5;根据所述第五集合D5中数据点和所述第二集合D2中的数据点,确定所述网站接口的非正常流量占比。2.根据权利要求1所述的方法,其特征在于,所述的对所述第二批数据点(x,f1(x))中的x和f1(x)都取对数,得到第三批数据点(logx,logf1(x)),由第三批数据点(logx,logf1(x))构成第二集合D2,包括:对所述第二批数据点(x,f1(x))中的x和f1(x)都取自然对数或者常用对数,得到第三批数据点(logx,logf1(x)),由第三批数据点(logx,logf1(x))构成第二集合D2。3.根据权利要求1或2所述的方法,其特征在于,所述预设比例的取值范围包括25%至50%。4.根据权利要求1或2所述的方法,其特征在于,所述的根据所述第五集合D5中数据点和所述第二集合D2中的数据点,确定所述网站接口的非正常流量占比,包括:将所述第五集合D5中各数据点对应的总请求量除以所述第二集合D2中各数据点对应的总请求量,得到所述网站接口的非正常流量占比。5.一种确定网站接口非正常流量的装置,其特征在于,包括:第一集合获得模块,用于统计网站接口对应的每个ip的请求量x、以及每个请求量x对应的ip个数f(x),得到第一批...

【专利技术属性】
技术研发人员:王嘉伟
申请(专利权)人:微梦创科网络科技中国有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1