A method and device for determining abnormal traffic of a website interface includes: counting the number of requests x for each IP corresponding to the website interface and the number f(x) of IPS corresponding to each x, obtaining the first set of data points (x, f(x)); obtaining the second batch of data points (x, f1(x)), where f1(x) = f(x)*x, logarithmizing X and f1(x) in the data points (x, f1(x)). Get the second set; in the order of X from small to large, take the pre-preset proportion data points in the second set as the third set, and make linear regression to the data points in the second set; take the data points above the fitting line L from the second set as the fourth set; determine the M point (Xm, F1 (Xm) in the second set, where F1 (Xm) is the minimum value of F1 (x); filter out that x is greater than or equal to X in the fourth set. All data points of Xm form the fifth set, and the proportion of abnormal traffic is determined according to the data points in the fifth and second set. This method can quickly obtain the abnormal traffic proportion of each interface.
【技术实现步骤摘要】
一种确定网站接口非正常流量的方法及装置
本专利技术涉及数据分析,具体涉及一种确定网站接口非正常流量的方法及装置。
技术介绍
网站是给用户输出数据的,这时有些用户处于各种原因,使用机器模拟人类的网页访问请求。这样的机器访问一般量很大还很频繁,对服务器的健康状态会造成不良的影响。反抓站系统是封禁这部分非正常访问的系统。每个网站都有许多不同的接口,用户请求这些接口来使用不同功能。接口是会有非正常流量的,主要是一些别有用心的人写程序刷访问量,刷赞及类似行为。这些非正常流量不仅掩盖了真实的流量,增大网站的负载,而且对正常用户也是不公平的。但是这些流量经过伪装,其和正常流量并无不同,现在目标是对各个接口来说,从其流量中找出异常的比例然后针对性的制定拦截策略。其中,找出(各个接口的)异常流量占比是最为关键的一步。对于现有技术,一般是把一天所有访问日志收集起来,把访问较多且访问接口唯一的ip都找出来,然后统计这些ip的所有访问,这些访问都是非正常流量。简单来说,收集一天内的所有日志,统计其出现的所有ip,然后再统计每个ip对应的访问量。寻找单ip访问量高且访问接口单一的ip,将其所有访问算作是非正常流量,然后汇总再除以总访问量,就得到了每天的非正常流量百分比。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:(1)一天所有日志可能很大,统计所需机器过多,时间过长。(2)这种方案只能找出单ip刷单一接口的情况,多ip或多接口则无能为力。(3)只能得到总流量的无效流量占比,无法得到各个接口的无效流量占比。
技术实现思路
本专利技术实施例提供一种确定网站接口非正常流 ...
【技术保护点】
1.一种确定网站接口非正常流量的方法,其特征在于,包括:统计网站接口对应的每个ip的请求量x、以及每个请求量x对应的ip个数f(x),得到第一批数据点(x,f(x)),由第一批数据点(x,f(x))构成第一集合D1;根据所述第一批数据点(x,f(x)),获得第二批数据点(x,f1(x)),其中f1(x)=f(x)*x,再对所述第二批数据点(x,f1(x))中的x和f1(x)都取对数,得到第三批数据点(logx,logf1(x)),由第三批数据点(logx,logf1(x))构成第二集合D2;按x从小到大的顺序,从所述第二集合D2中提取排序靠前的预设比例的第一部分数据点,由提取出的第一部分数据点构成第三集合D3,在双对数坐标系中对所述第三集合D3中的数据点进行线性回归,得到拟合直线L;从所述第二集合D2中提取出在所述拟合直线L上方的第二部分数据点,由第二部分数据点构成第四集合D4;在所述第二集合D2中确定M点(logXm,logf1(Xm)),其中f1(Xm)为f1(x)的最小值,在所述第四集合D4中筛选出logx大于logXm的第三部分数据点,由第三部分数据点构成第五集合D5;根据所述 ...
【技术特征摘要】
1.一种确定网站接口非正常流量的方法,其特征在于,包括:统计网站接口对应的每个ip的请求量x、以及每个请求量x对应的ip个数f(x),得到第一批数据点(x,f(x)),由第一批数据点(x,f(x))构成第一集合D1;根据所述第一批数据点(x,f(x)),获得第二批数据点(x,f1(x)),其中f1(x)=f(x)*x,再对所述第二批数据点(x,f1(x))中的x和f1(x)都取对数,得到第三批数据点(logx,logf1(x)),由第三批数据点(logx,logf1(x))构成第二集合D2;按x从小到大的顺序,从所述第二集合D2中提取排序靠前的预设比例的第一部分数据点,由提取出的第一部分数据点构成第三集合D3,在双对数坐标系中对所述第三集合D3中的数据点进行线性回归,得到拟合直线L;从所述第二集合D2中提取出在所述拟合直线L上方的第二部分数据点,由第二部分数据点构成第四集合D4;在所述第二集合D2中确定M点(logXm,logf1(Xm)),其中f1(Xm)为f1(x)的最小值,在所述第四集合D4中筛选出logx大于logXm的第三部分数据点,由第三部分数据点构成第五集合D5;根据所述第五集合D5中数据点和所述第二集合D2中的数据点,确定所述网站接口的非正常流量占比。2.根据权利要求1所述的方法,其特征在于,所述的对所述第二批数据点(x,f1(x))中的x和f1(x)都取对数,得到第三批数据点(logx,logf1(x)),由第三批数据点(logx,logf1(x))构成第二集合D2,包括:对所述第二批数据点(x,f1(x))中的x和f1(x)都取自然对数或者常用对数,得到第三批数据点(logx,logf1(x)),由第三批数据点(logx,logf1(x))构成第二集合D2。3.根据权利要求1或2所述的方法,其特征在于,所述预设比例的取值范围包括25%至50%。4.根据权利要求1或2所述的方法,其特征在于,所述的根据所述第五集合D5中数据点和所述第二集合D2中的数据点,确定所述网站接口的非正常流量占比,包括:将所述第五集合D5中各数据点对应的总请求量除以所述第二集合D2中各数据点对应的总请求量,得到所述网站接口的非正常流量占比。5.一种确定网站接口非正常流量的装置,其特征在于,包括:第一集合获得模块,用于统计网站接口对应的每个ip的请求量x、以及每个请求量x对应的ip个数f(x),得到第一批...
【专利技术属性】
技术研发人员:王嘉伟,
申请(专利权)人:微梦创科网络科技中国有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。