一种基于HTTP协议上下行流量数据接口识别系统及方法技术方案

技术编号:26693914 阅读:55 留言:0更新日期:2020-12-12 02:50
一种基于HTTP协议上下行流量数据接口识别系统,包括用于根据被测URL的后缀判断被测URL是否为接口的URL后缀判断模块、用于根据网页关键字符通过被测URL的下行数据判断被测URL是否非接口的HTML网页判断模块、用于对被测URL进行URL关键字匹配的URL关键字匹配模块,以及用于根据URL关键字匹配模块的结果给出接口可能性并根据接口可能性判断被测URL是否为接口的接口可能性计算模块。一种基于HTTP协议上下行流量数据接口识别方法,依次由URL后缀判断模块、HTML网页判断模块、URL关键字匹配模块以及接口可能性计算模块分别进行URL后缀判断、HTML网页判断、URL关键字匹配及接口可能性计算。本发明专利技术可减少人工工作量,扩大可识别的接口类型,不受反爬虫机制的限制。

【技术实现步骤摘要】
一种基于HTTP协议上下行流量数据接口识别系统及方法
本专利技术涉及接口识别
,特别是一种基于HTTP协议上下行流量数据接口识别系统及方法。
技术介绍
目前,互联网上的网站访问方式,可以分为网页(含图片)访问与接口调用两种。这两种方式,在监测策略上会有明显的不同。比如,同一个IP在1分钟内访问超过10个网页算异常,而同一个IP在1分钟内调用20次接口才算是异常。从外表上看,网页访问和接口调用都是访问一个URL,无法直接区分。所以需要有一种方法来识别一个URL是普通网页还是可供调用的接口,从而让后续的判断程序根据是否是接口来制定不同的判定策略。目前用于接口识别的方案,大致有以下几种:1、人工分析。根据访问网站的下行数据大小,筛选出一定范围(小于一定字节的不再分析),且不包含html代码的访问URL,对访问结果进行人工进行分析,判断每一个URL是否是接口。2、爬扫网站,找出网站所拥有的WebService。根据WSDL规范实例来查找一个机构。列出该网站下所有的WebService。以下是实现这种方法的一本文档来自技高网...

【技术保护点】
1.一种基于HTTP协议上下行流量数据接口识别系统,其特征在于:所述接口识别系统包括URL后缀判断模块、HTML网页判断模块、URL关键字匹配模块以及接口可能性计算模块;/n所述URL后缀判断模块根据被测URL的后缀判断被测URL是否为接口;/n所述HTML网页判断模块根据网页关键字符通过被测URL的下行数据判断被测URL是否非接口;/n所述URL关键字匹配模块对被测URL进行URL关键字匹配;/n所述接口可能性计算模块根据URL关键字匹配模块的结果给出接口可能性,并根据接口可能性判断被测URL是否为接口。/n

【技术特征摘要】
1.一种基于HTTP协议上下行流量数据接口识别系统,其特征在于:所述接口识别系统包括URL后缀判断模块、HTML网页判断模块、URL关键字匹配模块以及接口可能性计算模块;
所述URL后缀判断模块根据被测URL的后缀判断被测URL是否为接口;
所述HTML网页判断模块根据网页关键字符通过被测URL的下行数据判断被测URL是否非接口;
所述URL关键字匹配模块对被测URL进行URL关键字匹配;
所述接口可能性计算模块根据URL关键字匹配模块的结果给出接口可能性,并根据接口可能性判断被测URL是否为接口。


2.根据权利要求1所述的一种基于HTTP协议上下行流量数据接口识别系统,其特征在于:所述接口识别系统还包括下行数据关键字匹配模块,所述下行数据关键字匹配模块对被测URL的下行数据进行下行数据关键字匹配;所述接口可能性计算模块还结合下行数据关键字匹配模块的结果给出接口可能性。


3.根据权利要求2所述的一种基于HTTP协议上下行流量数据接口识别系统,其特征在于:所述接口识别系统还包括计算调整模块,对于URL后缀判断模块判断为接口的被测URL,URL关键字匹配模块和下行数据关键字匹配模块分别对被测URL和被测URL的下行数据进行URL关键字匹配和下行数据关键字匹配后得到调整用匹配结果,所述计算调整模块根据调整用匹配结果对接口可能性计算模块进行调整。


4.根据权利要求3所述的一种基于HTTP协议上下行流量数据接口识别系统,其特征在于:
所述接口识别系统还包括人工分析判断模块和人工分析接口;所述人工分析判断模块将接口可能性符合人工分析条件的被测URL判断为需人工分析的URL;所述人工分析接口将需人工分析的URL发送到人工分析端,并接收人工分析端的分析结果;
所述计算调整模块还根据人工分析端的分析结果、URL关键字匹配模块对需人工分析的URL的匹配结果以及下行数据关键字匹配模块对需人工分析的URL的下行数据的匹配结果对接口可能性计算模块进行调整。


5.根据权利要求2所述的一种基于HTTP协议上下行流量数据接口识别系统,其特征在于:
所述URL后缀判断模块包括URL后缀黑名单关键字库和URL后缀白名单关键字库;所述URL后缀黑名单关键字库含有网页URL的后缀关键字,所述URL后缀白名单关键字库含有接口URL的后缀关键字;
所述URL后缀判断模块识别被测URL是否命中URL后缀黑名单关键字库或URL后缀白名单关键字库,如果命中URL后缀白名单关键字库,则被测URL为接口,如果命中URL后缀黑名单关键字库,则被测URL非接口;
所述HTML网页判断模块识别被测URL的下行数据中是否存在网页关键字符,如果存在网页关键字符且网页关键字符在被测URL的下行数据的正文前几行,则被测URL非接口;
所述URL关键字匹配模块包括URL关键字库,所述URL关键字库含有接口URL的URL关键字,所述URL关键字匹配模块识别被测URL是否命中URL关键字库以及命中的URL关键字;
所述下行数据关键字匹配模块包括下行数据关键字库,所述下行数据关键字库含有接口URL的下行数据关键字和适用范围,所述下行数据关键字匹配模块识别被测URL的下行数据是否在适用范围内命中下行数据关键字库以及命中的接口URL的下行数据关键字;
所述接口可能性计算模块包括权重库,所述权重库包括URL关键字库中每个关键字的权重以及下行数据关键字库中每个关键字在相应适用范围内的权重;所述接口可能性计算模块结合权重库中的权重值计算得到接口可能性。


6.一种基于HTTP协议上下行流量数据接口识别方法,包括以下步骤:
S1:URL后缀判断模块根据被测URL的后缀判断被测URL是否为接口,如果URL后缀判断模块能够作出判断,则判断结束;
S2:根据被测URL准确获取被测URL的下行数据,如果无法获取或获取出错,则跳过步骤S3;
S3:HTML网页判断模块根据网页关键字符通过被测URL的下行数据判断被测URL是否非接口,如果HTML网页判断模块能够作出判断,则判断结束;
S4:URL关键字匹配模块对被测URL进行URL关键字匹配;
S5:接口可能性计算模块根据URL关键字匹配模块的结果给出接口可能性,并根据接口可能性判断被测URL是否为接口。


7.根据权利要求6所述的一种基于HTTP协议上下行流量数据接口识别方法,其特征在于:如果步骤S2中获取被测URL的下行数据成功,且步骤S5无法作出判断,则进行以下步骤:
S6:下行数据关键字匹配模块对被测URL的下行数据进行下行数据关键字匹配;
S7:所述接口可能性计算模块还结合下行数据关键字匹配模块的结果给出接口可能性。


8.根据权利要求7所述的一种基于HTTP协议上下行流量数据接口识别方法,其特征在于:所述接口识别方法还包括以下步骤:
S8:对于URL后缀判断模块判断为接口的被测URL,URL关键字匹配模块...

【专利技术属性】
技术研发人员:章明珠刘超
申请(专利权)人:成都思维世纪科技有限责任公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1