一种基于流量的应用系统识别和定义方法技术方案

技术编号:27202704 阅读:56 留言:0更新日期:2021-01-31 12:16
本发明专利技术公开了一种基于流量的应用系统识别和定义方法,具体涉及在安全大数据、应用安全、数据安全、大数据处理、网络数据分析等多个一种识别和定义应用系统领域,具体包括如下步骤:日志格式化

【技术实现步骤摘要】
一种基于流量的应用系统识别和定义方法


[0001]本专利技术涉及在安全大数据、应用安全、数据安全、大数据处理、网络数据分析等多个一种识别和定义应用系统领域,更具体地说,本专利技术涉及一种基于流量的应用系统识别和定义方法。

技术介绍

[0002]大数据时代,企业为了满足日益变化的用户需求开发和运行了大量的业务系统,比如:订单系统、产品系统、价格系统、支付系统、各种移动端、微信端系统,随着用户的访问量越来越高,这些系统往往是以集群的方式运行,后端需要有大量的服务器提供运算能力,用户可以通过IP或者多个域名访问同一个应用系统。在这样的场景下,从旁路流量层面对应用系统的访问行为进行审计和数据分析的过程中对于应用系统的识别和定义变得特别重要。
[0003]现在旁路流量产品在识别和定义应用的时候比较简单,一般都是以URL的HOST来定义一个应用系统,URL的HOST一般都是域名+端口或者IP+端口。但是在实际的业务场景下,应用系统会以很多形式呈现,比如多个IP+端口可能对应的是一个应用系统,在这样的场景下,对于应用系统的数量统计和应用系统的访问统计都会变得与实际情况差异特别大,甚至会影响到数据分析和运营决策。
[0004]在所述
技术介绍
部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]为了解决应用系统识别和定义不准确对应用系统数量和访问行为的统计的影响,本专利技术提供了一种新的方式来从旁路流量层面通过对应用系统的数据结构的学习和相似度比较的方式来实现对应用系统提供精确的识别和定义,以便更好的对应用数量和访问行为进行统计分析。
[0006]为实现上述目的,本专利技术提供如下技术方案:一种基于流量的应用系统识别和定义方法,具体包括如下步骤:
[0007]步骤一:日志格式化:将HTTP流量还原为日志;
[0008]步骤二:应用系统预处理:从HTTP流量还原的日志中提取和初步定义应用系统,以便于应用系统的重新定义;
[0009]步骤三:应用系统结构识别:当初步定义应用系统名称后,需要识别不同的应用系统名称是否属于同一个应用系统,使得相同的应用系统具有相似度非常高的路径结构,所以需要识别每个初步定义的应用系统名称的路径结构;
[0010]步骤四:应用系统结构分类:当所有初步定义的应用系统路径结构识别完成后,需要进行相似度比较,并在比较后对其进行分类,且在相似度比较过程中需要提高比较的效率,所以需要根据路径结构对初步定义的应用系统进行分类;
[0011]步骤五:应用系统定义计算:对于分类好的初步定义的应用系统,进行准确的应用相似度比较,计算准确的应用系统定义;
[0012]步骤六:应用系统名称合并:对于日志中的HOST计算真实的应用系统名称。
[0013]在一个优选地实施方式中,上述步骤一中,将HTTP流量还原的日志中包含有HTTP的请求头、请求体、请求URL、请求方法、返回头和返回内容。
[0014]在一个优选地实施方式中,上述步骤二中,上述应用系统预处理具体包括以下流程:
[0015](1)从日志的请求头中根据HOST字段提取内容,作为初步的应用系统名称;
[0016](2)初步提取的应用系统名称在存在攻击扫描流程的场景下,会有各种畸形的数据,所以在这一步需要对应用系统名称进行初步的校验,排除非正常的域名、IPv4和IPv6的格式。
[0017]在一个优选地实施方式中,上述步骤三中,上述应用系统结构识别具体包括以下流程:
[0018](1)提取日志中的请求URL;
[0019](2)计算请求URL的路径的MD5值;
[0020](3)计算初步定义的应用系统的路径结构,该结构中包含两个字段:路径数量和路径列表。
[0021]在一个优选地实施方式中,上述步骤四中,上述应用系统结构分类具体包括以下流程:
[0022](1)排除应用系统URL路径数量过少的应用:在流量中包含较多的应用,这些应用过程中处理的业务较少,所以相似度非常高,对于这些应用需要排除;
[0023](2)根据初步定义的应用系统的路径数量进行分类,把可能性较高的应用分类在一起提高比较的性能。
[0024]在一个优选地实施方式中,上述步骤五中,上述应用系统定义计算具体包括以下流程:
[0025](1)定义计算公式:相似度=(应用间相同路径数量)/应用的路径总数量*100;
[0026](2)计算应用系统定义数据结构:应用系统名称、需要合并的应用系统名称清单。
[0027]在一个优选地实施方式中,上述步骤六中,上述应用系统名称合并具体包括以下步骤:
[0028](1)从日志中提取HOST名称;
[0029](2)遍历应用系统定义列表,检查HOST是否在合并的应用名称清单中;
[0030](3)如果存在,则返回应用定义配置的应用名称;
[0031](4)如果不存在,则返回HOST名称。
[0032]本专利技术的技术效果和优点:
[0033]本专利技术以大数据为核心,通过应用系统的结构分类和路径相似度来高效的发现和识别应用系统的定义,同时,结合大数据自动学习的应用系统定义配置或者手动管理的应用系统定义配置来对海量的日志中的应用系统进行合并定义和统计。
附图说明
[0034]附图用来提供对本专利技术技术方案的进一步理解,构成本专利技术的一部分,本专利技术的实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0035]图1为本专利技术的基于流量的应用系统识别和定义方法流程图。
具体实施方式
[0036]现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些示例实施方式使得本公开的描述将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
[0037]此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的示例实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、步骤等。在其它情况下,不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
[0038]本专利技术提供了如图1所示的一种基于流量的应用系统识别和定义方法,具体包括如下步骤:
[0039]步骤一:日志格式化:将HTTP流量还原为日志,且该日志中包含有HTTP的请求头、请求体、请求URL、请求方法、返回头和返回内容;
[0040]步骤二:应用系统预处理:从HTTP流量还原的日志中提取和初步定义应用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于流量的应用系统识别和定义方法,其特征在于:具体包括如下步骤:步骤一:日志格式化:将HTTP流量还原为日志;步骤二:应用系统预处理:从HTTP流量还原的日志中提取和初步定义应用系统,以便于应用系统的重新定义;步骤三:应用系统结构识别:当初步定义应用系统名称后,需要识别不同的应用系统名称是否属于同一个应用系统,使得相同的应用系统具有相似度非常高的路径结构;步骤四:应用系统结构分类:当所有初步定义的应用系统路径结构识别完成后,需要进行相似度比较,并在比较后对其进行分类,且在相似度比较过程中需要提高比较的效率;步骤五:应用系统定义计算:对于分类好的初步定义的应用系统,进行准确的应用相似度比较,计算准确的应用系统定义;步骤六:应用系统名称合并:对于日志中的HOST计算真实的应用系统名称。2.根据权利要求1所述的一种基于流量的应用系统识别和定义方法,其特征在于:上述步骤一中,将HTTP流量还原的日志中包含有HTTP的请求头、请求体、请求URL、请求方法、返回头和返回内容。3.根据权利要求1所述的一种基于流量的应用系统识别和定义方法,其特征在于:上述步骤二中,上述应用系统预处理具体包括以下流程:(1)从日志的请求头中根据HOST字段提取内容,作为初步的应用系统名称;(2)初步提取的应用系统名称在存在攻击扫描流程的场景下,会有各种畸形的数据,所以在这一步需要对应用系统名称进行初步的校验,排除非正常的域名、IPv4和IPv6的格式。...

【专利技术属性】
技术研发人员:申杰
申请(专利权)人:全知科技杭州有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1