基于自定义标签语言的HTTP协议要素通用抽取方法技术

技术编号:19902991 阅读:24 留言:0更新日期:2018-12-26 02:47
本发明专利技术公开了基于自定义标签语言的HTTP协议要素通用抽取方法,包括以下步骤:S1:交互拼接阶段:如果存在响应数据包,则对请求数据包和响应数据包进行组合,拼接为一个交互单元;如果不存在响应数据包,则将请求数据包单独作为一个交互单元;S2:解码阶段:对交互拼接阶段得到的交互单元进行解码;S3:规则匹配阶段:将解码后的交互单元与规则集进行规则匹配,得到要素抽取规则;S4:要素抽取阶段:根据规则匹配阶段得到的要素抽取规则,对解码后的交互单元进行要素抽取;S5:详单输出阶段:根据要素抽取阶段抽取到的要素,填写详单结构相应字段,输出到数据库。本发明专利技术大大减少了开发和维护工作量。

【技术实现步骤摘要】
基于自定义标签语言的HTTP协议要素通用抽取方法
本专利技术涉及HTTP协议要素通用抽取方法,特别是涉及基于自定义标签语言的HTTP协议要素通用抽取方法。
技术介绍
伴随互联网的发展,越来越多的网络应用程序基于HTTP超文本传输协议实现,且更新频率越来越快,这给网络空间安全监控带来巨大的挑战。传统的基于HTTP协议的网络应用程序的要素抽取方法,根据每种网络应用程序的HTTP协议消息格式,定制一套包括完整交互拼接、解码、规则匹配、协议要素抽取和详单输出的代码,这需要大量的开发及维护工作量;每新支持一种基于HTTP协议的网络应用程序都需要重新编译和启动版本,对客户的现场使用有很大影响;同时各基于HTTP协议的网络应用程序的抽取模块之间也会互相影响对方的稳定性,对整个协议要素抽取平台形成巨大影响。究其原因,主要是因为传统的基于HTTP协议的网络应用程序的要素抽取方法都是根据各网络应用程序的HTTP协议消息特点定制整套代码,并没有从宏观出发将基于HTTP协议的要素抽取的各个阶段抽象成一个通用处理平台,没有将要素抽取规则抽象成一套自定义标签语言,对基于HTTP协议的网络应用程序的要素抽取进行通用处理和平台化管理。
技术实现思路
专利技术目的:本专利技术的目的是针对现有技术中存在的缺陷提出一种基于自定义标签语言的HTTP协议要素通用抽取方法。技术方案:本专利技术所述的基于自定义标签语言的HTTP协议要素通用抽取方法,包括以下步骤:S1:交互拼接阶段:如果存在响应数据包,则对请求数据包和响应数据包进行组合,拼接为一个交互单元;如果不存在响应数据包,则将请求数据包单独作为一个交互单元;S2:解码阶段:对交互拼接阶段得到的交互单元进行解码;S3:规则匹配阶段:将解码后的交互单元与规则集进行规则匹配,得到要素抽取规则;S4:要素抽取阶段:根据规则匹配阶段得到的要素抽取规则,对解码后的交互单元进行要素抽取;S5:详单输出阶段:根据要素抽取阶段抽取到的要素,填写详单结构相应字段,输出到数据库。进一步,所述步骤S3中,对匹配规则进行配置,匹配规则包括一级标签webapp,二级标签website,三级标签url,各标签为:webapp标签:用于标示配置范围;website标签:用于标示配置站点;url标签:用于标示url信息。进一步,所述website标签包括sitename属性,sitename属性表示站点名称。进一步,所述url标签包括以下三个属性:url属性:表示站点url内容;method属性:表示url的请求方法;host属性:表示网页的主机信息。进一步,所述步骤S4中的要素抽取规则包括四级标签info或四级标签entry,还包括四级标签data、四级标签hash、五级标签const和五级标签kcm,各标签为:info标签:用于标示网页信息内容;entry标签:用于标示网页条件信息;data标签:用于标示数据信息;hash标签:用于标示hash记录信息;const标签:用于配置常量数值;kcm标签:用于查找复杂关键字。进一步,所述info标签包括以下两个属性:data_type属性:表示业务功能;oper_id属性:表示操作类型。进一步,所述entry标签包括以下五个属性:entry属性:表示条件字符串;encode_type属性:表示编码方式;data_type属性:表示业务功能;oper_id属性:表示操作类型;proto_type属性:表示协议类型。进一步,所述data标签包括position属性,position属性表示位置信息;hash标签包括hash_type属性和vtag属性,其中,hash_type属性表示hash查找类型,vtag属性表示存储的字段标示。进一步,所述const标签包括以下两个属性:value属性:表示常量数值;tagname属性:表示字段标示。进一步,所述kcm标签包括以下三个属性:key属性:表示关键字信息;tagname属性:表示字段标示;encode属性:表示编码方式。有益效果:本专利技术公开了一种基于自定义标签语言的HTTP协议要素通用抽取方法,与现有技术相比,本专利技术具有如下的有益效果:(1)本专利技术使用自定义的标签语言描述基于HTTP协议应用程序的要素抽取规则,需要新支持一个应用程序或者更新应用程序时,只需要修改配置文件,大大减少了开发和维护工作量;版本升级时,只需要替换修改的配置文件,无需重新编译和启动版本,能够大大节省时间,同时也能够降低客户的现场使用的影响。(2)本专利技术使用HTTP协议要素的通用抽取平台,解耦了各应用程序的影响,一个应用程序的稳定性不会对其他应用程序的处理产生影响。附图说明图1为本专利技术具体实施方式中方法的流程图。具体实施方式本具体实施方式公开了一种基于自定义标签语言的HTTP协议要素通用抽取方法,如图1所示,包括以下步骤:S1:交互拼接阶段:如果存在响应数据包,则对请求数据包和响应数据包进行组合,拼接为一个交互单元;如果不存在响应数据包,则将请求数据包单独作为一个交互单元;S2:解码阶段:对交互拼接阶段得到的交互单元进行解码;S3:规则匹配阶段:将解码后的交互单元与规则集进行规则匹配,得到要素抽取规则;S4:要素抽取阶段:根据规则匹配阶段得到的要素抽取规则,对解码后的交互单元进行要素抽取;S5:详单输出阶段:根据要素抽取阶段抽取到的要素,填写详单结构相应字段,输出到数据库。步骤S1中支持六种消息情况:第一种,上、下行消息均完整;第二种,上行消息完整,下行消息不完整但包含状态行;第三种,下行消息完整,上行消息不完整但包含请求行;第四种,上、下行消息均不完整,但是,上行消息包含请求行,下行消息包含状态行;第五种,上行消息完整,无下行消息;第六种,上行消息不完整。步骤S3中,对匹配规则进行配置,匹配规则包括一级标签webapp,二级标签website,三级标签url,各标签为:webapp标签:用于标示配置范围;website标签:用于标示配置站点;url标签:用于标示url信息。其中,website标签包括sitename属性,sitename属性表示站点名称。url标签包括以下三个属性:url属性:表示站点url内容;可以是url的部分,多个部分之间使用“;”分割,必填;method属性:表示url的请求方法;get/post,匹配url附属条件,必填;host属性:表示网页的主机信息;子串匹配,匹配url附属条件,可不填。步骤S4中的要素抽取规则包括四级标签info或四级标签entry,还包括四级标签data、四级标签hash、五级标签const和五级标签kcm,各标签为:info标签:用于标示网页信息内容;entry标签:用于标示网页条件信息;data标签:用于标示数据信息;hash标签:用于标示hash记录信息;将配置的信息存入hash表,为跨连接数据关联服务;const标签:用于配置常量数值;kcm标签:用于查找复杂关键字。其中,info标签包括以下两个属性:data_type属性:表示业务功能;表示网页的大类,必填;oper_id属性:表示操作类型;表示详单字段动作类型里填的编号,必填。entry标签包括以下五个属性:entry属性:表示条件字符串;必填;当本文档来自技高网...

【技术保护点】
1.基于自定义标签语言的HTTP协议要素通用抽取方法,其特征在于:包括以下步骤:S1:交互拼接阶段:如果存在响应数据包,则对请求数据包和响应数据包进行组合,拼接为一个交互单元;如果不存在响应数据包,则将请求数据包单独作为一个交互单元;S2:解码阶段:对交互拼接阶段得到的交互单元进行解码;S3:规则匹配阶段:将解码后的交互单元与规则集进行规则匹配,得到要素抽取规则;S4:要素抽取阶段:根据规则匹配阶段得到的要素抽取规则,对解码后的交互单元进行要素抽取;S5:详单输出阶段:根据要素抽取阶段抽取到的要素,填写详单结构相应字段,输出到数据库。

【技术特征摘要】
1.基于自定义标签语言的HTTP协议要素通用抽取方法,其特征在于:包括以下步骤:S1:交互拼接阶段:如果存在响应数据包,则对请求数据包和响应数据包进行组合,拼接为一个交互单元;如果不存在响应数据包,则将请求数据包单独作为一个交互单元;S2:解码阶段:对交互拼接阶段得到的交互单元进行解码;S3:规则匹配阶段:将解码后的交互单元与规则集进行规则匹配,得到要素抽取规则;S4:要素抽取阶段:根据规则匹配阶段得到的要素抽取规则,对解码后的交互单元进行要素抽取;S5:详单输出阶段:根据要素抽取阶段抽取到的要素,填写详单结构相应字段,输出到数据库。2.根据权利要求1所述的基于自定义标签语言的HTTP协议要素通用抽取方法,其特征在于:所述步骤S3中,对匹配规则进行配置,匹配规则包括一级标签webapp,二级标签website,三级标签url,各标签为:webapp标签:用于标示配置范围;website标签:用于标示配置站点;url标签:用于标示url信息。3.根据权利要求2所述的基于自定义标签语言的HTTP协议要素通用抽取方法,其特征在于:所述website标签包括sitename属性,sitename属性表示站点名称。4.根据权利要求2所述的基于自定义标签语言的HTTP协议要素通用抽取方法,其特征在于:所述url标签包括以下三个属性:url属性:表示站点url内容;method属性:表示url的请求方法;host属性:表示网页的主机信息。5.根据权利要求1所述的基于自定义标签语言的HTTP协议要素通用抽取方法,其特征在于:所述步骤S4中的要素抽取规则包括四级标签info或四级标签entry,还包括四级标签data、四级标签hash、五级标...

【专利技术属性】
技术研发人员:王丽雪王恒亮
申请(专利权)人:南京茂毓通软件科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1