一种http协议信息提取方法及装置制造方法及图纸

技术编号:29791078 阅读:26 留言:0更新日期:2021-08-24 18:10
本发明专利技术涉及一种http协议信息提取方法及装置中,提取方法根据所获http协议信息中数据的实际情形,应用http协议信息所对应的HOST、PATH、以及由QUERY和信息内容数据所处理获得的Key‑Value,自动化生成相应有效信息的提取规则,所获提取规则符合相应协议信息的客观实际情形,克服了现有技术的不足,并且所设计方法在应用中,逻辑清楚、运算执行速度快;本发明专利技术所设计针对提取方法的装置,包括有效信息识别模块、http协议信息预处理模块、自动提取规则生成模块、http协议信息自动提取模块,应用中充分调用所设计各模块之间的协同操作,能够有效提高http协议信息中有效信息的提取效率。

【技术实现步骤摘要】
一种http协议信息提取方法及装置
本专利技术涉及一种http协议信息提取方法及装置,属于数据分析

技术介绍
互联网的快速发展加快了大数据时代来临的脚步,尤其在数据量非常庞大的今天,数据协议种类快速增长,协议内容迅速更新,协议分析面临极大的挑战。面对当前大数据环境下种类纷繁复杂的http协议,目前采用的传统分析方法是针对每个网页链接,一个一个的分析,应用这样分析方法获取协议内容中有效信息时,效率低、速度慢。
技术实现思路
本专利技术所要解决的技术问题是提供一种http协议信息提取方法,采用全新逻辑设计,应用提取规则的自动生成,能够有效提高http协议信息中有效信息的提取效率。本专利技术为了解决上述技术问题采用以下技术方案:本专利技术设计了一种http协议信息提取方法,用于针对http协议信息中的有效信息实现自动化提取,包括如下步骤:步骤A.获取http协议信息,标注并训练命名实体识别模型,然后进入步骤B;步骤B.获取一条http协议信息,获取其中的HOST、PATH、QUERY、以及信息内容数据,并将QUERY和信息内容数据处理为Key-Value格式数据,构成该http协议信息所对应的HOST、PATH、Key-Value,然后进入步骤C;步骤C.获取该http协议信息所对应HOST与PATH的组合,构成参考对象,并判断是否存在该参考对象所对应的提取规则或过滤规则,是则进入步骤G;否则进入步骤D;步骤D.判断是否存在该参考对象所对应的协议信息累计集合,是则将该http协议信息加入该协议信息累计集合中,并进入步骤E;否则创建该参考对象所对应的协议信息累计集合,并将该http协议信息加入该协议信息累计集合中,并返回步骤B;步骤E.判断该参考对象所对应协议信息累计集合中http协议信息的数量是否达到预设累加数量阈值,是则进入步骤F;否则返回步骤B;步骤F.针对该参考对象所对应的协议信息累计集合,应用命名实体识别模型,根据所获其中各http协议信息中预设各指定项目的数据内容,判断该http协议信息所对应Key-Value中有效Key信息个数的总和是否不小于预设个数阈值,是则以该参考对象与该全部有效Key信息,组合构成该参考对象所对应的提取规则,并返回步骤B;否则定义该参考对象对应过滤规则,并返回步骤B;步骤G.若该参考对象对应提取规则,则根据该提取规则,提取该http协议信息所对应Key-Value中的有效Value信息,实现http协议信息中有效信息的提取;若该参考对象对应过滤规则,则将该http协议信息丢弃。作为本专利技术的一种优选技术方案,所述步骤A包括如下步骤:步骤A1.获取预设数量的样本http协议信息,并分别针对各样本http协议信息,标注其中的预设各指定项目的数据内容,然后进入步骤A2;步骤A2.根据各样本http协议信息、以及样本http协议信息中预设各指定项目的数据内容,针对预设指定神经网络进行训练,获得命名实体识别模型,然后进入步骤B。作为本专利技术的一种优选技术方案:所述步骤A1中,分别针对各样本http协议信息,使用自然语言处理技术中的命名实体识别算法,标注其中的预设各指定项目的数据内容。作为本专利技术的一种优选技术方案:所述步骤A2中的预设指定神经网络为由tensorflow平台搭建biLSTM+crf的神经网络。作为本专利技术的一种优选技术方案:所述预设各指定项目包括姓名、手机号、地址、公司名、学校名、IMSI、IMEI、MAC、银行卡、用户名、密码、昵称。作为本专利技术的一种优选技术方案:所述步骤E中的预设累加数量阈值为20。作为本专利技术的一种优选技术方案:所述步骤F中的预设个数阈值为2。与上述相对应,本专利技术还要解决的技术问题是提供一种针对http协议信息提取方法的装置,基于所设计全新逻辑提取方法,充分调用所设计各模块之间的协同操作,能够有效提高http协议信息中有效信息的提取效率。本专利技术为了解决上述技术问题采用以下技术方案:本专利技术设计了一种针对http协议信息提取方法的装置,包括有效信息识别模块、http协议信息预处理模块、自动提取规则生成模块、http协议信息自动提取模块;其中,有效信息识别模块用于识别获取http协议信息中预设各指定项目的数据内容,即执行步骤A;http协议信息预处理模块用于获取http协议信息中的HOST、PATH、QUERY、以及信息内容数据,并将QUERY和信息内容数据处理为Key-Value格式数据,构成该http协议信息所对应的HOST、PATH、Key-Value,即执行步骤B;自动提取规则生成模块用于根据有效信息识别模块的处理结果,针对http协议信息预处理模块的处理结果进一步处理,获得相应提取规则或过滤规则,即执行步骤C至步骤F;http协议信息自动提取模块用于根据提取规则或过滤规则,针对http协议信息预处理模块的处理结果进行有效信息的提取,即执行步骤G。本专利技术所述一种http协议信息提取方法及装置,采用以上技术方案与现有技术相比,具有以下技术效果:本专利技术所设计http协议信息提取方法及装置中,提取方法采用全新逻辑设计方法,根据所获http协议信息中数据的实际情形,应用http协议信息所对应的HOST、PATH、以及由QUERY和信息内容数据所处理获得的Key-Value,自动化生成相应有效信息的提取规则,所获提取规则符合相应协议信息的客观实际情形,克服了现有技术的不足,并且所设计方法在应用中,逻辑清楚、运算执行速度快;本专利技术所设计针对提取方法的装置,包括有效信息识别模块、http协议信息预处理模块、自动提取规则生成模块、http协议信息自动提取模块,应用中充分调用所设计各模块之间的协同操作,能够有效提高http协议信息中有效信息的提取效率。附图说明图1是本专利技术设计应用实施例中预设各指定项目数据内容的标注结果示意图;图2是本专利技术设计中应用http协议信息预处理模块的处理示意图;图3是本专利技术设计中自动提取规则生成模块的应用流程示意图;图4是本专利技术设计中http协议信息自动提取模块的应用流程示意图。具体实施方式下面结合说明书附图对本专利技术的具体实施方式作进一步详细的说明。本专利技术设计了一种http协议信息提取方法及装置,实际应用当中,所设计装置具体包括有效信息识别模块、http协议信息预处理模块、自动提取规则生成模块、http协议信息自动提取模块。应用中,有效信息识别模块用于识别获取http协议信息中预设各指定项目的数据内容。http协议信息预处理模块用于获取http协议信息中的HOST、PATH、QUERY、以及信息内容数据,并将QUERY和信息内容数据处理为Key-Value格式数据,构成该http协议信息所对应的HOST、PATH、Key-Value。自动提取规则生成模块用于根据有效信息识别模块的处理结果本文档来自技高网...

【技术保护点】
1.一种http协议信息提取方法,用于针对http协议信息中的有效信息实现自动化提取,其特征在于,包括如下步骤:/n步骤A. 获取http协议信息,标注并训练命名实体识别模型,然后进入步骤B;/n步骤B. 获取一条http协议信息,获取其中的HOST、PATH、QUERY、以及信息内容数据,并将QUERY和信息内容数据处理为Key-Value格式数据,构成该http协议信息所对应的HOST、PATH、Key-Value,然后进入步骤C;/n步骤C. 获取该http协议信息所对应HOST与PATH的组合,构成参考对象,并判断是否存在该参考对象所对应的提取规则或过滤规则,是则进入步骤G;否则进入步骤D;/n步骤D. 判断是否存在该参考对象所对应的协议信息累计集合,是则将该http协议信息加入该协议信息累计集合中,并进入步骤E;否则创建该参考对象所对应的协议信息累计集合,并将该http协议信息加入该协议信息累计集合中,并返回步骤B;/n步骤E. 判断该参考对象所对应协议信息累计集合中http协议信息的数量是否达到预设累加数量阈值,是则进入步骤F;否则返回步骤B;/n步骤F. 针对该参考对象所对应的协议信息累计集合,应用命名实体识别模型,根据所获其中各http协议信息中预设各指定项目的数据内容,判断该http协议信息所对应Key-Value中有效Key信息个数的总和是否不小于预设个数阈值,是则以该参考对象与该全部有效Key信息,组合构成该参考对象所对应的提取规则,并返回步骤B;否则定义该参考对象对应过滤规则,并返回步骤B;/n步骤G. 若该参考对象对应提取规则,则根据该提取规则,提取该http协议信息所对应Key-Value中的有效Value信息,实现http协议信息中有效信息的提取;若该参考对象对应过滤规则,则将该http协议信息丢弃。/n...

【技术特征摘要】
1.一种http协议信息提取方法,用于针对http协议信息中的有效信息实现自动化提取,其特征在于,包括如下步骤:
步骤A.获取http协议信息,标注并训练命名实体识别模型,然后进入步骤B;
步骤B.获取一条http协议信息,获取其中的HOST、PATH、QUERY、以及信息内容数据,并将QUERY和信息内容数据处理为Key-Value格式数据,构成该http协议信息所对应的HOST、PATH、Key-Value,然后进入步骤C;
步骤C.获取该http协议信息所对应HOST与PATH的组合,构成参考对象,并判断是否存在该参考对象所对应的提取规则或过滤规则,是则进入步骤G;否则进入步骤D;
步骤D.判断是否存在该参考对象所对应的协议信息累计集合,是则将该http协议信息加入该协议信息累计集合中,并进入步骤E;否则创建该参考对象所对应的协议信息累计集合,并将该http协议信息加入该协议信息累计集合中,并返回步骤B;
步骤E.判断该参考对象所对应协议信息累计集合中http协议信息的数量是否达到预设累加数量阈值,是则进入步骤F;否则返回步骤B;
步骤F.针对该参考对象所对应的协议信息累计集合,应用命名实体识别模型,根据所获其中各http协议信息中预设各指定项目的数据内容,判断该http协议信息所对应Key-Value中有效Key信息个数的总和是否不小于预设个数阈值,是则以该参考对象与该全部有效Key信息,组合构成该参考对象所对应的提取规则,并返回步骤B;否则定义该参考对象对应过滤规则,并返回步骤B;
步骤G.若该参考对象对应提取规则,则根据该提取规则,提取该http协议信息所对应Key-Value中的有效Value信息,实现http协议信息中有效信息的提取;若该参考对象对应过滤规则,则将该http协议信息丢弃。


2.根据权利要求1所述一种http协议信息提取方法,其特征在于,所述步骤A包括如下步骤:
步骤A1.获取预设数量的样本http协议信息,并分别针对各样本http协议信息,标注其中的预设各指定项目的数据内容,然后进入步骤A2;
步骤A2.根据各样本http协议信息、以及样...

【专利技术属性】
技术研发人员:宋万军李曙光崔弘陈白雪姜广栋
申请(专利权)人:南京烽火星空通信发展有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1