一种报文数据的提取方法及系统技术方案

技术编号:21454042 阅读:26 留言:0更新日期:2019-06-26 04:48
本发明专利技术公开了一种报文数据的提取方法,包括以下步骤:获取目标报文中提取的目标数据的位置;根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,并提取所述目标数据。同时,本发明专利技术还提出一种报文数据的提取系统,包括:确定模块,用于获取目标报文中提取的目标数据的位置;提取模块,用于根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,并提取所述目标数据。本发明专利技术的有益效果是:不仅可以实现对报文任意位置上的内容进行提取,而且使得提取的数据更加准确。

【技术实现步骤摘要】
一种报文数据的提取方法及系统
本专利技术涉及数据提取领域,具体的说,是一种报文数据的提取方法及系统。
技术介绍
HTTP协议的应用并不只限于网站,在4G网络成熟、5G网络标准已建立的背景下,大量的手机应用程序涌现。HTTP协议可以承载这些应用的通信,而且应用还相当广泛。那么在这个大数据时代,获取数据对用户的行为模式进行分析显得尤为重要。但是对于HTTP协议报文承载的数据内容进行提取,当前常用的方法是使用爬虫技术,通过加入关键字匹配技术可以实现网页内容的简单筛选,但是并不能做到对任意位置进行任意匹配,使得数据提取精准化。
技术实现思路
本专利技术所要解决的技术问题是提供一种报文数据的提取方法及系统,以对http协议报文进行任意位置的数据的提取。本专利技术解决上述技术问题的技术方案如下:一种报文数据的提取方法,包括以下步骤:获取目标报文中提取的目标数据的位置;根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,并提取所述目标数据。本专利技术的有益效果是:通过确定报文中要提取的目标数据的在报文中的位置,并根据预设的正则表达式对所述位置的内容进行匹配,并提取所述目标数据。不仅可以实现对任意位置上的内容进行提取,而且使得提取的数据更加准确。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步地,所述根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,包括:若所述目标数据的位置对应的报文内容具有第一字符串特征的数据,则根据预设的正则表达式对所述位置上的报文内容进行匹配。采用上述进一步方案的有益效果是:在所述目标数据的报文位置上具有第一字符串特征的数据时,根据预设的正则表达式对该位置的内容进行匹配,可以实现数据的精准提取。进一步地,所述获取目标报文中提取的目标数据的位置,之前还包括:根据第二字符串特征确定所述目标报文。采用上述进一步方案的有益效果是:进行所述第二字符串特征匹配,可以识别报文的类型,以确定该报文是否是目标报文。进一步地,所述提取所述位置上的数据后,还包括:对提取到的所述数据进行标记。采用上述进一步方案的有益效果是:对提取到的所述模目标数据进行标记,可以让用户直观地了解提取的数据的属性。同时,本专利技术还提出一种报文数据的提取系统,包括:确定模块,用于获取目标报文中提取的目标数据的位置;提取模块,用于根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,并提取所述目标数据。本专利技术的有益效果是:通过确定模块确定目标报文中要提取的数据的位置,并提取模块通过根据预设的正则表达式对所述位置的内容进行匹配,提取所述位置上的数据。不仅可以实现对任意位置上的内容进行提取,而且使得提取的数据更加准确。进一步地,所述提取模块包括提取单元,所述提取单元用于在所述目标数据的位置对应的报文内容具有第一字符串特征的数据的情况下,根据预设的正则表达式对所述位置上的报文内容进行匹配。采用上述进一步方案的有益效果是:在所述目标数据的位置对应的报文内容具有第一字符串特征的数据时,根据预设的正则表达式对所述位置的内容进行匹配,可以实现数据的精准提取。进一步地,所述系统还包括识别模块,所述识别模块用于根据第二字符串特征确定所述目标报文。采用上述进一步方案的有益效果是:通过所述识别模块对所述报文进行所述第二字符串特征匹配,可以识别出报文的类型。进一步地,所述系统还包括赋值模块,所述赋值模块用于对提取到的所述数据进行标记。采用上述进一步方案的有益效果是:通过所述赋值模块对提取到的所述目标数据进行标记,可以让用户直观地了解提取的数据的属性。附图说明图1为本专利技术一种报文数据的提取方法的逻辑示意图;图2为本专利技术一种报文数据的提取系统的结构示意图。具体实施方式以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。如图1所示,一种报文数据的提取方法,包括以下步骤:获取目标报文中提取的目标数据的位置;根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,并提取所述目标数据。需要说明的是,由于http协议的报文可以拆分为:请求头(request_header)、请求体(request_body)、响应头(response_header)、响应体(response_body)。因此通过确定要提取的数据在http报文的具体位置,再通过预设的正则表达式对所述位置上的报文内容进行匹配,并提取所述数据,可以实现对http报文任意位置上的数据进行精准的提取。例如所述目标报文要提取的内容在所述目标报文的请求体(request_body)的位置,则直接在所述目标报文的请求体位置处根据预设的正则表达式对所述位置的内容进行匹配,提取所述位置上的数据。本实施例中,所述根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,包括:若所述目标数据的位置对应的报文内容具有第一字符串特征的数据,则根据预设的正则表达式对所述位置上的报文内容进行匹配。需要说明的是,当报文中具有所述第一字符串特征,则根据预先设置的正则表达式对报文中的内容进行匹配,并进行数据的提取,具体的实施方式如下:即确定要提取的数据的在http协议上的具体位置,然后使用正则表达式在所述位置上进行匹配查找要提前数据,并对所述数据进行提取。可选地,所述获取目标报文中提取的目标数据的位置,之前还包括:根据第二字符串特征确定所述目标报文。需要说明的是,所述第二字符串特征包括hosts和/或uri关键字的值,当匹配到所述hosts和/或uri关键字的值,则可以判断所述报文是否是http报文,然后进入根据预设的正则表达式对http报文所述目标数据的位置对应的报文内容进行匹配,提取所述位置上的数据。可选地,所述提取所述位置上的数据后,还包括:对提取到的所述目标数据进行标记。需要说明的是,提取到的数据在输出时,通过对提取到的所述目标数据进行标记,可以让用户直观地知道提取到的目标数据的具体含义,具体可以通过name与value的映射关系来给提取到的数据进行标记。例如:对于要提取的目标数据为电话号码“123”,则将提取到的电话号码标记为“电话号码:123”。在实际应用场景中,可以通过抓包工具确认报文中要提取的目标数据的位置,然后通过根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,提取所述目标数据。另外,也可以对多个位置上的数据进行提取,例如可以同时对http报文中的请求头(request_header)位置、请求体(request_body)位置、响应头(response_header)位置以及响应体(response_body)位置上的数据进行提取。同时,如图2所示,本专利技术还提出一种报文数据的提取系统,确定模块,用于获取目标报文中提取的目标数据的位置;提取模块,用于根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,并提取所述目标数据。优选地,所述提取模块包括提取单元,所述提取单元用于在所述目标数据的位置对应的报文内容具有第一字符串特征的数据的情况下,根据预设的正则表达式对所述位置上的报文内容进行匹配。可选地,所述系统还包括识别模块,所述识别模块用于根据第二字符串特征确定所述目标报文。可选地,所述系统还包括赋值模块,所述赋值模块用本文档来自技高网...

【技术保护点】
1.一种报文数据的提取方法,其特征在于,包括以下步骤:获取目标报文中提取的目标数据的位置;根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,并提取所述目标数据。

【技术特征摘要】
1.一种报文数据的提取方法,其特征在于,包括以下步骤:获取目标报文中提取的目标数据的位置;根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,并提取所述目标数据。2.根据权利要求1所述的报文数据的提取方法,其特征在于,所述根据预设的正则表达式对所述目标数据的位置对应的报文内容进行匹配,包括:若所述目标数据的位置对应的报文内容具有第一字符串特征的数据,则根据预设的正则表达式对所述位置上的报文内容进行匹配。3.根据权利要求1所述的报文数据的提取方法,其特征在于,所述获取目标报文中提取的目标数据的位置,之前还包括:根据第二字符串特征确定所述目标报文。4.根据权利要求1所述的报文数据的提取方法,其特征在于,所述提取所述位置上的数据后,还包括:对提取到的所述目标数据进...

【专利技术属性】
技术研发人员:李昌达
申请(专利权)人:北京思特奇信息技术股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1