一种多应用混合数据的解析方法技术

技术编号:19126236 阅读:24 留言:0更新日期:2018-10-10 07:41
本发明专利技术公开了一种多应用混合数据的解析方法,主要包括,A,获取待解析的多应用混合数据;B,根据A数据的多种特征,为数据增加应用标记;C,根据B应用标记,使用统一接口调用相应解析算法;D,根据B应用标记,将C解析算法的输出结果输出到相应的解析结果表;E,针对新的应用,采用标准化方法实现框架的快速扩展。本发明专利技术能够识别混合数据中的多种应用,并采用统一接口对各种应用数据进行协议解析的目的,通过此方法提供了一个统一框架,能够识别混合数据中的多种应用,通过统一接口自动调用相应的解析算法实现解析,通过应用标记自动存到相应的解析结果表,并能够快速、标准化的扩展新的应用类型。

【技术实现步骤摘要】
一种多应用混合数据的解析方法
本专利技术涉及网络流数据解析方法
,具体为一种多应用混合数据的解析方法。
技术介绍
在网络大数据分析中,需要解析种类繁多的应用数据,针对每种应用根据业务需求提取部分关键信息。目前业界使用的网络数据流解析方式,一类是对常见协议进行标准化解析,比如http等,但不能满足对大量私有、小众应用协议的解析需求;另一类是对特定应用的深度解析算法,但一般只采用一种数据表示方式、针对一种应用类型,由一个解析算法来分析,不适用于复杂的网络环境,比如协议类型多、数据表示形式多等场景。在这种应用背景下,传统的应用解析算法不能很好地满足我们的业务需求。我们需要的多应用混合数据解析方法需要满足两个方面的特性,一方面可以快速、标准化的扩展新的应用类型,另一方面只针对业务需要的部分关键信息进行提取,无需对特定协议进行全部信息解析。对大量应用协议进行分析后发现,大多数应用协议可以分类为16进制协议、可见字符协议和混合类型协议,而且多数协议之间存在较强的相似性。利用这些特性,我们需要设计一种统一框架,可以实现对多应用混合数据自动识别应用标记、通过统一接口自动调用相应的解析算法实现解析、通过应用标记自动存到相应的解析结果表,并能够快速、标准化的扩展新的应用类型。目前尚未发现适合我们业务需求的通用解析方法,本专利技术提出的多应用混合数据的解析方法,可以有效解决此类问题。
技术实现思路
本专利技术的目的在于提供一种多应用混合数据的解析方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种多应用混合数据的解析方法,包括:A,获取待解析的多应用混合数据;B,根据所述A数据的多种特征,为数据增加应用标记;C,根据所述B应用标记,使用统一接口调用相应解析算法;D,根据所述B应用标记,将所述C解析算法的输出结果输出到相应的解析结果表;E,针对新的应用,采用标准化方法实现框架的快速扩展。优选的,所述A中,多应用混合数据涉及移动通信网通信数据。优选的,所述A中,多应用混合数据包含服务器IP、服务器端口、终端IMEI、终端IMSI、APN、载荷数据。优选的,所述载荷数据包括网络层载荷数据、传输层载荷数据或应用层载荷数据的至少一种。优选的,所述B中,用于识别应用标记的数据特征包括网络地址特征和数据内容特征,且识别应用标记的数据特征为网络地址特征和数据内容特征的至少一种。优选的,所述识别应用标记的数据特征为多种网络地址特征和数据内容特征组合构成。优选的,所述网络地址特征包括服务器IP、服务器端口、终端IMEI、终端IMSI和APN,所述数据内容特征包括网络层载荷数据、传输层载荷数据或应用层载荷数据中的静态特征和统计特征。优选的,所述C中,解析方法涉及对16进制协议的解析方法、对可见字符协议的解析方法及对混合协议的解析方法。优选的,所述16进制协议的解析方法为字节偏移和数据类型转换的形式;所述可见字符协议的解析方法为区分数据的组织方式再对信息内容进行高效检索;所述混合协议的解析方法为对消息头部的所述16进制数据解析后,作为前置条件和约束来解析消息体内容。优选的,所述D中,解析结果表按应用标记建立,针对每种应用标记建立至少一个解析结果表。与现有技术相比,本专利技术的有益效果是:能够识别混合数据中的多种应用,并采用统一接口对各种应用数据进行协议解析的目的。详细来说,本专利技术提出的方法提供了一个统一框架,能够识别混合数据中的多种应用,通过统一接口自动调用相应的解析算法实现解析,通过应用标记自动存到相应的解析结果表,并能够快速、标准化的扩展新的应用类型。附图说明图1为本专利技术实施例的一种多应用混合数据的解析方法的流程示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便这里描述的本申请的实施方式例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。请参阅图1,本专利技术实施例的一种多应用混合数据的解析方法的流程示意图;该多应用混合数据的解析方法包括以下步骤:步骤A,获取待解析的多应用混合数据;上述A中,多应用混合数据涉及移动通信网通信数据,并包含服务器IP、服务器端口、终端IMEI、终端IMSI、APN、载荷数据,其中载荷数据包括网络层载荷数据、传输层载荷数据或应用层载荷数据的至少一种。步骤B,根据上述数据的多种特征,为数据增加应用标记;上述B中,用于识别应用标记的数据特征包括网络地址特征和数据内容特征,其中该网络地址特征指服务器IP、服务器端口、终端IMEI、终端IMSI、APN等,该数据内容特征指网络层载荷数据、传输层载荷数据或应用层载荷数据中的静态特征和统计特征。用于识别应用标记的数据特征包括网络地址特征和数据内容特征的至少一种,也可以使用多种网络地址特征和数据内容特征组合构成。步骤C,根据上述B中,应用标记,使用统一框架调用相应解析算法;根据网络协议的不同,协议的表现形式大概分为几种,16进制的表示实行,可见字符的形式,还有16进制和可见字符混合的表示形式。16进制协议类型根据协议定义规范文档,按照其中所约束的传输方式,通过进行字节的偏移和数据类型的转换来解析协议的传输过程,并保存我们需要的信息。可见字符协议的形式比16进制类型简单一些,通过ASCII码来表示数据,输出到输出设备就是人眼可识别的数据,数据的组织方式有XML、JSON、KeyValue。在对可见字符协议的数据解析时,先根据数据头部的特征,对协议类型识别,在根据解析方法对应的类型解析消息体中的内容,在消息体中通过高效的检索算法,提取信息。混合类型的协议类型,大多表示为消息头部为16进制表示,消息体为可见字符,消息头部用16进制通过约定的协议格式,定义了一些协议命令的类型,消息的长度以及状态信息,而消息体中使用可见字符的形式,传输具体的数据。解析时先用16进制的方式解析消息头部,获取一些解析过程中需要的先置信息。在以这些先置信息为约束条件,解析消息体中的数据。步骤D,根据上述应用标记,将上述解析算法的输出结果输出到相应的解析结果表;上述D中,解析结果表按应用标记建立,针对每种应用标记建立至少一个解析结果表。步骤E,针对新的应用,采用标准化方法实现框架的快速扩展;上述E中,应用扩展方法为,新的应用扩展流程和方法,首先确定协议传输的数据类型,为16进制、可见本文档来自技高网...
一种多应用混合数据的解析方法

【技术保护点】
1.一种多应用混合数据的解析方法,其特征在于,包括:A,获取待解析的多应用混合数据;B,根据所述A数据的多种特征,为数据增加应用标记;C,根据所述B应用标记,使用统一接口调用相应解析算法;D,根据所述B应用标记,将所述C解析算法的输出结果输出到相应的解析结果表;E,针对新的应用,采用标准化方法实现框架的快速扩展。

【技术特征摘要】
1.一种多应用混合数据的解析方法,其特征在于,包括:A,获取待解析的多应用混合数据;B,根据所述A数据的多种特征,为数据增加应用标记;C,根据所述B应用标记,使用统一接口调用相应解析算法;D,根据所述B应用标记,将所述C解析算法的输出结果输出到相应的解析结果表;E,针对新的应用,采用标准化方法实现框架的快速扩展。2.根据权利要求1所述的一种多应用混合数据的解析方法,其特征在于:所述A中,多应用混合数据涉及移动通信网通信数据。3.根据权利要求1所述的一种多应用混合数据的解析方法,其特征在于:所述A中,多应用混合数据包含服务器IP、服务器端口、终端IMEI、终端IMSI、APN、载荷数据。4.根据权利要求1所述的一种多应用混合数据的解析方法,其特征在于:所述载荷数据包括网络层载荷数据、传输层载荷数据或应用层载荷数据的至少一种。5.根据权利要求1所述的一种多应用混合数据的解析方法,其特征在于:所述B中,用于识别应用标记的数据特征包括网络地址特征和数据内容特征,且识别应用标记的数据特征为网络地址特征和数据内容特征的至少一种。6.根据权利要求1...

【专利技术属性】
技术研发人员:郭晶严寒冰丁丽李佳陈阳刘婧张腾张帅温森浩李志辉姚力朱芸茜王小群吕利锋李世淙徐剑党向磊王适文饶毓肖崇蕙贾子骁吕志泉韩志辉马莉雅雷君周彧周昊高川楼书逸文静许世彪张健宋磊沈炯
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1