一种全文数据的提取方法和装置制造方法及图纸

技术编号:12812299 阅读:89 留言:0更新日期:2016-02-05 11:45
本发明专利技术公开了一种全文数据的提取方法和装置,所述方法包括:将网络封包数据解析为会话数据;判断所述会话数据的实体部分是否符合预设数据格式,若是则对所述会话数据进行数据格式标注;对符合预设数据格式的会话数据进行多模匹配,判断是否命中预设特征串,并在命中预设特征串时获得预设特征串的命中位置;根据所述会话数据的数据格式标注以及所述预设特征串的命中位置,确定所述会话数据的对应的提取函数,并根据所述提取函数对所述会话数据进行数据提取,本发明专利技术实现了提高海量数据的全文数据提取效率的技术效果。

【技术实现步骤摘要】

本专利技术实施例涉及移动及大数据处理
,尤其涉及一种全文数据的提取方法和装置
技术介绍
互联网的高速发展,使数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素,伴随而来的是人类可以分析和处理的海量数据。在中型以上的城市如北京、上海,每天在网络行为中产生的各类数据已经超过PBS。例如手机应用程序(Applicat1n,APP)每天会有数TB的提交数据产生,这些数据中含有经玮度、手机串号、用户身份识别卡卡号、手机唯一识别码等信息,而这些信息在安全监管行业非常有用,因此海量提取这些信息成为一个重要且复杂的工作。传统的全文提取方法主要有两种:一种是基于模板的提取方法,这种方法适用于特定网站的信息提取,但是对于多变的手机APP以及不同网站产生的数据来说,显得无能为力;另一种是基于正则表达式提取全文内容,这种方法适用于离线的、数据量较小的全文提取,一旦面对海量的APP提交数据,效率比较低。因此这两种方法在大数据量情况下,会耗费大量人力,而且效率低下,在大数据量情况下已经不能满足需要。
技术实现思路
本专利技术提供一种全文数据的提取方法和装置,以实现提高海量数据的全文数据提取效率。第一方面,本专利技术实施例提供了一种全文数据的提取方法,包括:将网络封包数据解析为会话数据;判断所述会话数据的实体部分是否符合预设数据格式,若是则对所述会话数据进行数据格式标注;对符合预设数据格式的会话数据进行多模匹配,判断是否命中预设特征串,并在命中预设特征串时获得预设特征串的命中位置;根据所述会话数据的数据格式标注以及所述预设特征串的命中位置,确定所述会话数据的对应的提取函数,并根据所述提取函数对所述会话数据进行数据提取。第二方面,本专利技术实施例还提供了一种全文数据的提取装置,包括:解析模块,用于将网络封包数据解析为会话数据;标注模块,用于判断所述会话数据的实体部分是否符合预设数据格式,若是则对所述会话数据进行数据格式标注;多模匹配模块,用于对符合预设数据格式的会话数据进行多模匹配,判断是否命中预设特征串,并在命中预设特征串时获得预设特征串的命中位置;数据提取模块,用于根据所述会话数据的数据格式标注以及所述预设特征串的命中位置,确定所述会话数据的对应的提取函数,并根据所述提取函数对所述会话数据进行数据提取。本专利技术通过对解析后的会话数据进行预设数据格式的判断,可以将不符合预设数据格式的无效数据滤除,因此缩短了数据提取时间,此外,通过对符合预设数据格式的会话数据进行多模匹配,进一步减少了提取数据过程中的查找匹配时间,提高了海量数据的全文数据提取效率。【附图说明】图1为本专利技术实施例一提供的一种全文数据的提取方法的流程示意图;图2为本专利技术实施例二提供的一种全文数据的提取方法的流程示意图;图3为本专利技术实施例三提供的一种全文数据的提取装置;图4是本专利技术实施例三提供的全文数据提取的拓扑结构示意图。【具体实施方式】下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种全文数据的提取方法的流程示意图,该方法可以由全文数据的提取装置来执行,该装置可以通过硬件和/或软件的方式实现,具体的所述方法包括如下操作:S110、将网络封包数据解析为会话数据。本实施例提供的方法可适用于多种协议通信的数据提取,下面以超文本传输协议(HyperText Transfer Protocol,HTTP)数据为例进行详细说明。首先将从数据源获取的网络封包数据解析为文本格式的会话数据。对于HTTP协议数据,采用HTTP协议栈解析为HTTPP0ST会话数据。解析后的会话数据包括HTTP头部和HTTP实体部分。按照HTTP协议桟解析还原成HTTPP0ST会话数据,需要先建传输控制协议(Transmiss1n ControlProtocol, TCP)流,然后再按HTTP会话解析,例如利用开源软件snort实现此种功能。S120、判断所述会话数据的实体部分是否符合预设数据格式,若是则对所述会话数据进行数据格式标注。将网络封包数据解析为会话数据后,对所述会话数据的实体部分进行识别,判断所述会话数据的实体部分是否符合预设数据格式。所述预设数据格式可根据需要个性化设置。一般情况下,根据需要选择预设数据格式,需要提取的数据一般仅包含在预设数据格式中,该操作,可以将不符合预设数据格式的会话数据滤除。因此可以避免对无效数据进行提取,节约了数据提取时间。当所述会话数据的实体部分符合预设数据格式时,对所述会话数据进行数据格式标注,以标识所述会话数据属于哪种预设数据格式。S130、对符合预设数据格式的会话数据进行多模匹配,判断是否命中预设特征串,并在命中预设特征串时获得预设特征串的命中位置。其中预设特征串可以通过配置文件管理,所述预设特征串的数量大于或者等于1。所述预设特征串例如可以是“phone number” (电话号码)、“MAC” (硬件地址)、和“mac”等。可选的,在对符合预设数据格式的会话数据进行多模匹配,判断是否命中预设特征串,并在命中预设特征串时获得预设特征串的命中位置之前,还包括:通过配置文件管理所述预设特征串。通过配置文件管理预设特征串,可以灵活的添加、删除,本专利技术中所用的多模匹配算法例如可以是AC算法,还可以使用其他开源算法。通过读取配置文件获得预设特征串,再进行多模匹配算法状态树的生成,从而最终实现后续的多模匹配操作。S140、根据所述会话数据的数据格式标注以及所述预设特征串的命中位置,确定所述会话数据的对应的提取函数,并根据所述提取函数对所述会话数据进行数据提取。本专利技术针对不同数据格式提炼出一一对应的提取函数。根据所述会话数据的数据格式标注以及所述预设特征串的命中位置,确定所述会话数据的对应的提取函数,然后利用所述会话数据对应的提取函数进行数据提取。本专利技术实施例通过对解析后的会话数据进行预设数据格式的判断,可以将不符合预设数据格式的无效数据滤除,因此缩短了数据提取时间,此外,通过对符合预设数据格式的会话数据进行多模匹配,进一步减少了提取数据过程中的查找匹配时间,提高了海量数据的全文数据提取效率。本专利技术实施例提供的数据提取方法不但适用于特定网站、离线的数据提取,更适用于不指定网站、大流量的数据提取,单个处理线程每秒可以处理多达10000个有效HTTP会话,达到了海量提取全文数据的目的。实施例二图2为本专利技术实施例二提供的一种全文数据的提取方法的流程示意图,如图2所示,所述方法包括:S210、将网络封包数据解析为会话数据。S220、判断所述会话数据的实体部分是否符合预设数据格式。若是,则依次执行操作S230和S250,否则返回依次执行操作S240和S220。S230、对所述会话数据进行数据格式标注。S240、将后续网络封包数据解析为会话数据。S250、对符合预设数据格式的会话数据进行多模匹配,判断是否命中预设特征串。在命中预设特征串时,依次执行操作S260、S270、S280和S290,否则返回依次执行操作S240和S220。S260、获得预设特征串的命中位置,以及命本文档来自技高网...

【技术保护点】
一种全文数据的提取方法,其特征在于,包括:将网络封包数据解析为会话数据;判断所述会话数据的实体部分是否符合预设数据格式,若是则对所述会话数据进行数据格式标注;对符合预设数据格式的会话数据进行多模匹配,判断是否命中预设特征串,并在命中预设特征串时获得预设特征串的命中位置;根据所述会话数据的数据格式标注以及所述预设特征串的命中位置,确定所述会话数据的对应的提取函数,并根据所述提取函数对所述会话数据进行数据提取。

【技术特征摘要】

【专利技术属性】
技术研发人员:冯建业
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1