一种全文数据的提取方法和装置制造方法及图纸

技术编号：12812299 阅读：89 留言：0更新日期：2016-02-05 11:45

本发明专利技术公开了一种全文数据的提取方法和装置，所述方法包括：将网络封包数据解析为会话数据；判断所述会话数据的实体部分是否符合预设数据格式，若是则对所述会话数据进行数据格式标注；对符合预设数据格式的会话数据进行多模匹配，判断是否命中预设特征串，并在命中预设特征串时获得预设特征串的命中位置；根据所述会话数据的数据格式标注以及所述预设特征串的命中位置，确定所述会话数据的对应的提取函数，并根据所述提取函数对所述会话数据进行数据提取，本发明专利技术实现了提高海量数据的全文数据提取效率的技术效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及移动及大数据处理
，尤其涉及一种全文数据的提取方法和装置。
技术介绍
互联网的高速发展，使数据已经渗透到每一个行业和业务职能领域，逐渐成为重要的生产因素，伴随而来的是人类可以分析和处理的海量数据。在中型以上的城市如北京、上海，每天在网络行为中产生的各类数据已经超过PBS。例如手机应用程序(Applicat1n,APP)每天会有数TB的提交数据产生，这些数据中含有经玮度、手机串号、用户身份识别卡卡号、手机唯一识别码等信息，而这些信息在安全监管行业非常有用，因此海量提取这些信息成为一个重要且复杂的工作。传统的全文提取方法主要有两种:一种是基于模板的提取方法，这种方法适用于特定网站的信息提取，但是对于多变的手机APP以及不同网站产生的数据来说，显得无能为力；另一种是基于正则表达式提取全文内容，这种方法适用于离线的、数据量较小的全文提取，一旦面对海量的APP提交数据，效率比较低。因此这两种方法在大数据量情况下，会耗费大量人力，而且效率低下，在大数据量情况下已经不能满足需要。
技术实现思路
本专利技术提供一种全文数据的提取方法和装置，以实现提高海量数据的全文数据提取效率。第一方面，本专利技术实施例提供了一种全文数据的提取方法，包括:将网络封包数据解析为会话数据；判断所述会话数据的实体部分是否符合预设数据格式，若是则对所述会话数据进行数据格式标注；对符合预设数据格式的会话数据进行多模匹配，判断是否命中预设特征串，并在命中预设特征串时获得预设特征串的命中位置；根据所述会话数据的数据格式标注以及所述预设特征串的命中位置，确定所述会话数据...

【技术保护点】
一种全文数据的提取方法，其特征在于，包括：将网络封包数据解析为会话数据；判断所述会话数据的实体部分是否符合预设数据格式，若是则对所述会话数据进行数据格式标注；对符合预设数据格式的会话数据进行多模匹配，判断是否命中预设特征串，并在命中预设特征串时获得预设特征串的命中位置；根据所述会话数据的数据格式标注以及所述预设特征串的命中位置，确定所述会话数据的对应的提取函数，并根据所述提取函数对所述会话数据进行数据提取。

【技术特征摘要】

【专利技术属性】
技术研发人员：冯建业，
申请(专利权)人：北京锐安科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人