一种海量数据处理方法及系统技术方案

技术编号:15542275 阅读:45 留言:0更新日期:2017-06-05 11:17
本发明专利技术公开了一种海量数据处理方法及系统,该方法包括:获取用户输入的关键词;根据预设的编码方式对所述关键词编码后得到对应的第一数据;获取海量数据;对所述海量数据按照对应的解码方式解码后得到对应的第二数据;根据所述编码方式与对应的解码方式匹配所述第一数据和第二数据,并输出匹配结果。基于上述方法及系统,通过实现数据处理工作的自动化,可以高效的从海量数据中提取到各种经过处理的有价值信息,完成大量的重复检索分析工作,保证了分析质量并能够吸纳分析经验,不断提高分析的准确性,弥补了不同水平人员的分析知识盲区和差异。

Mass data processing method and system

The invention discloses a method for massive data processing and system, the method comprises: acquiring a keyword input by the user; the first data according to the preset encoding method to obtain the corresponding keywords encoding; mass data acquisition; the data in accordance with the corresponding solution code decoding is second according to the corresponding data; the encoding and decoding mode corresponding to the matching of the first data and second data, and output matching results. Based on the above method and system, through automation data processing, can be efficiently extracted from large amounts of data to a variety of processed valuable information, complete the analysis work to ensure the retrieval of a large number of repeat, and can absorb the experience analysis of the quality of analysis, improve the accuracy of the analysis, to make up for the analysis of knowledge blind and different levels personnel.

【技术实现步骤摘要】
一种海量数据处理方法及系统
本专利技术实施例涉及自动化
,尤其涉及一种海量数据处理方法及系统。
技术介绍
我们日常工作环境中存在大量历史积累的网络数据包,实际网络环境中存在大量实时网络数据流,这些数据中随时会出现我们想要的信息。如何高效提取这些信息以及这些信息的上下文成为很多人迫切的需求,而且这些信息可能以各种形式存在原始报文中,比如以unicode+base64编码、然后经过zlib压缩,比如经过md5加密,要想从海量数据中检测到这些信息及其上下文,就需要进行协议解析。而协议数据分析工作是协议解析的基础,协议分析是否全面、深入直接影响了协议解析的质量。现有的全人工的协议分析工作方式存在量大重复效率低、人员的频繁更替无法保证分析质量、分析经验无法有效积累并传承等问题。
技术实现思路
本专利技术提供一种海量数据处理的方法及系统,以实现数据处理工作的自动化。为达到此目的,本专利技术实施例采用以下技术方案:一种海量数据处理方法,包括:获取用户输入的关键词;根据预设的编码方式对所述关键词编码后得到对应的第一数据;获取海量数据;对所述海量数据按照对应的解码方式解码后得到对应的第二数据;根据所本文档来自技高网...
一种海量数据处理方法及系统

【技术保护点】
一种海量数据处理方法,其特征在于,包括:获取用户输入的关键词;根据预设的编码方式对所述关键词编码后得到对应的第一数据;获取海量数据;对所述海量数据按照对应的解码方式解码后得到对应的第二数据;根据所述编码方式与对应的解码方式匹配所述第一数据和第二数据,并输出匹配结果。

【技术特征摘要】
1.一种海量数据处理方法,其特征在于,包括:获取用户输入的关键词;根据预设的编码方式对所述关键词编码后得到对应的第一数据;获取海量数据;对所述海量数据按照对应的解码方式解码后得到对应的第二数据;根据所述编码方式与对应的解码方式匹配所述第一数据和第二数据,并输出匹配结果。2.根据权利要求1所述的方法,其特征在于,还包括:将所述匹配结果进行关联分析,得到含关联信息的匹配结果;将所述含关联信息的匹配结果根据数据上传格式和/或数据下载格式输出成相关格式文件。3.根据权利要求1所述的方法,其特征在于,在对所述海量数据按照对应的解码方式解码后得到对应的第二数据之前,还包括:将所述海量数据按各自协议格式解析到tcp、udp层并存储。4.根据权利要求3所述的方法,其特征在于,在对所述海量数据按照对应的解码方式解码后得到对应的第二数据之前,还包括:将解析后的数据按流进行流量统计和应用协议识别。5.根据权利要求1所述的方法,其特征在于,还包括:通过学习以往的模板编写经验,对每个匹配结果进行统计排名,从一个关键字的多个匹配结果中选择统计排名靠前的几个。6.一种海量数据处理系统,其特征在于,包括:关键词获取模块,用于获取用户输入的关键词;关键词...

【专利技术属性】
技术研发人员:朱立业
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1