数据处理系统及方法技术方案

技术编号:19747197 阅读:23 留言:0更新日期:2018-12-12 05:04
本发明专利技术提供了一种数据处理系统及方法,该系统包括分布式调度器、数据处理设备以及具有多个预置数据库的存储组件,其中,分布式调度器,适于获取待处理的离线日志,从离线日志中提取日志元数据,将离线日志和日志元数据传送至数据处理设备中;数据处理设备,适于将接收到的离线日志进行归类合并生成相应的虚拟表,并对日志元数据进行统计得到相应的统计信息;数据处理设备,还适于将虚拟表和统计信息存储至包含有多个预置数据库的存储组件中。本发明专利技术不仅实现了日志的集中索引,也提高了日志的搜索效率,并且还可以直接获取日志的各个维度特征数据,大大节约了分析人员分析日志的流程。

【技术实现步骤摘要】
数据处理系统及方法
本专利技术涉及计算机
,特别是涉及一种数据处理系统及方法。
技术介绍
海姆达尔是一个具有完全自主知识产权的海量数据挖掘与分析系统,该系统可以实现对海量数据的挖掘和处理,并提供方便易用的工具供数据分挖掘人员和运营分析人员使用。但是,目前分析人员采用该系统在查询文件时,查找到的是文件通常是原始日志,因此还需要对原始日志进行再次加工、处理、分析等,这无疑会增加分析人员的工作量,不利于提高分析人员的工作效率。因此,如何能够在海姆达尔系统中直接实现原始日志的进一步抽取、细化,比如在系统中可以直接体现出文件是在什么时候上传的、哪些人上传、第一次在什么时候出现等等信息,则是非常有必要解决的一个重要技术问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理系统及方法。依据本专利技术的一方面,提供了一种数据处理系统,包括分布式调度器、数据处理设备以及具有多个预置数据库的存储组件,其中,所述分布式调度器,适于获取待处理的离线日志,从所述离线日志中提取日志元数据,将所述离线日志和日志元数据传送至所述数据处理设备中;所述数据处理设备,适于将接收到的离线日志进行归类合并生成相应的虚拟表,并对所述日志元数据进行统计得到相应的统计信息;所述数据处理设备,还适于将所述虚拟表和统计信息存储至包含有多个预置数据库的存储组件中。可选地,所述分布式调度器还适于:从存储有多个离线日志的文件系统中获取待处理的离线日志;基于MapReduce模型并采用Spark引擎从所述离线日志中提取日志元数据。可选地,所述文件系统中预先存储的多个离线日志包括以下至少之一:客户端访问服务端的行为所产生的日志、样本回扫行为产生的日志。可选地,所述数据处理设备还适于:若所述存储组件中的多个预置数据库包括mysql数据库和具备快速检索功能的poseidon数据库,则将所述虚拟表存储至poseidon数据库中,以及将所述统计信息存储至所述mysql数据库中。可选地,所述日志元数据的内容包括以下至少之一:日志产生时间、用户标识信息、日志类型。可选地,所述数据处理设备还适于:将接收到的离线日志依据所述日志元数据内容中的至少一种进行归类合并生成相应的虚拟表。可选地,所述数据处理设备还适于:对接收到的离线日志按照预设规则进行聚合计算,得到特定格式的日志;对所述特定格式的日志归类合并生成对应的虚拟表。可选地,所述预设规则包括:所述数据处理设备按照预设时间间隔对接收到的离线日志进行聚合计算,得到特定格式的日志。可选地,所述存储组件中还包括builder集群,适于:读取将所述特定格式的日志转换为其他格式日志的转换指令,根据读取到的转换指令对所述特定格式的日志进行格式转换;将格式转换后的日志存储至所述存储组件中的预置数据库中。可选地,所述数据处理设备还适于:若所述存储组件中的多个预置数据库包括quick_table数据库,则将格式转换后的日志存储至所述存储组件中的quick_table数据库中。可选地,所述系统还包括:实时日志处理设备和日志特征提取设备,其中,所述实时日志处理设备,适于从用户查询服务的查询结果中提取产生的日志,将提取的日志传送至所述日志特征提取设备中;所述日志特征提取设备,适于从提取的日志中解析出对应的日志特征数据,并将所述日志和日志特征数据存储至所述存储组件中支持实时存储的预置数据库中。可选地,所述实时日志处理设备,还适于从用户查询服务的查询结果中提取产生的日志后,根据预设处理规则将所述日志发送至预先创建的nsq消息队列中;所述日志特征提取设备,还适于从所述nsq消息队列中消费日志,并解析出对应的日志特征数据,将所述日志和日志特征数据存储至所述存储组件中支持实时存储的预置数据库中。可选地,所述查询服务包括以下至少之一:在线杀毒、url查询、样本上传、dns查询。可选地,所述系统还包括检索设备,适于:接收分析人员通过预先建立的web平台发出的查询请求;根据所述查询请求从所述存储组件中获取存储的日志相关信息,其中,所述日志相关信息包括:日志内容和/或日志元数据;将获取到的日志相关信息反馈至web平台,由所述web平台对获取的日志相关信息进行可视化展示。依据本专利技术另一方面,还提供了一种数据处理方法,包括:获取待处理的离线日志,从所述离线日志中提取日志元数据;将所述离线日志进行归类合并生成相应的虚拟表,并对所述日志元数据进行统计得到相应的统计信息;将所述虚拟表和统计信息存储至包含有多个预置数据库的存储组件中。可选地,所述获取待处理的离线日志,从所述离线日志中提取日志元数据,包括:从存储有多个离线日志的文件系统中获取待处理的离线日志;基于MapReduce模型并采用Spark引擎从所述离线日志中提取日志元数据。可选地,所述文件系统中预先存储的多个离线日志包括以下至少之一:客户端访问服务端的行为所产生的日志、样本回扫行为产生的日志。可选地,若所述存储组件中的多个预置数据库包括mysql数据库和具备快速检索功能的poseidon数据库,则将所述虚拟表和统计信息存储至包含有多个预置数据库的存储组件中,包括:将所述虚拟表存储至poseidon数据库中,以及将所述统计信息存储至所述mysql数据库中。可选地,所述日志元数据的内容包括以下至少之一:日志产生时间、用户标识信息、日志类型。可选地,所述将所述离线日志进行归类合并生成相应的虚拟表,包括:将接收到的离线日志依据所述日志元数据内容中的至少一种进行归类合并生成相应的虚拟表。可选地,所述将接收到的离线日志进行归类合并生成相应的虚拟表,包括:对接收到的离线日志按照预设规则进行聚合计算,得到特定格式的日志;对所述特定格式的日志归类合并生成对应的虚拟表。可选地,所述预设规则包括:所述数据处理设备按照预设时间间隔对接收到的离线日志进行聚合计算,得到特定格式的日志。可选地,所述方法还包括:读取将所述特定格式的日志转换为其他格式日志的转换指令,根据读取到的转换指令对所述特定格式的日志进行格式转换;将格式转换后的日志存储至所述存储组件中的预置数据库中。可选地,所述将格式转换后的日志存储至所述存储组件中的预置数据库中,包括:若所述存储组件中的多个预置数据库包括quick_table数据库,则将格式转换后的日志存储至所述存储组件中的quick_table数据库中。可选地,所述方法还包括:从用户查询服务的查询结果中提取产生的日志;从提取的日志中解析出对应的日志特征数据,并将所述日志和日志特征数据存储至所述存储组件中支持实时存储的预置数据库中。可选地,从用户查询服务的查询结果中提取产生的日志后,还包括:根据预设处理规则将所述日志发送至预先创建的nsq消息队列中;从所述nsq消息队列中消费日志,并解析出对应的日志特征数据,将所述日志和日志特征数据存储至所述存储组件中支持实时存储的预置数据库中。可选地,所述查询服务包括以下至少之一:在线杀毒、url查询、样本上传、dns查询。可选地,所述方法还包括:接收分析人员通过预先建立的web平台发出的查询请求;根据所述查询请求从所述存储组件中获取存储的日志相关信息,其中,所述日志相关信息包括:日志内容和/或日志元数据;将获取到的日志相关信息反馈本文档来自技高网...

【技术保护点】
1.一种数据处理系统,包括分布式调度器、数据处理设备以及具有多个预置数据库的存储组件,其中,所述分布式调度器,适于获取待处理的离线日志,从所述离线日志中提取日志元数据,将所述离线日志和日志元数据传送至所述数据处理设备中;所述数据处理设备,适于将接收到的离线日志进行归类合并生成相应的虚拟表,并对所述日志元数据进行统计得到相应的统计信息;所述数据处理设备,还适于将所述虚拟表和统计信息存储至包含有多个预置数据库的存储组件中。

【技术特征摘要】
1.一种数据处理系统,包括分布式调度器、数据处理设备以及具有多个预置数据库的存储组件,其中,所述分布式调度器,适于获取待处理的离线日志,从所述离线日志中提取日志元数据,将所述离线日志和日志元数据传送至所述数据处理设备中;所述数据处理设备,适于将接收到的离线日志进行归类合并生成相应的虚拟表,并对所述日志元数据进行统计得到相应的统计信息;所述数据处理设备,还适于将所述虚拟表和统计信息存储至包含有多个预置数据库的存储组件中。2.根据权利要求1所述的系统,其中,所述分布式调度器还适于:从存储有多个离线日志的文件系统中获取待处理的离线日志;基于MapReduce模型并采用Spark引擎从所述离线日志中提取日志元数据。3.根据权利要求2所述的系统,其中,所述文件系统中预先存储的多个离线日志包括以下至少之一:客户端访问服务端的行为所产生的日志、样本回扫行为产生的日志。4.根据权利要求1-3任一项所述的系统,其中,所述数据处理设备还适于:若所述存储组件中的多个预置数据库包括mysql数据库和具备快速检索功能的poseidon数据库,则将所述虚拟表存储至poseidon数据库中,以及将所述统计信息存储至所述...

【专利技术属性】
技术研发人员:王志超王肖磊杨东高其林李敬轩王旭东刘陟
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1