一种数据处理方法及系统技术方案

技术编号:20992501 阅读:24 留言:0更新日期:2019-04-29 22:30
本发明专利技术实施例提供一种数据处理方法及系统,用以解决现有技术中的在对大并发下海量日志数据进行存储时,存储资源的消耗较大的技术问题。其中,方法包括获取多个业务日志文件;其中,每个业务日志文件包括多个业务日志数据,每个业务日志数据包括用于表征业务操作的词项及词项特征信息;对多个业务日志文件进行分析,建立映射文件,映射文件用于指示每个业务日志文件所包括的多个业务日志数据中每个业务日志数据的词项与词项特征信息之间的映射关系;基于映射文件对每个业务日志数据进行数据重组,获得并存储待存储文件数据集合;其中,待存储文件数据集合中的每条文件数据的词项个数小于等于每个业务日志数据的词项个数。

A Data Processing Method and System

The embodiment of the present invention provides a data processing method and system to solve the technical problem of high consumption of storage resources in the prior art when storing massive log data in large concurrency. Among them, the method includes acquiring multiple business log files, in which each business log file includes multiple business log data, each business log data includes term and term feature information used to characterize business operations, analyzing multiple business log files, establishing mapping files, and using mapping files to indicate multiple business log files included in each business log file. The mapping relationship between terms and term feature information of each business log data in the data; data reorganization of each business log data based on mapping file to obtain and store the data set of files to be stored; in which, the number of terms in each file data set to be stored is less than or equal to the number of terms in each business log data.

【技术实现步骤摘要】
一种数据处理方法及系统
本专利技术涉及计算机
,尤其涉及一种数据处理方法及系统。
技术介绍
在现今的业务支撑领域,众多运营中的业务支撑系统,如客户关系管理(CustomerRelationshipManagement,CRM)、业务运营支撑系统(BusinessOperationSupportSystem,BOSS)、经营分析支撑系统(BusinessAnalysisSupportSystem,BASS)等系统,随着业务支撑系统在线上的持续运营,以及业务量的不断增加,业务日志数据慢慢的累积起来,这些海量的数据包含着丰富的信息,对这些信息的提取与分析是运营人员实现对该系统的高效运营与管控的重要保证。传统使用关系型数据库存储业务日志,在系统的业务量或者并发量不大的情况下可以较好的完成对数据的存储与检索;而在面对海量数据或者高并发情况时,不少的系统集成商在积极的探索海量日志数据集中化存储与高可用搜索方案。目前,主流的日志集中化存储架构模式,通常使用日志集中存储与搜索(ElasticsearchLogstashKibanastack,ELK)协议栈组件来搭建日志存储系统。围绕着ELKstack协议栈,常用的海量日志存储与搜索方案包括基于ELK日志存储与搜索方案、基于ELK+文件搜集Filebeat存储与搜索方案,以及引入消息队列的ELK+Filebeat日志存储与搜索方案。上述三种目前常见的海量日志存储与搜索方案,经过分析与实践,在大并发下,存储海量日志时会体现出如下的弊端:1、在基于ELK日志存储与搜索方案中,日志数据收集需要在服务器端,安装文件监控与传输Logstash-forwarder。然而,经过实践发现,该组件对服务器端存储资源的消耗较大,在系统高并发的情况下,会导致系统资源利用率过高,对应用服务器的存储性能造成较大的影响。2、基于ELK+Filebeat存储与搜索方案,虽然是对服务器日志收集端高性能消耗做了较大的优化,但由于日志存储Logstash在接受这些海量数据时候,由于需要遍历每条数据,对其进行过滤与格式化,需要一定的计算与存储资源的消耗,因此会导致在高并发下大量的日志数据堆积在Logstash服务器,使得系统性能消耗较大且造成系统吞吐量不高。3、引入消息队列的ELK+Filebeat日志存储与搜索方案,虽然克服了方案2关于Logstash端不能高效处理并分析大并发下的海量数据而导致的数据堆积的缺陷,但是,由于Logstash端需要对每条日志数据进行过滤与格式化分析,Logstash的filter插件对这些数据进行解析会消耗计算资源,虽然可以通过增加机器性能以及处理的线程数来缓解系统压力,但是随着系统并发量的增加,存储资源消耗较大的缺陷很快就显现出来。综上可知,现有技术中大都采用增加硬件资源,或者对组件参数进行调优来实现大并发下海量日志数据的存储,均不能从根源上解决在对大并发下海量日志数据进行存储时,存储资源的消耗较大的技术问题。
技术实现思路
本专利技术实施例提供一种数据处理方法及系统,用以解决现有技术在对大并发下海量日志数据进行存储时,存储资源的消耗较大的技术问题。第一方面,本专利技术实施例提供一种数据处理方法,包括:获取多个业务日志文件;其中,每个业务日志文件包括多个业务日志数据,每个业务日志数据包括用于表征业务操作的词项及词项特征信息;对所述多个业务日志文件进行分析,建立映射文件,所述映射文件用于指示每个业务日志文件所包括的多个业务日志数据中每个业务日志数据的词项与词项特征信息之间的映射关系;基于所述映射文件对所述每个业务日志数据进行数据重组,获得并存储待存储文件数据集合;其中,所述待存储文件数据集合中的每条文件数据的词项个数小于等于所述每个业务日志数据的词项个数。在一种可能的实现方式中,所述对所述多个业务日志文件进行分析,建立映射文件,包括:基于所述词项及所述词项特征信息,对每个业务日志数据进行词项分割,获得索引文件与文档文件;其中,所述索引文件包括词项集合和所述词项集合中每个词项对应的索引ID子集合,所述文档文件包括所述每个词项对应的词项特征信息,所述词项特征信息包括索引自增ID,所述索引ID子集合中的任一索引ID与所述索引自增ID对应;基于所述索引文件和所述文档文件,建立映射文件。在一种可能的实现方式中,所述基于所述映射文件对所述每个业务日志数据进行数据重组,获得待存储文件数据集合,包括:基于所述索引文件与所述文档文件之间的关联关系对所述每个业务日志数据进行重组,获得待存储文件数据集合。在一种可能的实现方式中,所述存储待存储文件数据集合,包括:将所述待存储文件数据集合分别存储在弹性搜索集群的至少两个节点中。在一种可能的实现方式中,在对所述待存储文件数据集合进行存储之后,所述方法还包括:接收用户终端发送的搜索指令,并获取所述搜索指令中包括的至少一个查询词项;确定所述待存储文件数据集合中与所述至少一个查询词项对应的目标文件数据;向所述用户终端发送所述目标文件数据。在一种可能的实现方式中,所述确定所述待存储文件数据集合中与所述至少一个查询词项对应的目标文件数据,包括:获取所述搜索指令中的至少一个查询词项,建立主节点与所述用户终端之间的通信连接;判断所述主节点中是否存在与所述至少一个查询词项对应的目标文件数据;若存在,则确定所述目标文件数据;否则,从至少一个从节点上确定所述目标文件数据;其中,所述至少一个从节点为所述至少两个节点中的节点。在一种可能的实现方式中,所述建立主节点与所述用户终端之间的通信连接,包括:判断预设时间段内所述主节点与所述用户终端之间的通信连接是否建立成功;若确定所述预设时间段内,所述主节点与所述用户终端之间的通信连接未建立成功,则按照预设规则确定所述至少一个从节点中一个从节点为主节点;将新确定的所述主节点与所述用户终端建立通信连接。第二方面,本专利技术实施例提供一种数据处理系统,包括:数据源模块,用于获取多个业务日志文件;其中,每个业务日志文件包括多个业务日志数据,每个业务日志数据包括用于表征业务操作的词项及词项特征信息;文件数据压缩模块,用于对所述多个业务日志文件进行分析,建立映射文件,所述映射文件用于指示每个业务日志文件所包括的多个业务日志数据中每个业务日志数据的词项与词项特征信息之间的映射关系;文件数据恢复模块,用于基于所述映射文件对所述每个业务日志数据进行数据重组,获得并存储待存储文件数据集合;其中,所述待存储文件数据集合中的每条文件数据的词项个数小于等于所述每个业务日志数据的词项个数。在一种可能的实现方式中,所述文件数据压缩模块具体用于:基于所述词项及所述词项特征信息,对每个业务日志数据进行词项分割,获得索引文件与文档文件;其中,所述索引文件包括词项集合和所述词项集合中每个词项对应的索引ID子集合,所述文档文件包括所述每个词项对应的词项特征信息,所述词项特征信息包括索引自增ID,所述索引ID子集合中的任一索引ID与所述索引自增ID对应;基于所述索引文件和所述文档文件,建立映射文件。在一种可能的实现方式中,所述文件数据恢复模块具体用于:基于所述索引文件与所述文档文件之间的关联关系对所述每个业务日志数据进行重组,获得待存储文件数据集合。在一种可能的实现方式中本文档来自技高网
...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:获取多个业务日志文件;其中,每个业务日志文件包括多个业务日志数据,每个业务日志数据包括用于表征业务操作的词项及词项特征信息;对所述多个业务日志文件进行分析,建立映射文件,所述映射文件用于指示每个业务日志文件所包括的多个业务日志数据中每个业务日志数据的词项与词项特征信息之间的映射关系;基于所述映射文件对所述每个业务日志数据进行数据重组,获得并存储待存储文件数据集合;其中,所述待存储文件数据集合中的每条文件数据的词项个数小于等于所述每个业务日志数据的词项个数。

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取多个业务日志文件;其中,每个业务日志文件包括多个业务日志数据,每个业务日志数据包括用于表征业务操作的词项及词项特征信息;对所述多个业务日志文件进行分析,建立映射文件,所述映射文件用于指示每个业务日志文件所包括的多个业务日志数据中每个业务日志数据的词项与词项特征信息之间的映射关系;基于所述映射文件对所述每个业务日志数据进行数据重组,获得并存储待存储文件数据集合;其中,所述待存储文件数据集合中的每条文件数据的词项个数小于等于所述每个业务日志数据的词项个数。2.如权利要求1所述的方法,其特征在于,所述对所述多个业务日志文件进行分析,建立映射文件,包括:基于所述词项及所述词项特征信息,对每个业务日志数据进行词项分割,获得索引文件与文档文件;其中,所述索引文件包括词项集合和所述词项集合中每个词项对应的索引ID子集合,所述文档文件包括所述每个词项对应的词项特征信息,所述词项特征信息包括索引自增ID,所述索引ID子集合中的任一索引ID与所述索引自增ID对应;基于所述索引文件和所述文档文件,建立映射文件。3.如权利要求1或2所述的方法,其特征在于,所述基于所述映射文件对所述每个业务日志数据进行数据重组,获得待存储文件数据集合,包括:基于所述索引文件与所述文档文件之间的关联关系对所述每个业务日志数据进行重组,获得待存储文件数据集合。4.如权利要求3所述的方法,其特征在于,所述存储待存储文件数据集合,包括:将所述待存储文件数据集合分别存储在弹性搜索集群的至少两个节点中。5.如权利要求4所述的方法,其特征在于,在对所述待存储文件数据集合进行存储之后,所述方法还包括:接收用户终端发送的搜索指令,并获取所述搜索指令中包括的至少一个查询词项;确定所述待存储文件数据集合中与所述至少一个查询词项对应的目标文件数据;向所述用户终端发送所述目标文件数据。6.如权利要求5所述的方法,其特征在于,所述确定所述待存储文件数据集合中...

【专利技术属性】
技术研发人员:邓杰
申请(专利权)人:中移苏州软件技术有限公司中国移动通信集团公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1