The embodiment of the present invention provides a data processing method and system to solve the technical problem of high consumption of storage resources in the prior art when storing massive log data in large concurrency. Among them, the method includes acquiring multiple business log files, in which each business log file includes multiple business log data, each business log data includes term and term feature information used to characterize business operations, analyzing multiple business log files, establishing mapping files, and using mapping files to indicate multiple business log files included in each business log file. The mapping relationship between terms and term feature information of each business log data in the data; data reorganization of each business log data based on mapping file to obtain and store the data set of files to be stored; in which, the number of terms in each file data set to be stored is less than or equal to the number of terms in each business log data.
【技术实现步骤摘要】
一种数据处理方法及系统
本专利技术涉及计算机
,尤其涉及一种数据处理方法及系统。
技术介绍
在现今的业务支撑领域,众多运营中的业务支撑系统,如客户关系管理(CustomerRelationshipManagement,CRM)、业务运营支撑系统(BusinessOperationSupportSystem,BOSS)、经营分析支撑系统(BusinessAnalysisSupportSystem,BASS)等系统,随着业务支撑系统在线上的持续运营,以及业务量的不断增加,业务日志数据慢慢的累积起来,这些海量的数据包含着丰富的信息,对这些信息的提取与分析是运营人员实现对该系统的高效运营与管控的重要保证。传统使用关系型数据库存储业务日志,在系统的业务量或者并发量不大的情况下可以较好的完成对数据的存储与检索;而在面对海量数据或者高并发情况时,不少的系统集成商在积极的探索海量日志数据集中化存储与高可用搜索方案。目前,主流的日志集中化存储架构模式,通常使用日志集中存储与搜索(ElasticsearchLogstashKibanastack,ELK)协议栈组件来搭建日志存储系统。围绕着ELKstack协议栈,常用的海量日志存储与搜索方案包括基于ELK日志存储与搜索方案、基于ELK+文件搜集Filebeat存储与搜索方案,以及引入消息队列的ELK+Filebeat日志存储与搜索方案。上述三种目前常见的海量日志存储与搜索方案,经过分析与实践,在大并发下,存储海量日志时会体现出如下的弊端:1、在基于ELK日志存储与搜索方案中,日志数据收集需要在服务器端,安装文件监控与传输 ...
【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:获取多个业务日志文件;其中,每个业务日志文件包括多个业务日志数据,每个业务日志数据包括用于表征业务操作的词项及词项特征信息;对所述多个业务日志文件进行分析,建立映射文件,所述映射文件用于指示每个业务日志文件所包括的多个业务日志数据中每个业务日志数据的词项与词项特征信息之间的映射关系;基于所述映射文件对所述每个业务日志数据进行数据重组,获得并存储待存储文件数据集合;其中,所述待存储文件数据集合中的每条文件数据的词项个数小于等于所述每个业务日志数据的词项个数。
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取多个业务日志文件;其中,每个业务日志文件包括多个业务日志数据,每个业务日志数据包括用于表征业务操作的词项及词项特征信息;对所述多个业务日志文件进行分析,建立映射文件,所述映射文件用于指示每个业务日志文件所包括的多个业务日志数据中每个业务日志数据的词项与词项特征信息之间的映射关系;基于所述映射文件对所述每个业务日志数据进行数据重组,获得并存储待存储文件数据集合;其中,所述待存储文件数据集合中的每条文件数据的词项个数小于等于所述每个业务日志数据的词项个数。2.如权利要求1所述的方法,其特征在于,所述对所述多个业务日志文件进行分析,建立映射文件,包括:基于所述词项及所述词项特征信息,对每个业务日志数据进行词项分割,获得索引文件与文档文件;其中,所述索引文件包括词项集合和所述词项集合中每个词项对应的索引ID子集合,所述文档文件包括所述每个词项对应的词项特征信息,所述词项特征信息包括索引自增ID,所述索引ID子集合中的任一索引ID与所述索引自增ID对应;基于所述索引文件和所述文档文件,建立映射文件。3.如权利要求1或2所述的方法,其特征在于,所述基于所述映射文件对所述每个业务日志数据进行数据重组,获得待存储文件数据集合,包括:基于所述索引文件与所述文档文件之间的关联关系对所述每个业务日志数据进行重组,获得待存储文件数据集合。4.如权利要求3所述的方法,其特征在于,所述存储待存储文件数据集合,包括:将所述待存储文件数据集合分别存储在弹性搜索集群的至少两个节点中。5.如权利要求4所述的方法,其特征在于,在对所述待存储文件数据集合进行存储之后,所述方法还包括:接收用户终端发送的搜索指令,并获取所述搜索指令中包括的至少一个查询词项;确定所述待存储文件数据集合中与所述至少一个查询词项对应的目标文件数据;向所述用户终端发送所述目标文件数据。6.如权利要求5所述的方法,其特征在于,所述确定所述待存储文件数据集合中...
【专利技术属性】
技术研发人员:邓杰,
申请(专利权)人:中移苏州软件技术有限公司,中国移动通信集团公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。