The invention discloses a method and a system for processing multi stream data. The processing method comprises the following steps: window processing of multiple streams of data stream and the calculation formula based on window window calculation; set data processing based on the obtained results window to obtain semantic semantic structure reorganization, restructuring data flow; calculation formula based on recombinant flow reorganization flow calculation on the semantic structure reorganization of data flow, data processing results. Using this processing method, not only solve the data processing in the long time, the problem of high cost of exception handling, still can not solve the processing calculation problem of multiple data streams, and improves the calculating process of processing massive data streams, so as to meet the user data processing results based on real time exploring the deep information cause or appeal.
【技术实现步骤摘要】
一种多流流式数据的处理方法和系统
本专利技术实施例涉及大数据处理技术,尤其涉及一种多流流式数据的处理方法和系统。
技术介绍
随着时代的进步和经济的发展,人们日常生活中对信息的需求量越来越大,尤其是随着互联网的日益普及,每天都有海量的信息在互联网上发布和传播,对于数据计算和分析的技术人员来说,传统的数据计算分析系统已不能承受对海量数据的计算分析,由此出现了对大规模数据的处理系统。目前,常见的大数据处理技术有两种:一种是将已获取的整体数据集作为输入,然后通过批量分析计算模型进行处理计算,最终输出所需的结果集;另一种是以数据流的形式输入,然后对流形式的数据进行实时的分析计算,并实时获取计算结果。上述两种数据处理技术,尽管可以处理海量数据,但存在一定的不足:针对第一种数据处理技术,存在耗时较长,异常处理成本高等问题,且也不能满足实时性分析计算大数据的要求。针对后一种数据处理方法,尽管能够满足实时性分析,但仅擅长处理单条数据流的计算处理(如对数据流的统计求和计算),却不能很好地支持多条数据流的分析计算(如,多条数据流之间进行计算,或单条数据流进行环比计算等)。综上所述,现有 ...
【技术保护点】
一种多流流式数据的处理方法,其特征在于,包括:对所获取的多流流式数据进行窗口化处理并基于窗口计算公式进行窗口计算;基于设定的数据处理目的,对所得到的窗口计算结果进行语义结构重组,以得到语义结构重组数据流;基于重组流计算公式,对所述语义结构重组数据流进行重组流计算,得到数据处理结果。
【技术特征摘要】
1.一种多流流式数据的处理方法,其特征在于,包括:对所获取的多流流式数据进行窗口化处理并基于窗口计算公式进行窗口计算;基于设定的数据处理目的,对所得到的窗口计算结果进行语义结构重组,以得到语义结构重组数据流;基于重组流计算公式,对所述语义结构重组数据流进行重组流计算,得到数据处理结果。2.根据权利要求1所述的方法,其特征在于,对所获取的多流流式数据进行窗口化处理并基于窗口计算公式进行窗口计算之前,所述方法还包括:基于用户输入的指令,确定所述窗口计算公式、所述重组流计算公式和语义结构。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:将所述语义结构、所述窗口计算公式和所述重组流计算公式存放至任务配置文件中。4.根据权利要求1所述的方法,其特征在于,对所获取的多流流式数据进行窗口化处理包括:基于所获取的多流流式数据的数据属性,将所获取的多流流式数据划分到各个数据计算窗口中;为所述各个数据计算窗口赋予窗口标记,其中被赋予窗口标记的数据计算窗口被设定为拒绝所述数据流中属于所述数据计算窗口的后续数据流入。5.根据权利要求1-4任一项所述的方法,其特征在于,基于窗口计算公式进行窗口计算之后,所述方法还包括:修改第一语义协作元数据的取值,所述第一语义协作元数据的取值用于标识是否触发语义结构重组操作。6.根据权利要求5所述的方法,其特征在于,基于设定的数据处理目的对所得到的窗口计算结果进行语义结构重组,以得到语义结构重组数据流,包括:在所述第一语义协作元数据的取值符合语义结构重组操作的触发条件时,以流形式获取所述窗口计算结果;基于设定的数据处理目的,对所获取的窗口计算结果流进行语义结构重组,以得到重组数据流。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:修改第二语义协作元数据的取值,所述第二语义协作元数据的取值用于标识是否触发重组流计算操作,以及其中,在所述第二语义协作元数据的取值符合重组流计算操作的触发条件时,基于重组流计算公式,对所述语义结构重组数据流进行重组流计算,得到数据处理结果。8.根据权利要求4所述的方法,其特征在于,在为所述各个数据计算窗口赋予窗口标记之后,所述方法还包括:收集后续请求流入所述各个数据计算窗口的数据,作为所述各个数据计算窗口的过期数据;对所述过期数据进行窗口计算,并对窗口计算结果进行语义结构重组得到语义结构重组数据补偿流;对所述语义结构重组数据补偿流进行重组流计算,得到补偿计算结果;根据所述补偿计算结果对所述数据处理结果进行修正。9.一种多流流式数据的处理系统,其特征在于,包括:窗口化处理模块,用于对所获取的多流流式数据进行...
【专利技术属性】
技术研发人员:项连志,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。