【技术实现步骤摘要】
一种流式企业大数据处理方法和存储介质
[0001]本专利技术涉及大数据处理
,具体为一种流式企业大数据处理方法和存储介质。
技术介绍
[0002]大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,大数据技术的广泛应用使其成为引领众多行业技术进步、促进效益增长的关键支撑技术,根据数据处理的时效性,大数据处理系统可分为批式(batch)大数据和流式(streaming)大数据两类,其中,批式大数据又被称为历史大数据,流式大数据又被称为实时大数据。
[0003]为了满足用户的实时服务需求,网络应用不仅需要对大量的历史数据进行分析处理,还需要进一步对实时流式数据做出快速的处理,而每次手动触发程序运行,两次触发时间点之间的数据,不会立即处理,常规的批处理存在严重的滞后性,同时在每一个时间片中,当数据源发生更新时,将会重复应用静态数据处理方法,从而可以得到每个时间片内的结果,当读取超大文件,需要消耗大 ...
【技术保护点】
【技术特征摘要】
1.一种流式企业大数据处理方法和存储介质,其特征在于,所述方法包含以下步骤:步骤一,对流式数据进行预处理1)处理累积的大数据即历史数据生成中间结果集,划分该结果集并进行缓存到各计算节点;2)实时监听数据源,并按照时间前后顺序对流式大数据进行升序排序;3)针对待处理流式数据,划分设定时间段内的数据构建出初始化数据集,处理设定时间内指定的大数据,指定的大数据为历史数据生成中间结果集,并划分该结果集并分布缓存到各计算节点;步骤二,对流式数据进行初始化处理1)每个计算节点定时的接收全部的流式数据,并可通过Map处理得到中间结果;2)通过中间结果划分方法过滤得到该节点的中间结果,并将其缓存到本地节点上,对本地节点设定阀值,在达到阀值后可形成一个分片,发送该分片;3)将多路、多个企业数据汇集放入分片并存入至数据库中;步骤三,将多组数据进行分类存储1)当数据源的实时数据有更新时,将更新数据接收进第一分片节点消息队列里,并将更新数据及对应的标签发送到第二分片节点消息队列,其中,标签用于标识数据的关键信息,对流式大数据进行预处理以减少数据错误,得到待处理流式数据;2)将更新后的待处理流式数据及对应将预设时间范围内的第二分片节点消息队列里的数据及对应的标签存储到第一数据库;3)基于标签对第二分片节点消息队列里的数据过滤,将与标签一致的对应数据存放到第二数据库;4)将第二数据库里的数据按照主题分类,筛选主题与预设主题一致的数据,并将其储存至第三数据库;步骤四,建立基于企业数据的算法模型,对多个数据库并行数据分析和运算1)当中间结果分片到达后,可根据流水线调度算法,把历史数据中间结果与该中间结果共同作为Reduce输入;2)数据集增量划分步骤,依据差...
【专利技术属性】
技术研发人员:刘子曜,白峻峰,张文战,
申请(专利权)人:北京基智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。