日志文件合并方法、系统、设备及介质技术方案

技术编号:28736863 阅读:32 留言:0更新日期:2021-06-06 11:45
本发明专利技术公开了一种日志文件合并方法、系统、设备及介质。日志文件合并方法,包括:扫描待处理目录下的所有文件,若扫描到新的文件,对该文件进行预处理;将预处理后的文件数据按类型和时间段写入到不同目录下的新建文件;在目录下新建合并线程,将新建文件合并,并将合并后的文件上传到hdfs上。日志文件合并系统,包括:扫描预处理模块;目录写入模块;合并上传模块。本发明专利技术还进一步提供了一种日志文件合并设备及介质。设备及介质。设备及介质。

【技术实现步骤摘要】
日志文件合并方法、系统、设备及介质


[0001]本专利技术涉及计算机
,特别是涉及一种日志文件合并方法、系统、设备及介质。

技术介绍

[0002]在大数据处理中,比较流行通过ftp服务收集各个节点的海量日志文件,来作为数据源。这些日志文件的大小一般比较随机,可能比较大,也可能比较小。大数据中,一般是将这些日志数据以文件的形式存储在hdfs上,来提供给后续的业务处理。如果直接将这些大小随机的日志文件存储到hdfs上,不仅会极大的占用hdfs集群中NameNode节点的内存空间,而且会严重影响后期MR任务的处理效率。
[0003]通过ftp上传日志文件,一般是有固定时间周期的。为了保证数据的实时性,同时又不至于上传次数太多,一般是1分钟上传一次这一分钟内的日志文件。而一分钟内,日志的条数也不是稳定的,所以日志文件大小会时大时小。另外,日志文件不会是单一类型,会有多种类型。大数据处理时,同类型的数据,对应相同的业务处理逻辑;不同类型的数据,对应不同类型的业务处理逻辑。
[0004]综合上面内容,可以看出日志文件的两个特性,类型繁本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种日志文件合并方法,其特征在于,包括:扫描待处理目录下的所有文件,若扫描到新的文件,对该文件进行预处理;将预处理后的文件数据按类型和时间段写入到不同目录下的新建文件;在目录下新建合并线程,将新建文件合并,并将合并后的文件上传到hdfs上。2.根据权利要求1所述的日志文件合并方法,其特征在于,所述扫描待处理目录下的所有文件,包括:利用Files.walkFileTree对整个ftp根目录下所有文件进行扫描。3.根据权利要求2所述的日志文件合并方法,其特征在于,所述若扫描到新的文件,对该文件进行预处理,包括:若当某一目录下出现新的文件且在hashset中查询不到当前目录,则创建线程合并当前目录下的文件。4.根据权利要求3所述的日志文件合并方法,其特征在于,所述创建线程,包括:线程创建时,在hashset中写入当前目录。5.根据权利要求4所述的日志文件合并方法,其特征在于,所述线程创建前,检测hashset中是否存放此目录,若不存在此目录,则创建线程。6.根据权利要求5所述的日志文件合并方法,其特征在于,所述将新建文件合并,包括:将合并后的文件写入到merging目录...

【专利技术属性】
技术研发人员:马聪
申请(专利权)人:广东云智安信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1