基于hadoop远程超大非结构化文本文件解析出入库系统及方法技术方案

技术编号:33478515 阅读:30 留言:0更新日期:2022-05-19 00:53
本发明专利技术公开了一种基于hadoop远程超大非结构化文本文件解析出入库系统及方法,可将超大文本文件从远程文件系统采用ftp或者sftp的方式读取并解析存入hive库。同时本发明专利技术也兼容传统的一般文本文件的读取、解析、入库。对于超大文本文件,本发明专利技术应用了ftp、sftp以及一些hadoop大数据组件技术spark、yarn、hive等,采用技术整合的方式,成本更为低廉,且贴合hadoop大数据技术,实现较为简单。读取文件和写入存储文件都利用spark和hadoop的架构优势,spark按照文件设定的大小设置分区(partition)数量进行读取,并存入HDFS,spark读取HDFS文件利用了hadoop的文件块机制。因此不论读取文件和写入HIVE,不会出现OOM的问题。不会出现OOM的问题。

【技术实现步骤摘要】
基于hadoop远程超大非结构化文本文件解析出入库系统及方法


[0001]本专利技术涉及数据库
,具体涉及一种基于hadoop远程超大非结构化文本文件解析出入库系统及方法。
[0002]
技术介绍

[0003]常规超大文本远程读取,如果文件略大,则会出现OOM问题。如果文本文件大小超过GB、TB等级别,受网络影响,没有一种可靠的方式获得、解析并写入到库中。
[0004]
技术实现思路

[0005]针对现有技术的不足,本专利技术旨在提供一种基于hadoop远程超大非结构化文本文件解析出入库系统及方法。
[0006]为了实现上述目的,本专利技术采用如下技术方案:一种基于hadoop的远程超大非结构化文本文件解析出入库系统,包括文本文件入库模块和规范数据出库模块;文本文件入库模块:用于通过文件传输通道ftp/sftp连接文件服务器获取文件的大小属性,如果文本文件的大小未超过设定的阈值,则采用传统的方式,读取到内存中进行处理;如果超过设定的阈值,则采用大文本处理方式,读取到hdfs指定目录,然后利用spark从hdfs中读出h本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于hadoop的远程超大非结构化文本文件解析出入库系统,其特征在于,包括文本文件入库模块和规范数据出库模块;文本文件入库模块:用于通过文件传输通道ftp/sftp连接文件服务器获取文件的大小属性,如果文本文件的大小未超过设定的阈值,则采用传统的方式,读取到内存中进行处理;如果超过设定的阈值,则采用大文本处理方式,读取到hdfs指定目录,然后利用spark从hdfs中读出hadoop文件块,通过解析、校验、格式化处理后提交到yarn中进行任务的调度,写入到hive库中,写入完成后使用spark将hdfs中对应的文件块删除;规范数据出库模块:用于使用spark从hive库中按照分区或全量读取数据到hdfs中,然后使用spark将hdfs中的文件按照文件块进行解析、校验、格式化处理,其后通过文件传输通道ftp/sftp将文件写入到文件服务器中,完成数据的导出,导出完成后,使用spark将hdfs中的对应文...

【专利技术属性】
技术研发人员:于洋高经郡谢晋
申请(专利权)人:北京科杰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1