【技术实现步骤摘要】
基于hadoop远程超大非结构化文本文件解析出入库系统及方法
[0001]本专利技术涉及数据库
,具体涉及一种基于hadoop远程超大非结构化文本文件解析出入库系统及方法。
[0002]
技术介绍
[0003]常规超大文本远程读取,如果文件略大,则会出现OOM问题。如果文本文件大小超过GB、TB等级别,受网络影响,没有一种可靠的方式获得、解析并写入到库中。
[0004]
技术实现思路
[0005]针对现有技术的不足,本专利技术旨在提供一种基于hadoop远程超大非结构化文本文件解析出入库系统及方法。
[0006]为了实现上述目的,本专利技术采用如下技术方案:一种基于hadoop的远程超大非结构化文本文件解析出入库系统,包括文本文件入库模块和规范数据出库模块;文本文件入库模块:用于通过文件传输通道ftp/sftp连接文件服务器获取文件的大小属性,如果文本文件的大小未超过设定的阈值,则采用传统的方式,读取到内存中进行处理;如果超过设定的阈值,则采用大文本处理方式,读取到hdfs指定目录,然后利用spar ...
【技术保护点】
【技术特征摘要】
1.一种基于hadoop的远程超大非结构化文本文件解析出入库系统,其特征在于,包括文本文件入库模块和规范数据出库模块;文本文件入库模块:用于通过文件传输通道ftp/sftp连接文件服务器获取文件的大小属性,如果文本文件的大小未超过设定的阈值,则采用传统的方式,读取到内存中进行处理;如果超过设定的阈值,则采用大文本处理方式,读取到hdfs指定目录,然后利用spark从hdfs中读出hadoop文件块,通过解析、校验、格式化处理后提交到yarn中进行任务的调度,写入到hive库中,写入完成后使用spark将hdfs中对应的文件块删除;规范数据出库模块:用于使用spark从hive库中按照分区或全量读取数据到hdfs中,然后使用spark将hdfs中的文件按照文件块进行解析、校验、格式化处理,其后通过文件传输通道ftp/sftp将文件写入到文件服务器中,完成数据的导出,导出完成后,使用spark将hdfs中的对应文...
【专利技术属性】
技术研发人员:于洋,高经郡,谢晋,
申请(专利权)人:北京科杰科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。