基于hadoop远程超大非结构化文本文件解析出入库系统及方法技术方案

技术编号：33478515 阅读：30 留言：0更新日期：2022-05-19 00:53

本发明专利技术公开了一种基于hadoop远程超大非结构化文本文件解析出入库系统及方法，可将超大文本文件从远程文件系统采用ftp或者sftp的方式读取并解析存入hive库。同时本发明专利技术也兼容传统的一般文本文件的读取、解析、入库。对于超大文本文件，本发明专利技术应用了ftp、sftp以及一些hadoop大数据组件技术spark、yarn、hive等，采用技术整合的方式，成本更为低廉，且贴合hadoop大数据技术，实现较为简单。读取文件和写入存储文件都利用spark和hadoop的架构优势，spark按照文件设定的大小设置分区(partition)数量进行读取，并存入HDFS，spark读取HDFS文件利用了hadoop的文件块机制。因此不论读取文件和写入HIVE，不会出现OOM的问题。不会出现OOM的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于hadoop远程超大非结构化文本文件解析出入库系统及方法

[0001]本专利技术涉及数据库
，具体涉及一种基于hadoop远程超大非结构化文本文件解析出入库系统及方法。
[0002]
技术介绍

[0003]常规超大文本远程读取，如果文件略大，则会出现OOM问题。如果文本文件大小超过GB、TB等级别，受网络影响，没有一种可靠的方式获得、解析并写入到库中。
[0004]
技术实现思路

[0005]针对现有技术的不足，本专利技术旨在提供一种基于hadoop远程超大非结构化文本文件解析出入库系统及方法。
[0006]为了实现上述目的，本专利技术采用如下技术方案：一种基于hadoop的远程超大非结构化文本文件解析出入库系统，包括文本文件入库模块和规范数据出库模块；文本文件入库模块：用于通过文件传输通道ftp/sftp连接文件服务器获取文件的大小属性，如果文本文件的大小未超过设定的阈值，则采用传统的方式，读取到内存中进行处理；如果超过设定的阈值，则采用大文本处理方式，读取到hdfs指定目录，然后利用spar...

【技术保护点】

【技术特征摘要】
1.一种基于hadoop的远程超大非结构化文本文件解析出入库系统，其特征在于，包括文本文件入库模块和规范数据出库模块；文本文件入库模块：用于通过文件传输通道ftp/sftp连接文件服务器获取文件的大小属性，如果文本文件的大小未超过设定的阈值，则采用传统的方式，读取到内存中进行处理；如果超过设定的阈值，则采用大文本处理方式，读取到hdfs指定目录，然后利用spark从hdfs中读出hadoop文件块，通过解析、校验、格式化处理后提交到yarn中进行任务的调度，写入到hive库中，写入完成后使用spark将hdfs中对应的文件块删除；规范数据出库模块：用于使用spark从hive库中按照分区或全量读取数据到hdfs中，然后使用spark将hdfs中的文件按照文件块进行解析、校验、格式化处理，其后通过文件传输通道ftp/sftp将文件写入到文件服务器中，完成数据的导出，导出完成后，使用spark将hdfs中的对应文...

【专利技术属性】
技术研发人员：于洋，高经郡，谢晋，
申请(专利权)人：北京科杰科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人