【技术实现步骤摘要】
一种分布式文件存储方法及系统
[0001]本专利技术涉及大数据文件存储
,具体涉及一种分布式文件存储方法及系统。
技术介绍
[0002]随着用户终端设备非结构化数据越来越多,大数据流处理引擎处理一个大数据包显得越来越吃力,既要处理结构化文件,也要处理非结构文件。为了加快预处理速度,现有技术采用了附件分离方案,即数据包拆分结构化zip包和附件分开存储,这样加快了流处理能够快速消费结构化数据包,同时把附件处理剥离出流处理,极大加快了流处理的预处理速度。但仍存在弊端,首先,当需要下载数据包的时候,还需要把附件合并到结构化包里,降低运维效率;其次,线上部分环境附件非常的多,导致附件存在积压现象。
[0003]图1为现有技术中常见的数据包处理过程示意图。在传统方案中,数据包进入系统之后被直接完整地保存在存储当中,流处理框架和外部接口可以下载到完整数据包(包含附件)。该方案的优点在于,数据包被完整保存,方便后续使用。然而,每次流处理框架下载、解压、移动数据包都需要花费大量时间处理其不关心的非结构化数据,严重影响结构化数据解 ...
【技术保护点】
【技术特征摘要】
1.一种分布式文件存储方法,其特征在于,包括以下步骤:S1、获取数据包并且将所述数据包存储至备份存储;S2、任务调度节点判断所述数据包是否包含非结构化数据,响应于确认包含,则扫描包含非结构化数据的数据包,生成解压任务并发送至消息队列;S3、文件服务节点的消费者从所述消息队列中认领所述解压任务后,文件服务节点从所述备份存储中下载所述数据包,解压、拆分并分别存放结构化数据与非结构化数据。2.根据权利要求1所述的分布式文件存储方法,其特征在于,步骤S2包括以下子步骤:S21、所述文件服务节点实时将包含非结构化数据的数据包的状态改为任务开始;S22、所述任务调度节点将数据包ID存储至所述消息队列中,并且修改所述数据包的状态为任务发送;以及S23、所述文件服务节点获取到消息后,将所述数据包的状态修改为任务接收。3.根据权利要求1所述的分布式文件存储方法,其特征在于,设置若干个文件服务节点,每个文件服务节点设置多个消费者,以实现所述解压任务的分布式并行处理。4.根据权利要求3所述的分布式文件存储方法,其特征在于,每个所述文件服务节点均包括一个符合文件存储服务存储规则的本地文件目录作为本地文件存储,解压后的所述非结构化数据按照所述文件存储服务存储规则保存至当前文件服务节点的本地文件存储中。5.根据权利要求1所述的分布式文件存储方法,其特征在于,还包括文件索引数据库获取并存储所述非结构化数据的索引信息。6.根据权利要求1所述的分布式文件存储方法,其特征在于,还包括:对所有所述文件服务...
【专利技术属性】
技术研发人员:严世伟,刘超,黄世峰,王德良,吴金汉,温若辉,陈云,
申请(专利权)人:厦门市美亚柏科信息股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。