一种海量文件的数据收集处理方法及系统技术方案

技术编号：15192052 阅读：314 留言：0更新日期：2017-04-20 10:13

本发明专利技术公开了一种海量文件的数据收集处理方法，包括以下步骤：S10、利用数据收集系统分布式收集海量文件中的子文本数据；S20、内容分发网络将子文本数据发送给分布式web服务器；S30、当子文本数据为非解析类时，利用分布式web服务器，将子文本数据上传至hadoop的开源数据库；S40、当子文本数据为解析类时，利用分布式web服务器，将解析后的子文本数据收集到本地文件池；S60、利用本地分布式文件系统将本地文件池内累加得到的文本数据上传至hadoop的云端分布式文件系统。本发明专利技术利用内容分发网络向web服务器发送子文本数据；及时对收集到的子文本数据进行疏通处理，以防止收集端出现堵塞。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据提取
，尤其涉及海量文件的数据收集处理方法及系统。
技术介绍
在互联网飞速发展的今天，对用户在使用网络资源时所表现出来的规律、个性化的习惯进行分析(也称用户行为分析)后；提取并了解到用户的兴趣。一方面，可以对用户个性化定制与推送，为网站访问者提供更加主动的、智能化的服务。另一方面，从用户行为的不同表现，发现其兴趣和偏好，可以优化页面之间组织关系，完善网站系统架构，从而减轻用户寻找信息的负担，使其操作更加简单，节约时间和精力。在对用户行为进行分析时，一般在线用户数量庞大，其产生的实时行为和上下文信息量巨大，尤其是海量小文件；小文件是指几K到几百K之间的文件，例如5K到600K之间的文件。然而，现有技术中，存在收集端不能对海量小文件中的文本数据进行及时处理等缺陷；从而导致收集端出现拥堵，进而使得海量小文件的文本数据收集处理收到限制。
技术实现思路
本专利技术提供的技术方案如下：本专利技术提供一种海量文件的数据收集处理方法，包括以下步骤：S10、利用数据收集系统flume分布式收集海量文件中的子文本数据；S20、内容分发网络CDN将所述子文本数据发送给分布式web服务器；S30、当所述子文本数据的解析类型为非解析类时，利用分布式web服务器，将所述子文本数据上传至hadoop的开源数据库HBASE；S40、当所述子文本数据的解析类型为解析类时，利用分布式web服务器，将解析后的子文本数据收集到本地文件池；S60、利用本地分布式文件系统hdfs2将所述本地文件池内累加得到的文本数据上传至hadoop的云端分布式文件系统hdfs1。进一步，所述...
一种海量文件的数据收集处理方法及系统

【技术保护点】
一种海量文件的数据收集处理方法，其特征在于，包括以下步骤：S10、利用数据收集系统flume分布式收集海量文件中的子文本数据；S20、内容分发网络CDN将所述子文本数据发送给分布式web服务器；S30、当所述子文本数据的解析类型为非解析类时，利用分布式web服务器，将所述子文本数据上传至hadoop的开源数据库HBASE；S40、当所述子文本数据的解析类型为解析类时，利用分布式web服务器，将解析后的子文本数据收集到本地文件池；S60、利用本地分布式文件系统hdfs2将所述本地文件池内累加得到的文本数据上传至hadoop的云端分布式文件系统hdfs1。

【技术特征摘要】
1.一种海量文件的数据收集处理方法，其特征在于，包括以下步骤：S10、利用数据收集系统flume分布式收集海量文件中的子文本数据；S20、内容分发网络CDN将所述子文本数据发送给分布式web服务器；S30、当所述子文本数据的解析类型为非解析类时，利用分布式web服务器，将所述子文本数据上传至hadoop的开源数据库HBASE；S40、当所述子文本数据的解析类型为解析类时，利用分布式web服务器，将解析后的子文本数据收集到本地文件池；S60、利用本地分布式文件系统hdfs2将所述本地文件池内累加得到的文本数据上传至hadoop的云端分布式文件系统hdfs1。2.如权利要求1所述的海量文件的数据收集处理方法，其特征在于，所述步骤S20进一步包括：S21、所述内容分发网络CDN通过反向代理服务器Nginx将所述子文本数据发送给所述分布式web服务器；多个反向代理服务器用于平衡各分布式Web服务器间的网络负载。3.如权利要求1所述的海量文件的数据收集处理方法，其特征在于，在所述步骤S60之前还包括：S50、对所述本地文件池内的子文本数据进行提取、清洗；S51、按照所述云端分布式文件系统hdfs1的块的大小，对所述子文本数据进行累加合并成文本数据。4.如权利要求3所述的海量文件的数据收集处理方法，其特征在于，所述步骤S50进一步包括：S501、提取所述子文本数据的文件名中的路由器MAC和时间戳；S502、识别出所述路由器MAC和时间戳是否遇到乱码；S503、当所述路由器MAC和时间戳遇到乱码时，对所述乱码进行清洗后，跳转至步骤S51；否则，直接跳转至步骤S51。5.如权利要求1所述的海量文件的数据收集处理方法，其特征在于，还包括以下步骤：S70、所述数据仓库工具hive向开源计算框架TEZ发送计算请求；S71、所述开源计算框架TEZ对所述文本数据进行压缩编码处理成压缩文本数据，并存储在所述云端分布式文件系统hdfs1的数据库中。6.如权利要求1～5中任意一项所述的海量文件的数据收集处理方法，其特征在于，在...

【专利技术属性】
技术研发人员：欧阳涛，
申请(专利权)人：上海斐讯数据通信技术有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人