一种互联网数据处理系统及方法技术方案

技术编号:39498844 阅读:8 留言:0更新日期:2023-11-24 11:28
本发明专利技术公开了一种互联网数据处理系统及方法,本发明专利技术涉及互联网技术领域,包括中央处理器和数据采集模块

【技术实现步骤摘要】
一种互联网数据处理系统及方法


[0001]本专利技术涉及互联网
,具体为一种互联网数据处理系统及方法


技术介绍

[0002]近些年,随着
Internet
的高速发展和普及,
Internet
上数以亿计的各种数据源,每时每刻都在产生着海量的数据流量,另外,由于硬件设备也日趋发展与完善,越来越多的领域部门也会自动的产生高速的海量数据流

[0003]因为流数据的这些特点都使得传统的数据管理系统很难或者无法对这些数据进行详细分析和管理,因此,设计开发一种用于流数据管理的系统,具有重要的现实意义


技术实现思路

[0004]针对现有技术的不足,本专利技术提供了一种互联网数据处理系统及方法,解决了传统的数据管理很难详细分析和管理流数据的问题

[0005]为实现以上目的,本专利技术通过以下技术方案予以实现:一种互联网数据处理系统,包括中央处理器和数据采集模块

数据解析系统

数据库
、web
端设计模块以及数据管理系统,所述中央处理器分别与数据采集模块和数据解析系统

数据库
、web
端设计模块以及数据管理系统传输连接;
[0006]所述数据采集模块用于对数据进行捕获

切分和上传工作;
[0007]所述数据解析系统用于把
Hadoop
分布式文件系统的二进制文件解析为用户可读的字符串的形式;
[0008]所述数据库用于数据表的设计

数据库查找以及支持上层语言;
[0009]所述
web
端设计模块用于通过
PHP
设计
Web
界面
,
使用户能简洁方便地通过图形化窗口查询
HBase
数据库中的数据,并在
Web
窗口中快速显示
,
从而避免通过复杂的命令行的形式查找数据;
[0010]所述数据管理系统用于自动管理
Ha

doop
的分布式文件系统中的各种数据

[0011]作为本专利技术进一步的方案:所述数据采集模块对数据进行捕获时,利用
Endace
高速数据采集卡采集抓取原始的二进制数据;所述数据采集模块对数据进行切分时,对抓取的数据文件进行分割,每抓取完一个数据文件,原始文件上传软件会自动检测文件的完整性和文件是否被占用,然后上传到分布式文件系统中,所述数据采集模块对数据进行上传时,用于把
Endace
网卡抓取的数据上传到
Hadoop
的分布式文件系统中,在分布式文件系统中集中存储和处理

[0012]作为本专利技术进一步的方案:所述
Endace
高速数据采集卡采用网络网卡,最高数据抓取速度为
10G/s
,且
Endace
自带有具备内存的处理器,用于承担计算任务

[0013]作为本专利技术进一步的方案:所述
Endace
网卡抓取的数据文件的大小预设为固定值
128Mb。
[0014]作为本专利技术进一步的方案:所述数据解析系统包括有输入检测模块和数据储存模


数据查询模块以及数据调度模块,所述输入检测模块与数据储存模块传输连接,数据储存模块分别与数据查询模块和数据调度模块传输连接,所述数据储存模块包括有临时数据储存模块和概要数据储存模块以及静态数据储存模块

[0015]作为本专利技术进一步的方案:所述输入检测模块用于负责接收各种抓取的流数据;所述数据查询模块用于根据当前的查询操作

查询执行情况来动态的调整查询的执行顺序;所述数据调度模块用于完成平衡查询结果准确性和资源间的关系,根据抓取的流数据流入数据的改变

查询请求操作的变更

查询响应时间以及服务质量

储存要求之间的相互作用来进行协调,以保证在可用的资源范围之内的查询结构可以达到用户要求的准确性

[0016]作为本专利技术进一步的方案:所述临时数据储存模块用于储存处理窗口查询操作时所需要用到的数据以及储存整个概要数据结构,方便对其进行查询分析;所述概要数据储存模块用于储存对抓取的流数据摘要;所述静态数据处理模块用于储存每个流在内存中的物理位置信息

[0017]作为本专利技术进一步的方案:所述数据管理系统包括有上层系统交互子模块和数据处理子模块以及数据库交互子模块,所述上层系统交互子模块用于实现和上层系统进行交互,所述数据处理子模块用于分辨来自上层系统传输过来的数据,然后对数据进行加密,接着将加密后的数据储存到数据库中,所述数据库交互子模块通过封装
Oracle

MySQL
两种数据库的
API
函数来实现对上层信息的透明化

[0018]作为本专利技术进一步的方案:所述上层系统交互子模块交互时,分别采用访问缓冲区和读取缓冲区,访问缓冲区用于上层系统向数据库提交信息,读取缓冲区用于负责访问缓冲从数据库到上层系统的数据信息

[0019]作为本专利技术进一步的方案:一种互联网数据处理方法包括以下步骤:
[0020]S1、
对数据进行捕获时,利用
Endace
高速数据采集卡采集抓取原始的二进制数据;对数据进行切分时,对抓取的数据文件进行分割,每抓取完一个数据文件,原始文件上传软件会自动检测文件的完整性和文件是否被占用,然后上传到分布式文件系统中,对数据进行上传时,用于把
Endace
网卡抓取的数据上传到
Hadoop
的分布式文件系统中,在分布式文件系统中集中存储和处理;
[0021]S2、
输入检测模块负责接收各种抓取的流数据;数据查询模块根据当前的查询操作

查询执行情况来动态的调整查询的执行顺序;数据调度模块完成平衡查询结果准确性和资源间的关系,根据抓取的流数据流入数据的改变

查询请求操作的变更

查询响应时间以及服务质量

储存要求之间的相互作用来进行协调,以保证在可用的资源范围之内的查询结构可以达到用户要求的准确性;
[0022]S3、
上层系统交互子模块实现和上层系统进行交互,数据处理子模块分辨来自上层系统传输过来的数据,然后对数据进行加密,接着将加密后的数据储存到数据库中,数据库交互子模块通过封装
Oracle

MySQL
两种数据库的
API
函数来实现对上层信息的透明化

[0023]本专利技术提供了一种互联网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种互联网数据处理系统,包括中央处理器
(1)
和数据采集模块
(2)、
数据解析系统
(3)、
数据库
(4)、web
端设计模块
(5)
以及数据管理系统
(6)
,其特征在于:所述中央处理器
(1)
分别与数据采集模块
(2)
和数据解析系统
(3)、
数据库
(4)、web
端设计模块
(5)
以及数据管理系统
(6)
传输连接;所述数据采集模块
(2)
用于对数据进行捕获

切分和上传工作;所述数据解析系统
(3)
用于把
Hadoop
分布式文件系统的二进制文件解析为用户可读的字符串的形式;所述数据库
(4)
用于数据表的设计

数据库查找以及支持上层语言;所述
web
端设计模块
(5)
用于通过
PHP
设计
Web
界面
,
使用户能简洁方便地通过图形化窗口查询
HBase
数据库中的数据,并在
Web
窗口中快速显示
,
从而避免通过复杂的命令行的形式查找数据;所述数据管理系统
(6)
用于自动管理
Ha

doop
的分布式文件系统中的各种数据
。2.
根据权利要求1所述的一种互联网数据处理系统,其特征在于:所述数据采集模块
(2)
对数据进行捕获时,利用
Endace
高速数据采集卡采集抓取原始的二进制数据;所述数据采集模块
(2)
对数据进行切分时,对抓取的数据文件进行分割,每抓取完一个数据文件,原始文件上传软件会自动检测文件的完整性和文件是否被占用,然后上传到分布式文件系统中,所述数据采集模块
(2)
对数据进行上传时,用于把
Endace
网卡抓取的数据上传到
Hadoop
的分布式文件系统中,在分布式文件系统中集中存储和处理
。3.
根据权利要求2所述的一种互联网数据处理系统,其特征在于:所述
Endace
高速数据采集卡采用网络网卡,最高数据抓取速度为
10G/s
,且
Endace
自带有具备内存的处理器,用于承担计算任务
。4.
根据权利要求2所述的一种互联网数据处理系统,其特征在于:所述
Endace
网卡抓取的数据文件的大小预设为固定值
128Mb。5.
根据权利要求1所述的一种互联网数据处理系统,其特征在于:所述数据解析系统
(3)
包括有输入检测模块
(31)
和数据储存模块
(32)、
数据查询模块
(33)
以及数据调度模块
(34)
,所述输入检测模块
(31)
与数据储存模块
(32)
传输连接,数据储存模块
(32)
分别与数据查询模块
(33)
和数据调度模块
(34)
传输连接,所述数据储存模块
(32)
包括有临时数据储存模块和概要数据储存模块以及静态数据储存模块
。6.
根据权利要求5所述的一种互联网数据处理系统,其特征在于:所述输入...

【专利技术属性】
技术研发人员:杨解清谭大军兰显辉梁艺瀚丛钰霖
申请(专利权)人:成都老鹰信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1