一种基于人工智能的互联网大数据处理系统及方法技术方案

技术编号:39498393 阅读:12 留言:0更新日期:2023-11-24 11:27
本发明专利技术公开一种基于人工智能的互联网大数据处理系统,涉及计算机技术领域,包括:互联网大数据收集模块,用于从不同的数据源中收集相关的数据,并传输至互联网大数据预处理模块;互联网大数据预处理模块,用于对收集的数据进行数据清洗并传输至互联网大数据存储模块;互联网大数据存储模块,用于对预处理完成的数据进行高效存储,并提供查询接口给互联网大数据分析模块;互联网大数据分析模块,用于使用人工智能技术对存储的数据进行深层分析

【技术实现步骤摘要】
一种基于人工智能的互联网大数据处理系统及方法


[0001]本专利技术涉及计算机
,尤其涉及一种基于人工智能的互联网大数据处理系统及方法


技术介绍

[0002]互联网大数据处理系统是指能够对互联网上产生的海量

多样

快速和价值的数据进行有效的收集

存储

管理

分析和挖掘的系统

现有的互联网大数据处理系统主要有以下几种类型:基于批处理的系统,如
Hadoop

Spark
等,它们能够对大规模的静态数据进行离线的批量处理,实现数据的清洗

转换

聚合等操作,以及机器学习

数据挖掘等分析任务

这类系统的优点是能够处理海量的数据,提供高可靠性和容错性,支持多种编程语言和框架

缺点是处理速度较慢,不能满足实时或近实时的需求,以及对流式数据的处理能力较弱

[0003]基于流处理的系统,如
Storm

Flink
等,它们能够对持续产生的动态数据进行在线的流式处理,实现数据的过滤

转换

聚合等操作,以及复杂事件处理

实时分析等任务

这类系统的优点是能够处理高速变化的数据,提供低延迟和高吞吐量,支持多种编程语言和框架
/>缺点是处理精度较低,不能保证数据的完整性和一致性,以及对批量数据的处理能力较弱

[0004]基于混合处理的系统,如
Lambda

Kappa
等,它们能够同时支持批处理和流处理,实现对静态数据和动态数据的统一管理和分析

这类系统的优点是能够兼顾数据的规模

速度和价值,提供高效和灵活的解决方案

缺点是系统架构较复杂,需要维护多个并行的处理层,以及对数据一致性和容错性的保证较难


技术实现思路

[0005]本专利技术提供了一种基于人工智能的互联网大数据处理系统,包括:互联网大数据收集模块,互联网大数据预处理模块,互联网大数据存储模块和互联网大数据分析模块;互联网大数据收集模块用于从不同的数据源中收集相关的数据,并传输至互联网大数据预处理模块;互联网大数据预处理模块用于对收集的数据进行数据清洗并传输至互联网大数据存储模块;互联网大数据存储模块用于对预处理完成的数据进行高效存储,并提供查询接口给互联网大数据分析模块;互联网大数据分析模块用于使用人工智能技术对存储的数据进行深层分析

挖掘

处理

[0006]如上所述的一种基于人工智能的互联网大数据处理系统,其中互联网大数据收集模块包括以下子模块:网络爬虫子模块用于使用网络爬虫程序从互联网上抓取网页数据;
API 接入子模块用于通过调用
API
来访问和获取数据;物联网设备接入子模块用于获取暴露在互联网中的物联网设备数据;数据传输子模块用于将收集到的互联网大数据传输至互联网大数据预处理模块

[0007]如上所述的一种基于人工智能的互联网大数据处理系统,其中互联网大数据预处理模块包括以下子模块:数据去重子模块用于识别并去除重复的数据;缺失值处理子模块用于识别并处理这些缺失值;数据格式转换子模块用于将不同格式的数据转换为统一的格式;数据传输子模块用于将预处理完成的数据传输到互联网大数据存储模块

[0008]如上所述的一种基于人工智能的互联网大数据处理系统,其中缺失值处理子模块使用特殊值
NaN

NULL
来表示缺失值,以保证不改变原始数据的结构

[0009]如上所述的一种基于人工智能的互联网大数据处理系统,其中互联网大数据收集模块与互联网大数据预处理模块中的数据传输子模块皆采用
HTTPS
安全协议并对敏感数据进行脱敏

[0010]如上所述的一种基于人工智能的互联网大数据处理系统,其中互联网大数据存储模块包括以下子模块:数据存储子模块采用关系型数据库与
NoSQL
数据库相结合的分布式存储结构进行数据的存储;数据管理子模块用于对存储的数据进行有效的管理

[0011]如上所述的一种基于人工智能的互联网大数据处理系统,其中数据管理子模块具体包括以下功能点:数据分区和分片用于将互联网大数据进行分区和分片;数据备份和容灾用于定期进行数据备份,同时建立容灾机制;数据安全和权限管理用于对数据库访问权限验证和对用户访问权限的管理

[0012]如上所述的一种基于人工智能的互联网大数据处理系统,其中对存储的数据进行深层分析

挖掘

处理包括特征提取与建立特征图谱,具体分为以下子步骤:建立训练数据集;将训练数据集,特征样本中的数据样本作为输入值,特征标签作为输出值,进行模型训练,得到特征抽取模型;根据特征提取模型的输出结果建立特征图谱

[0013]如上所述的一种基于人工智能的互联网大数据处理系统,其中特征抽取模型分为实体特征抽取函数

关系特征抽取函数与属性特征抽取函数

[0014]本专利技术还提供了一种基于人工智能的互联网大数据处理方法,包括:
Step1、
收集互联网中不同数据源的数据;
Step2、
对收集的数据进行预处理;
Step3、
对预处理完成的数据进行高效存储;
Step4、
对存储的数据进行深层分析

挖掘

处理

[0015]如上所述的一种基于人工智能的互联网大数据处理方法,本专利技术实现的有益效果如下:结合人工智能技术,自动发现数据中的隐藏模式和
规律,提高洞察和解决问题的能力,进一步提高互联网大数据的分析和利用能力,实时响应

附图说明
[0016]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图

[0017]图1是本专利技术实施例一提供的一种基于人工智能的互联网大数据处理系统示意图;图2是本专利技术实施例二提供的一种基于人工智能的互联网大数据处理方法流程图

具体实施方式
[0018]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于人工智能的互联网大数据处理系统,包括:互联网大数据收集模块,互联网大数据预处理模块,互联网大数据存储模块和互联网大数据分析模块;互联网大数据收集模块用于从不同的数据源中收集相关的数据,并传输至互联网大数据预处理模块;互联网大数据预处理模块用于对收集的数据进行数据清洗并传输至互联网大数据存储模块;互联网大数据存储模块用于对预处理完成的数据进行高效存储,并提供查询接口给互联网大数据分析模块;互联网大数据分析模块用于使用人工智能技术对存储的数据进行深层分析

挖掘

处理
。2.
根据权利要求1所述的一种基于人工智能的互联网大数据处理系统,其特征在于,互联网大数据收集模块包括以下子模块:网络爬虫子模块用于使用网络爬虫程序从互联网上抓取网页数据;
API 接入子模块用于通过调用
API
来访问和获取数据;物联网设备接入子模块用于获取暴露在互联网中的物联网设备数据;数据传输子模块用于将收集到的互联网大数据传输至互联网大数据预处理模块
。3.
根据权利要求1所述的一种基于人工智能的互联网大数据处理系统,其特征在于,互联网大数据预处理模块包括以下子模块:数据去重子模块用于识别并去除重复的数据;缺失值处理子模块用于识别并处理这些缺失值;数据格式转换子模块用于将不同格式的数据转换为统一的格式;数据传输子模块用于将预处理完成的数据传输到互联网大数据存储模块
。4.
根据权利要求3所述的一种基于人工智能的互联网大数据处理系统,其特征在于,缺失值处理子模块使用特殊值
NaN

NULL
来表示缺失值,以保证不改变原始数据的结构
。5.
根据权利要求1所述的一种基于人工智能的互联网大数据处理系统,其特征在于,互联网大数据收集模块与互联网大数据预处理模块中的数据传输子模块皆采用...

【专利技术属性】
技术研发人员:刘金磊
申请(专利权)人:睿至科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1