一种基于云计算的大数据处理方法技术

技术编号:38348355 阅读:9 留言:0更新日期:2023-08-02 09:28
本发明专利技术涉及云计算技术领域,尤其涉及一种基于云计算的大数据处理方法。通过大数据处理系统实现,大数据处理系统由数据采集模块、数据预处理模块、数据存储管理模块、数据分析挖掘模块、数据应用模块组成,大数据处理方法包括以下步骤:通过数据采集模块获取原始数据;利用数据预处理模块对原始数据进行清洗、集成、变换、规约;通过数据存储管理模块从多角度和多层次对数据进行存储和管理;利用数据分析挖掘模块挖掘潜在有用的信息和知识;通过数据应用模块将数据信息进行可视化展现。本发明专利技术的目的是为了解决现有技术中存在的技术问题,提出了一种基于云计算的大数据处理方法。出了一种基于云计算的大数据处理方法。

【技术实现步骤摘要】
一种基于云计算的大数据处理方法


[0001]本专利技术涉及云计算
,尤其涉及一种基于云计算的大数据处理方法。

技术介绍

[0002]云计算指通过计算机网络形成的计算能力极强的系统,可存储、集合相关资源并可按需配置,向用户提供个性化服务。
[0003]数据处理是一个复杂的过程,数据处理对象的内容与质量不同,所需要采取的处理步骤、处理逻辑也不同。面对数量巨大、内容丰富、格式多样、质量不齐的数据,需要开发大量处理工具才能提高处理效率。
[0004]但是,处理工具也有大小之分、繁简之别,大而复杂的工具包含更多的逻辑,处理数据的能力更强。然而数据具有多样性,因此无论单一工具多么复杂,都无法完全满足数据处理的全部需求。并且大的复杂的工具缺乏灵活性,维护成本高,小的简单的工作相对的灵活性较高、维护成本低,但是其数据处理能力较弱,对数据的处理具有局限性。

技术实现思路

[0005]本专利技术的目的是为了解决现有技术中存在的技术问题,提出了一种基于云计算的大数据处理方法。
[0006]本专利技术所采用的技术方案为:一种基于云计算的大数据处理方法,其特征在于:通过大数据处理系统实现,所述大数据处理系统由数据采集模块、数据预处理模块、数据存储管理模块、数据分析挖掘模块、数据应用模块组成,所述大数据处理方法包括以下步骤:
[0007]步骤一:通过数据采集模块获取原始数据;
[0008]步骤二:利用数据预处理模块对原始数据进行清洗、集成、变换、规约;
[0009]步骤三:通过数据存储管理模块从多角度和多层次对数据进行存储和管理;
[0010]步骤四:利用数据分析挖掘模块挖掘潜在有用的信息和知识;
[0011]步骤五:通过数据应用模块将数据信息进行可视化展现。
[0012]作为本专利技术进一步的改进,所述数据采集模块获取的原始数据内容包括页面数据、交互数据、表单数据、会话数据;且获取原始数据的方法包括系统日志采集方法、网络数据采集方法、其他数据采集方法。
[0013]作为本专利技术进一步的改进,所述原始数据清洗是为了对数据进行过滤、去噪,提取有效的原始数据,主要包含遗漏数据处理、噪音数据处理、不一致数据处理;其中遗漏数据可用全局常量、属性均值、可能值填充、直接忽略的方法处理,噪音数据可用分箱、聚类、计算机人工检查和回归的方法处理,不一致数据可用手动更正的方法处理。
[0014]作为本专利技术进一步的改进,所述原始数据集成是为了将多个数据源中的数据整合并存储到一个数据库中,方便对数据进行处理;所述原始数据变换过程包括平滑、聚集、数据泛化、规范化、属性构造;所述原始数据规约主要包括数据方聚集、维规约、数据压缩、数据规约、概念分层,使数据集变小的同时保持数据的完整。
[0015]作为本专利技术进一步的改进,所述数据存储管理模块根据数据的应用特征进行分类、存储和管理;且有效的存储和管理方式包括不断加密、仓库存储、云端备份。
[0016]作为本专利技术进一步的改进,所述数据挖掘对象包括关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库;所述数据挖掘方法包括神经网络方法、遗传算法、决策树方法、覆盖正例排斥反例方法、统计分析方法模糊集方法。
[0017]作为本专利技术进一步的改进,所述数据挖掘的流程包括以下步骤:
[0018]S1:清晰地定义出业务问题,确定数据挖掘的目的;
[0019]S2:选择数据在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;
[0020]S3:进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据;
[0021]S4:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘;
[0022]S5:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。
[0023]作为本专利技术进一步的改进,所述数据分析主要包括用户兴趣分析、网络行为分析、情感语义分析。
[0024]作为本专利技术进一步的改进,根据可视化的数据信息,将其应用到适用的领域内,提高领域的运行效率。
[0025]本专利技术的有益效果:本专利技术通过数据采集模块可获取不同内容的原始数据,且利用多种方式采集数据,范围更广更全;通过数据预处理模块对原始数据进行清洗、集成、变换、规约,可提取有效的原始数据且方便对数据进行处理;通过数据存储管理模块对数据进行分类、存储和管理,处理过程中更加方便有效;通过数据分析挖掘模块可挖掘潜在有用的信息和知识;通过数据应用模块可使数据应用于到适用的领域内,提高领域的运行效率。
具体实施方式
[0026]为了使本申请所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本申请进行进一步详细说明。应当理解,此处所描述的实施例仅仅用以解释本申请,并不用于限定本申请。
[0027]本专利技术提供了一种基于云计算的大数据处理方法,其特征在于:通过大数据处理系统实现,所述大数据处理系统由数据采集模块、数据预处理模块、数据存储管理模块、数据分析挖掘模块、数据应用模块组成,所述大数据处理方法包括以下步骤:
[0028]步骤一:通过数据采集模块获取原始数据;
[0029]步骤二:利用数据预处理模块对原始数据进行清洗、集成、变换、规约;
[0030]步骤三:通过数据存储管理模块从多角度和多层次对数据进行存储和管理;
[0031]步骤四:利用数据分析挖掘模块挖掘潜在有用的信息和知识;
[0032]步骤五:通过数据应用模块将数据信息进行可视化展现。
[0033]本专利技术中所述数据采集模块获取的原始数据内容包括页面数据、交互数据、表单数据、会话数据;且获取原始数据的方法包括系统日志采集方法、网络数据采集方法、其他数据采集方法。
[0034]本专利技术中所述原始数据清洗是为了对数据进行过滤、去噪,提取有效的原始数据,主要包含遗漏数据处理、噪音数据处理、不一致数据处理;其中遗漏数据可用全局常量、属性均值、可能值填充、直接忽略的方法处理,噪音数据可用分箱、聚类、计算机人工检查和回归的方法处理,不一致数据可用手动更正的方法处理。
[0035]本专利技术中所述原始数据集成是为了将多个数据源中的数据整合并存储到一个数据库中,方便对数据进行处理;所述原始数据变换过程包括平滑、聚集、数据泛化、规范化、属性构造;所述原始数据规约主要包括数据方聚集、维规约、数据压缩、数据规约、概念分层,使数据集变小的同时保持数据的完整。
[0036]本专利技术中所述数据存储管理模块根据数据的应用特征进行分类、存储和管理;且有效的存储和管理方式包括不断加密、仓库存储、云端备份。
[0037]本专利技术中所述数据挖掘对象包括关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库;所述数据挖掘方法包括神经网络方法、遗传算法、决策树方法、覆盖正例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于云计算的大数据处理方法,其特征在于:通过大数据处理系统实现,所述大数据处理系统由数据采集模块、数据预处理模块、数据存储管理模块、数据分析挖掘模块、数据应用模块组成,所述大数据处理方法包括以下步骤:步骤一:通过数据采集模块获取原始数据;步骤二:利用数据预处理模块对原始数据进行清洗、集成、变换、规约;步骤三:通过数据存储管理模块从多角度和多层次对数据进行存储和管理;步骤四:利用数据分析挖掘模块挖掘潜在有用的信息和知识;步骤五:通过数据应用模块将数据信息进行可视化展现。2.根据权利要求1所述的一种基于云计算的大数据处理方法,其特征在于:所述数据采集模块获取的原始数据内容包括页面数据、交互数据、表单数据、会话数据;且获取原始数据的方法包括系统日志采集方法、网络数据采集方法、其他数据采集方法。3.根据权利要求1所述的一种基于云计算的大数据处理方法,其特征在于:所述原始数据清洗是为了对数据进行过滤、去噪,提取有效的原始数据,主要包含遗漏数据处理、噪音数据处理、不一致数据处理;其中遗漏数据可用全局常量、属性均值、可能值填充、直接忽略的方法处理,噪音数据可用分箱、聚类、计算机人工检查和回归的方法处理,不一致数据可用手动更正的方法处理。4.根据权利要求1所述的一种基于云计算的大数据处理方法,其特征在于:所述原始数据集成是为了将多个数据源中的数据整合并存储到一个数据库中,方便对数据进行处理;所述原始数据变换过程包括平滑、聚集、数据泛化、规范化、属性构造;所述原始数据规约主要包括数据方聚集、维规...

【专利技术属性】
技术研发人员:林思弘林海生赖巧能
申请(专利权)人:厦门快快网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1