大数据分析方法、系统、计算机设备及存储介质技术方案

技术编号:35606980 阅读:18 留言:0更新日期:2022-11-16 15:29
本发明专利技术适用于大数据技术领域,尤其涉及大数据分析方法、系统、计算机设备及存储介质,所述方法包括:获取待处理大数据,按照预设时间间隔对待处理大数据进行数据分割,得到大数据单元;将大数据单元转换为多组图片数据,按照时间顺序为图片数据进行编码;根据编码对图片数据进行图片比对,确定特征区域,构建特征区域数据库;实时获取流数据,根据特征区域确定重复数据,并以唯一代码替换重复数据。本发明专利技术通过对大数据进行分析,从而从中提取大量的特征数据以形成特征数据库,进而为特征数据构建映射表,以映射表中的特定代码对该特征数据进行表示,大幅减少了重复数据的存储,提高了数据存储效率,提高了存储空间的有效使用率。提高了存储空间的有效使用率。提高了存储空间的有效使用率。

【技术实现步骤摘要】
大数据分析方法、系统、计算机设备及存储介质


[0001]本专利技术属于大数据
,尤其涉及大数据分析方法、系统、计算机设备及存储介质。

技术介绍

[0002]随着云时代的来临,大数据也吸引了越来越多的关注,大数据通常用来形容大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。
[0003]流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,流数据可被视为一个随时间延续而无限增长的动态数据集合。应用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。由于流数据是连续产生的,其也是大数据的来源。
[0004]由于流数据实时产生,因此将会形成大量的数据,直接进行存储将会导致数据重复,占用大量空间。

技术实现思路

[0005]本专利技术实施例的目的在于提供大数据分析方法,旨在解决直接进行存储将会导致数据重复,占用大量空间的问题,在本专利技术中,通过对大数据进行数据分析,提取其中的特征数据,从而对流数据中的相应数据进行表征处理,以减少重复数据的存储量。
[0006]本专利技术实施例是这样实现的,大数据分析方法,所述方法包括:获取待处理大数据,按照预设时间间隔对待处理大数据进行数据分割,得到大数据单元;将大数据单元转换为多组图片数据,按照时间顺序为图片数据进行编码;根据编码对图片数据进行图片比对,确定特征区域,构建特征区域数据库,所述特征区域数据库中包含特征区域以及与特征区域对应的唯一代码;实时获取流数据,根据特征区域确定重复数据,并以唯一代码替换重复数据。
[0007]优选的,所述将大数据单元转换为多组图片数据,按照时间顺序为图片数据进行编码的步骤,具体包括:将大数据单元分割为多个独立数据包;将独立数据包转换为二进制,并将相邻八个二进制字符为一组二进制数据组;将相邻的三组二进制数据组转化为十进制,以此表示像素色彩,构建图片数据并编码。
[0008]优选的,所述根据编码对图片数据进行图片比对,确定特征区域,构建特征区域数据库的步骤,具体包括:为每一组图片数据选择四个像素点作为比对标点,所述比对标点为图片四个角上的像素点;每次选择一个比对标点,移动该比对标点,使其遍历与之比对的图片的每一个像
素,在移动过程中比对重叠区域,判断是否有重合区域;统计重合区域出现的数量,将其存储至特征区域数据库中,并为每一个特征区域赋予一个唯一编码。
[0009]优选的,所述实时获取流数据,根据特征区域确定重复数据,并以唯一代码替换重复数据的步骤,具体包括:实时获取流数据,截取预设长度的数据,得到第一数据段;根据特征区域确定重复数据,并将重复数据截取预设长度,得到第二数据段;若第一数据段与第二数据段重合,则从流数据中截取与该重复数据长度相同的数据,并比对,若相同,则以唯一代码替换流数据中的重复数据。
[0010]本专利技术实施例的另一目的在于提供一种大数据分析系统,所述系统包括:数据获取模块,用于获取待处理大数据,按照预设时间间隔对待处理大数据进行数据分割,得到大数据单元;数据转换模块,用于将大数据单元转换为多组图片数据,按照时间顺序为图片数据进行编码;特征区域识别模块,用于根据编码对图片数据进行图片比对,确定特征区域,构建特征区域数据库,所述特征区域数据库中包含特征区域以及与特征区域对应的唯一代码;重复数据替换模块,用于实时获取流数据,根据特征区域确定重复数据,并以唯一代码替换重复数据。
[0011]优选的,所述数据转换模块包括:数据分割单元,用于将大数据单元分割为多个独立数据包;进制转换单元,用于将独立数据包转换为二进制,并将相邻八个二进制字符为一组二进制数据组;色彩转换单元,用于将相邻的三组二进制数据组转化为十进制,以此表示像素色彩,构建图片数据并编码。
[0012]优选的,所述特征区域识别模块包括:标点确定单元,用于为每一组图片数据选择四个像素点作为比对标点,所述比对标点为图片四个角上的像素点;图片比对单元,用于每次选择一个比对标点,移动该比对标点,使其遍历与之比对的图片的每一个像素,在移动过程中比对重叠区域,判断是否有重合区域;数据存储单元,用于统计重合区域出现的数量,将其存储至特征区域数据库中,并为每一个特征区域赋予一个唯一编码。
[0013]优选的,所述重复数据替换模块包括:第一数据截取单元,用于实时获取流数据,截取预设长度的数据,得到第一数据段;第二数据截取单元,用于根据特征区域确定重复数据,并将重复数据截取预设长度,得到第二数据段;数据替换单元,用于在第一数据段与第二数据段重合时,从流数据中截取与该重复数据长度相同的数据,并比对,若相同,则以唯一代码替换流数据中的重复数据。
[0014]本专利技术实施例的另一目的在于提供一种计算机设备,包括存储器和处理器,所述
存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上所述大数据分析方法的步骤。
[0015]本专利技术实施例的另一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上所述大数据分析方法的步骤。
[0016]本专利技术实施例提供的大数据分析方法,通过对大数据进行分析,从而从中提取大量的特征数据以形成特征数据库,进而为特征数据构建映射表,以映射表中的特定代码对该特征数据进行表示,大幅减少了重复数据的存储,提高了数据存储效率,提高了存储空间的有效使用率。
附图说明
[0017]图1为本专利技术实施例提供的大数据分析方法的流程图;图2为本专利技术实施例提供的将大数据单元转换为多组图片数据,按照时间顺序为图片数据进行编码的步骤的流程图;图3为本专利技术实施例提供的根据编码对图片数据进行图片比对,确定特征区域,构建特征区域数据库的步骤的流程图;图4为本专利技术实施例提供的实时获取流数据,根据特征区域确定重复数据,并以唯一代码替换重复数据的步骤的流程图;图5为本专利技术实施例提供的大数据分析系统的架构图;图6为本专利技术实施例提供的数据转换模块的架构图;图7为本专利技术实施例提供的特征区域识别模块的架构图;图8为本专利技术实施例提供的重复数据替换模块的架构图。
具体实施方式
[0018]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0019]可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
[0020]流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,流数据可被视为一个随时间延续而无限增长的动态数据集合。应用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。由于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.大数据分析方法,其特征在于,所述方法包括:获取待处理大数据,按照预设时间间隔对待处理大数据进行数据分割,得到大数据单元;将大数据单元转换为多组图片数据,按照时间顺序为图片数据进行编码;根据编码对图片数据进行图片比对,确定特征区域,构建特征区域数据库,所述特征区域数据库中包含特征区域以及与特征区域对应的唯一代码;实时获取流数据,根据特征区域确定重复数据,并以唯一代码替换重复数据。2.根据权利要求1所述的大数据分析方法,其特征在于,所述将大数据单元转换为多组图片数据,按照时间顺序为图片数据进行编码的步骤,具体包括:将大数据单元分割为多个独立数据包;将独立数据包转换为二进制,并将相邻八个二进制字符为一组二进制数据组;将相邻的三组二进制数据组转化为十进制,以此表示像素色彩,构建图片数据并编码。3.根据权利要求1所述的大数据分析方法,其特征在于,所述根据编码对图片数据进行图片比对,确定特征区域,构建特征区域数据库的步骤,具体包括:为每一组图片数据选择四个像素点作为比对标点,所述比对标点为图片四个角上的像素点;每次选择一个比对标点,移动该比对标点,使其遍历与之比对的图片的每一个像素,在移动过程中比对重叠区域,判断是否有重合区域;统计重合区域出现的数量,将其存储至特征区域数据库中,并为每一个特征区域赋予一个唯一编码。4.根据权利要求1所述的大数据分析方法,其特征在于,所述实时获取流数据,根据特征区域确定重复数据,并以唯一代码替换重复数据的步骤,具体包括:实时获取流数据,截取预设长度的数据,得到第一数据段;根据特征区域确定重复数据,并将重复数据截取预设长度,得到第二数据段;若第一数据段与第二数据段重合,则从流数据中截取与该重复数据长度相同的数据,并比对,若相同,则以唯一代码替换流数据中的重复数据。5.大数据分析系统,其特征在于,所述系统包括:数据获取模块,用于获取待处理大数据,按照预设时间间隔对待处理大数据进行数据分割,得到大数据单元;数据转换模块,用于将大数据单元转换为多组图片数据,按照时间顺序为图片数据进行编码;特征区域识别...

【专利技术属性】
技术研发人员:王皓然周泽元魏力鹏付鋆刘俊荣陶佳冶班秋成吕嵘晶李荣宇
申请(专利权)人:贵州电网有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1