一种基于大数据的数据优化方法技术

技术编号:35077430 阅读:22 留言:0更新日期:2022-09-28 11:44
本发明专利技术公开了一种基于大数据的数据优化方法,涉及数据通信领域,包括以下步骤,步骤一:对需要进行优化的数据进行清洗,从而输出所需要的业务数据;步骤二:对所述步骤一种的业务数据进行预处理,将具有相同数值属性的数据归类到一个数据子集合中,同时将其从业务数据中筛选出来;步骤三:对所述步骤二中筛选出的数据子集合进行曲线拟合分析,分离出曲线分布近似正态分布曲线的数据子集合,且归为A类,曲线的分布形式近似泊松分布曲线的数据子集合归为B类,本发明专利技术通过先对海量的数据进行数据清洗筛选出业务所需的数据,从而剔除无关数据,再对清洗后的数据进行分析优化,从而大大提高了数据分析效率,通过将清洗后的数据进行分块分析,极大的缩短了数据分析的时间,也提高了数据分析的准确性。高了数据分析的准确性。高了数据分析的准确性。

【技术实现步骤摘要】
一种基于大数据的数据优化方法


[0001]本专利技术涉及数据通信领域,具体为一种基于大数据的数据优化方法。

技术介绍

[0002]近年来,毫无疑问,各行各业因为大幅爆发的数据而正变得蒸蒸日上,几乎所有行业都或多或少的受到这一巨变的影响,数据的管理和应用,不仅仅在企业中得到重视,国家也制定了相关政策,来促进、保护和发展各领域的相关数据行业发展,数据已有当代“石油”的美誉。因此,对数据的管理手段和方法成为高效使用数据的重要关注点;
[0003]而目前在处理一些拥有巨大数据量的数据时,需要大量的时间,处理效率极低,这也使得数据分析的准确性也不高,从而无法满足业务需求。

技术实现思路

[0004]本专利技术的目的在于提供一种基于大数据的数据优化方法,以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种基于大数据的数据优化方法,包括以下步骤:
[0006]步骤一:对需要进行优化的数据进行清洗,从而输出所需要的业务数据;
[0007]步骤二:对所述步骤一种的业务数据进行预处理,将具有相同数值属性的数据归类到一个数据子集合中,同时将其从业务数据中筛选出来;
[0008]步骤三:对所述步骤二中筛选出的数据子集合进行曲线拟合分析,分离出曲线分布近似正态分布曲线的数据子集合,且归为A类,曲线的分布形式近似泊松分布曲线的数据子集合归为B类;
[0009]步骤四:将B类数据子集合中的曲线沿垂直方向分别上下偏移相同距离,从而形成标准区域;
[0010]步骤五:将B类数据子集合中的数据进行平均分割,从而得到等份的数据块;
[0011]步骤六:对所述步骤五中的任一数据块进行曲线拟合分析,观察得到的曲线,将曲线分布落入在所述步骤四中标准区域的数据块归入A类,将曲线分布没有落入所述步骤四中标准区域的数据块进行重新整合,直到曲线位于所述步骤四中的标准区域内;
[0012]步骤七:对所有A类数据进行数据分析。
[0013]作为优选,所述步骤六中重新整合包括将其余它一个数据块加入到曲线分布没有落入所述步骤四中标准区域的数据块中,能够使得曲线分布落入到所述步骤四中的标准区域则将这两个数据块进行合归入A类数据,如果不能则更换其他数据块直到曲线落入所述步骤四的标准区域中。
[0014]作为优选,所述步骤五中每个数据块内的包含的数据量相等。
[0015]作为优选,所述步骤二中将业务数据集分布设置在云环境中,且只将数值类的数据子集合分离筛选。
[0016]作为优选,所述步骤三中对进行曲线拟合的数据子集合在本地系统中进行单独保存。
[0017]作为优选,所述步骤一种设置业务数据清洗模型,通过产生的业务数据挖掘信息对需要进行优化的数据进行数据清洗,从而输出业务数据。
[0018]作为优选,所述业务数据清洗模型在训练过程中得到业务数据挖掘信息,且所述业务数据对应一个数据交互场景。
[0019]作为优选,所述数值类的数据子集合的数量大于等于三列,从而能有效的提高数据优化的精准性。
[0020]综上所述,本专利技术有益效果是:
[0021]本专利技术通过先对海量的数据进行数据清洗筛选出业务所需的数据,从而剔除无关数据,再对清洗后的数据进行分析优化,从而大大提高了数据分析效率,通过将清洗后的数据进行分块分析,极大的缩短了数据分析的时间,也提高了数据分析的准确性。
附图说明
[0022]为了更清楚地说明专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1为本专利技术一种基于大数据的数据优化方法的框架结构示意图;
[0024]图2为本专利技术一种基于大数据的数据优化方法中标准区域示意图。
具体实施方式
[0025]本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
[0026]本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
[0027]下面结合图1

2对本专利技术进行详细说明,本专利技术提供的一种实施例:一种基于大数据的数据优化方法,包括以下步骤:
[0028]步骤一:对需要进行优化的数据进行清洗,从而输出所需要的业务数据;
[0029]步骤二:对所述步骤一种的业务数据进行预处理,将具有相同数值属性的数据归类到一个数据子集合中,同时将其从业务数据中筛选出来;
[0030]步骤三:对所述步骤二中筛选出的数据子集合进行曲线拟合分析,分离出曲线分布近似正态分布曲线的数据子集合,且归为A类,曲线的分布形式近似泊松分布曲线的数据子集合归为B类;
[0031]步骤四:将B类数据子集合中的曲线沿垂直方向分别上下偏移相同距离,从而形成标准区域;
[0032]步骤五:将B类数据子集合中的数据进行平均分割,从而得到等份的数据块;
[0033]步骤六:对所述步骤五中的任一数据块进行曲线拟合分析,观察得到的曲线,将曲
线分布落入在所述步骤四中标准区域的数据块归入A类,将曲线分布没有落入所述步骤四中标准区域的数据块进行重新整合,直到曲线位于所述步骤四中的标准区域内;
[0034]步骤七:对所有A类数据进行数据分析。
[0035]另外,在一个实施例中,所述步骤六中重新整合包括将其余它一个数据块加入到曲线分布没有落入所述步骤四中标准区域的数据块中,能够使得曲线分布落入到所述步骤四中的标准区域则将这两个数据块进行合归入A类数据,如果不能则更换其他数据块直到曲线落入所述步骤四的标准区域中。
[0036]另外,在一个实施例中,所述步骤五中每个数据块内的包含的数据量相等
[0037]另外,在一个实施例中,所述步骤二中将业务数据集分布设置在云环境中,且只将数值类的数据子集合分离筛选。
[0038]另外,在一个实施例中,所述步骤三中对进行曲线拟合的数据子集合在本地系统中进行单独保存。
[0039]另外,在一个实施例中,所述步骤一种设置业务数据清洗模型,通过产生的业务数据挖掘信息对需要进行优化的数据进行数据清洗,从而输出业务数据。
[0040]另外,在一个实施例中,所述业务数据清洗模型在训练过程中得到业务数据挖掘信息,且所述业务数据对应一个数据交互场景。
[0041]另外,在一个实施例中,所述数值类的数据子集合的数量大于等于三列,从而能有效的提高数据优化的精准性。
[0042]当需要对数据进行优化时,先通过设置业务数据清洗模型,在训练过程中获取业务数据挖掘信息,利用产生的业务数据挖本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的数据优化方法,其特征在于:包括以下步骤:步骤一:对需要进行优化的数据进行清洗,从而输出所需要的业务数据;步骤二:对所述步骤一种的业务数据进行预处理,将具有相同数值属性的数据归类到一个数据子集合中,同时将其从业务数据中筛选出来;步骤三:对所述步骤二中筛选出的数据子集合进行曲线拟合分析,分离出曲线分布近似正态分布曲线的数据子集合,且归为A类,曲线的分布形式近似泊松分布曲线的数据子集合归为B类;步骤四:将B类数据子集合中的曲线沿垂直方向分别上下偏移相同距离,从而形成标准区域;步骤五:将B类数据子集合中的数据进行平均分割,从而得到等份的数据块;步骤六:对所述步骤五中的任一数据块进行曲线拟合分析,观察得到的曲线,将曲线分布落入在所述步骤四中标准区域的数据块归入A类,将曲线分布没有落入所述步骤四中标准区域的数据块进行重新整合,直到曲线位于所述步骤四中的标准区域内;步骤七:对所有A类数据进行数据分析。2.根据权利要求1所述的一种基于大数据的数据优化方法,其特征在于:所述步骤六中重新整合包括将其余它一个数据块加入到曲线分布没有落入所述步骤四中标准区域的数据块中,能够使得曲线分布...

【专利技术属性】
技术研发人员:黄卫葛菲菲陶海丰
申请(专利权)人:浙江华通云数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1