一种数据处理与分析系统技术方案

技术编号:32728256 阅读:12 留言:0更新日期:2022-03-20 08:33
本发明专利技术公开了一种数据处理与分析系统,包括数据存储模块、数据提取模块、数据处理模块、数据分析模块和输出模块,所述数据存储模块存储全部数据,数据提取模块根据需要提取一定的数据用于计算,本发明专利技术通过数据提取模块中的异常数据单元,首先对异常数据进行发掘,对异常数据的位置进行确定,并根据位置确定可能造成异常数据的相关数据,对相关数据的促进和降低影响进行计算,最后计算异常数据的正常取值,使异常数据调整至正常数据,方便后续数据的再处理和再分析,从而使数据处理和分析的精确度更高,节省数据整体的处理和分析时间,使数据处理和分析的效果更好。处理和分析的效果更好。

【技术实现步骤摘要】
一种数据处理与分析系统


[0001]本专利技术涉及数据处理与分析
,具体为一种数据处理与分析系统。

技术介绍

[0002]数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据,数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用,数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程;
[0003]但是目前的数据处理与分析系统,没有对异常数据的相关数据位置进行查找,对异常数据的分析范围较广泛,对于异常数据的分析任务量较重,分析时间较长,导致异常数据不能及时的确定,分析的精准度不高。

技术实现思路

[0004]本专利技术提供一种数据处理与分析系统,可以有效解决上述
技术介绍
中提出目前的数据处理与分析系统,没有对异常数据的相关数据位置进行查找,对异常数据的分析范围较广泛,对于异常数据的分析任务量较重,分析时间较长,导致异常数据不能及时的确定,分析的精准度不高的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种数据处理与分析系统,包括数据存储模块、数据提取模块、数据处理模块、数据分析模块和输出模块;
[0006]数据选择单元对用户需求进行分析,确定查找的关键词;
[0007]自定义提取单元在数据存储模块中通过关键词查找关联数据,并在查找列表中选择排序第一的数据组作为一次关联数据组;
[0008]异常数据单元对一次关联数据组中的异常数据进行查找;
[0009]在自定义提取单元中输入异常数据,查找时间早于一次关联数据组的同类型的数据组,在查找列表中选择排序第一的数据组作为二次关联数据组;
[0010]在自定义提取单元中输入二次关联数据组中的异常数据,查找时间早于二次关联数据组的同类型的数据组,在查找列表中选择排序第一的数据组作为三次关联数据组;
[0011]一次关联数据组中的数据记为A1、A2、A3…
Ai;
[0012]二次关联数据组中的数据记为B1、B2、B3…
Bi;
[0013]三次关联数据组中的数据记为C1、C2、C3…
Ci;
[0014]异常数据查找过程首先对一次关联数据之间的偏差进行计算,计算的公式如下:
[0015][0016]式中,k表示一次关联数据组中的第k个数据,k∈[1,2,3

i];
[0017]X
k
表示一次关联数据组中第k个数据的偏差;
[0018]ΔAi表示一次关联数据组中相邻数据之间的差值;
[0019]ΔAi具体通过下式表示:ΔAi=Ai

A(i

1);
[0020]提取式中X
k
大于1时对应的数据Ak,则Ak为异常数据;
[0021]确定异常数据Ak后,再计算二次关联数据组中的X
k
值,对应的计算公式如下:
[0022][0023]式中,k表示二次关联数据组中的第k个数据,k∈[1,2,3

i];
[0024]X
k
表示二次关联数据组中第k个数据的偏差;
[0025]ΔBi为二次关联数据组中相邻数据之间的差值;
[0026]ΔBi具体通过下式表示:ΔBi=Bi

B(i

1);
[0027]若二次关联数据组中全部数据对应的X
k
均小于1,则确定异常数据在一次关联数据中是初次出现,则确定一次关联数据组的产生时间t1和二次数据组产生的时间t2,在t2至t1的时间段的全部数据中查找与异常数据Ak相关的数据。
[0028]根据上述技术方案,若二次关联数据组中存在X
k
大于1的数据,提取式中X
k
大于1时对应的数据Bk,则Bk为异常数据,继续计算三次关联数据组中的X
k
值,对应的计算公式如下:
[0029][0030]式中,k表示三次关联数据组中的第k个数据,k∈[1,2,3

i];
[0031]X
k
表示三次关联数据组中第k个数据的偏差;
[0032]ΔCi为二次关联数据组中相邻数据之间的差值;
[0033]ΔCi具体通过下式表示:ΔCi=Ci

C(i

1);
[0034]若三次关联数据组中全部数据对应的X
k
均小于1,则确定异常数据在二次关联数据中是初次出现,则确定二次关联数据组的产生时间t2和三次关联数据组的产生时间t3,在t3至t2的时间段的全部数据中查找与异常数据Bk相关的数据。
[0035]根据上述技术方案,所述数据存储模块存储全部数据,数据提取模块根据需要提取一定的数据用于计算,数据分析模块利用提取的数据进行分析并验证得出结果,输出模块输出最终的分析结果;
[0036]所述数据提取模块包括数据选择单元、自定义提取单元和异常数据单元,数据选择单元根据所需数据的领域和时间,选择全部需要的数据,自定义提取单元输入自定义的关键词,对关联的数据进行精确选择,将关联的数据组合成数据模型,异常数据单元将异常数据单独分离;
[0037]根据上述技术方案,所述数据分析模块将查找的相关数据进行分类,将相关数据分为正向数据和反向数据,正向数据提高异常数据的数值,反向数据降低异常数据的数值,通过下式计算综合影响值:
[0038][0039]式中,H为综合影响值;
[0040]Y1为正向数据影响值;
[0041]Y2为反向数据影响值;
[0042]E1为正向数据的数据容量;
[0043]E2为反向数据的数据容量;
[0044]正向数据影响值Y1为专家对正向数据促进程度的评分,评分为1

10,数值越高则正向数据的促进程度越高;
[0045]反向数据影响值Y2为专家对反向数据降低程度的评分,评分为1

10,数值越高则反向数据的降低程度越高。
[0046]根据上述技术方案,所述数据处理模块根据综合影响值计算调整因子,调整因子的计算公式如下:
[0047][0048]式中,S为调整因子;
[0049]H为综合影响值;
[0050]数据分析模块将异常数据与调整因子S相乘,乘积即为异常数据调整后的正常值;
[0051]输出模块输出异常数据和调整后的正常值。
[0052]与现有技术相比,本专利技术的有益效果:
[0053]1、通过关键词提取一次关联数据组,并计算查找数据组中的异常数据,根据一次关联数据提取时间在前的二次关联数据组,再提取时间在前的三次关联数据组,依次查找异常数据初次产生的位置,确定异常数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理与分析系统,其特征在于:包括数据存储模块、数据提取模块、数据处理模块、数据分析模块和输出模块;数据选择单元对用户需求进行分析,确定查找的关键词;自定义提取单元在数据存储模块中通过关键词查找关联数据,并在查找列表中选择排序第一的数据组作为一次关联数据组;异常数据单元对一次关联数据组中的异常数据进行查找;在自定义提取单元中输入异常数据,查找时间早于一次关联数据组的同类型的数据组,在查找列表中选择排序第一的数据组作为二次关联数据组;在自定义提取单元中输入二次关联数据组中的异常数据,查找时间早于二次关联数据组的同类型的数据组,在查找列表中选择排序第一的数据组作为三次关联数据组;一次关联数据组中的数据记为A1、A2、A3…
Ai;二次关联数据组中的数据记为B1、B2、B3…
Bi;三次关联数据组中的数据记为C1、C2、C3…
Ci;异常数据查找过程首先对一次关联数据之间的偏差进行计算,计算的公式如下:式中,k表示一次关联数据组中的第k个数据,k∈[1,2,3

i];X
k
表示一次关联数据组中第k个数据的偏差;ΔAi表示一次关联数据组中相邻数据之间的差值;ΔAi具体通过下式表示:ΔAi=Ai

A(i

1);提取式中X
k
大于1时对应的数据Ak,则Ak为异常数据;确定异常数据Ak后,再计算二次关联数据组中的X
k
值,对应的计算公式如下:式中,k表示二次关联数据组中的第k个数据,k∈[1,2,3

i];X
k
表示二次关联数据组中第k个数据的偏差;ΔBi为二次关联数据组中相邻数据之间的差值;ΔBi具体通过下式表示:ΔBi=Bi

B(i

1);若二次关联数据组中全部数据对应的X
k
均小于1,则确定异常数据在一次关联数据中是初次出现,则确定一次关联数据组的产生时间t1和二次数据组产生的时间t2,在t2至t1的时间段的全部数据中查找与异常数据Ak相关的数据。2.根据权利要求1所述的一种数据处理与分析系统,其特征在于,若二次关联数据组中存在X
k
大于1的数据,提取式中X
...

【专利技术属性】
技术研发人员:马剑宣梓华丁玉樑杨昕王永琴
申请(专利权)人:江苏金农股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1