基于人工智能的大数据分布式存储方法技术

技术编号:33893406 阅读:14 留言:0更新日期:2022-06-22 17:29
本发明专利技术涉及人工智能领域,具体涉及一种基于人工智能的大数据分布式存储方法。包括:将数据拆分为多个数据单元,获取多个类别的数据单元;计算同一类别中两两数据单元的相关系数,获取每个类别的综合指标数据;将每个类别中的数据单元划分为多个窗口区域,计算每个窗口区域中的数据异常程度,获取该数据单元的异常数据片段;计算每个类别中各个数据单元的异常影响程度值;根据异常影响程度值计算其读取频率,根据读取频率对每个类别中的数据单元划分存储单元。根据本发明专利技术提出的技术手段,通过对数据进行分类处理并分析数据之间的相关性,同时考虑到异常数据对读取频率的影响,进而根据读取频率控制数据进行分布式存储,提高了数据的读取速度。据的读取速度。据的读取速度。

【技术实现步骤摘要】
基于人工智能的大数据分布式存储方法


[0001]本专利技术涉及人工智能领域,具体涉及一种基于人工智能的大数据分布式存储方法。

技术介绍

[0002]随着社会经济的发展、信息化水平的提高,产生的数据量越来越大,如何实现数据的合理化的存储,提高后续信息使用的便利性,成为数据存储的研究重点。分布式存储作为一种新型存储方式,该存储方式是通过将数据分散的存储在各个设备上,提高一种分布式缓存系统,减少网络压力,从而增加数据读取的效率,而设置分布式存储规则的好坏直接影响后续的数据读取效率,因而应该充分考虑数据的特性来设置一种分布式存储规则。
[0003]在设置分布式提取规则时,需要考虑数据的相关性,即将一些相关的数据进行连续存储,同时还需要考虑数据的提取频率,一些数据提取频率高的数据应该将其存储在查询优先级高的设备中,提高其读取的效率。在考虑数据相关性时,通过进行相关性分析,将相关性高的同类别数据连续存储,防止增加客户的提取难度。
[0004]在考虑数据的读取频率时,需分析客户对哪些数据更感兴趣,通常情况下人们一般对综合指标类的信息更关注,因为这类信息能够综合的反应系统的运行情况,例如设备数据中的异常亮灯信息数据。同时客户对造成系统运行异常的异常异常指标数据感兴趣,这类指标信息的异常会造成系统异常的概率较大,因而这两种信息被提取的频率一般相对较高,因而基于这两种数据特征对数据进行处理计算出数据的读取频率,将根据读取频率对数据进行存储,并设置各存储模块的查询优先级。
[0005]本专利技术通过对数据进行分析进而判断数据可能的读取频率,进而根据读取频率控制分布式存储规则。

技术实现思路

[0006]本专利技术提供一种基于人工智能的大数据分布式存储方法,以解决现有的问题,包括:将数据拆分为多个数据单元,获取多个类别的数据单元;计算同一类别中两两数据单元的相关系数,获取每个类别的综合指标数据;将每个类别中的数据单元划分为多个窗口区域,计算每个窗口区域中的数据异常程度,获取该数据单元的异常数据片段;计算每个类别中各个数据单元的异常影响程度值;根据异常影响程度值计算其读取频率,根据读取频率对每个类别中的数据单元划分存储单元。
[0007]根据本专利技术提出的技术手段,通过将数据进行分类处理,从而对每个类别中的数据单元进行相关性分析,将相关性高的数据进行存储,同时考虑到数据异常对读取频率的影响,进而计算每个数据单元的读取频率,从而根据读取频率设置存储规则,实现了数据的分布式存储,提高了数据的读取速度。
[0008]本专利技术采用如下技术方案:一种基于人工智能的大数据分布式存储方法,包括:
[0009]将待存储数据拆分为多个数据单元,计算两两数据单元的相关系数,根据每个数
据单元的相关系数对所有数据单元进行分类。
[0010]计算同一类别中每个数据单元与同类别所有数据单元的相关系数均值,分别对各个类别中所有数据单元的相关系数均值进行密度聚类,将聚类结果中相关系数均值期望值最大的一类作为每个类别的综合指标数据。
[0011]将同类别中每个数据单元划分为多个窗口,计算每个窗口数据的异常程度,将异常程度大于预设阈值的窗口数据作为该数据单元的异常数据片段。
[0012]获取每个数据单元中异常数据片段的占比;对同一类别中两两数据单元的异常数据片段进行关联性分析,获取两两数据单元的关联置信度。
[0013]根据每个类别中各个数据单元的异常数据片段与综合指标数据对应片段的相关系数、该数据单元中异常数据片段的占比、以及两两数据单元的关联置信度计算每个类别中各个数据单元的异常影响程度值。
[0014]根据每个类别中各个数据单元的异常影响程度值计算其读取频率,根据读取频率分别对每个类别中的数据单元划分存储单元。
[0015]进一步的,一种基于人工智能的大数据分布式存储方法,对所有数据单元进行分类的方法为:
[0016]对两两数据单元进行相关性计算得到两两数据单元的相关系数,以每个数据为节点,以相关系数为对应两个数据的边权值,建立所有数据单元的相关性图谱,对所述相关性图谱进行谱聚类,得到多个类别,每个类别中包含多个数据单元。
[0017]进一步的,一种基于人工智能的大数据分布式存储方法,计算每个窗口区域中的数据异常程度的方法为:
[0018]将该窗口数据遮挡,利用其他数据拟合整个数据单元的规律,根据规律拟合遮挡的窗口数据值,根据拟合数据与实际数据的偏差值计算该窗口数据的异常程度值,表达式为:
[0019][0020]其中,P
i,j
表示第i个数据单元第j个窗口数据的偏差值,表示第i个数据单元所有窗口数据的平均拟合偏差值,Y
i,j
表示第i个数据单元第j个窗口数据的异常程度值。
[0021]进一步的,一种基于人工智能的大数据分布式存储方法,所述每个类别中各个数据单元的异常数据片段与综合指标数据对应片段的相关系数为:
[0022]获取该数据单元同类别中的每个综合指标数据与该数据单元的异常数据片段对应区域的数据段,计算该数据单元的异常数据片段与同类别中每个综合指标数据对应数据段之间的相关系数。
[0023]进一步的,一种基于人工智能的大数据分布式存储方法,计算每个类别中各个数据单元的异常影响程度值的方法为:
[0024]对每个类别中两两数据单元的异常数据片段进行关联性分析,得到两两数据单元的的关联置信度;
[0025]获取每个数据单元中异常数据片段的个数占比作为该数据单元的异常发生概率;
[0026]计算每个数据单元的异常程度值的表达式为:
[0027][0028]其中,C
i
表示第i个数据单元的异常程度值,X
i,z
表示第i个数据单元中的异常数据片段与第z个综合指标数据对应片段的相关系数,G
i
表示第i个数据单元的异常发生概率,Z
i,y
表示第i个数据单元与同类别中第y个数据单元之间的关联置信度,X
y,z
表示同类别中与第i个数据单元不同的第y个数据单元的异常数据片段与第z个综合指标数据对应片段的相关性系数,N表示第i个数据单元所在的类别中共有N个综合指标数据,M表示该类别中共有M个数据单元。
[0029]进一步的,一种基于人工智能的大数据分布式存储方法,计算读取频率的表达式为:
[0030]L
i
=γ*C
i
[0031]其中,C
i
表示第i个数据单元的异常影响程度,γ表示调整系数,L
i
表示第i个数据单元的读取频率。
[0032]进一步的,一种基于人工智能的大数据分布式存储方法,根据读取频率对每个类别中的数据单元划分存储单元的方法为:
[0033]根据每个类别中数据单元的数量确定存储设备的个数α,将每个类别中的所有综合指标数据存储在一个设备中;
[0034]将每个类别中的其他数据单元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的大数据分布式存储方法,其特征在于,包括:将待存储数据拆分为多个数据单元,计算两两数据单元的相关系数,根据每个数据单元的相关系数对所有数据单元进行分类;计算同一类别中每个数据单元与同类别所有数据单元的相关系数均值,分别对各个类别中所有数据单元的相关系数均值进行密度聚类,将聚类结果中相关系数均值期望值最大的一类作为每个类别的综合指标数据;将同类别中每个数据单元划分为多个窗口,计算每个窗口数据的异常程度,将异常程度大于预设阈值的窗口数据作为该数据单元的异常数据片段;获取每个数据单元中异常数据片段的占比;对同一类别中两两数据单元的异常数据片段进行关联性分析,获取两两数据单元的关联置信度;根据每个类别中各个数据单元的异常数据片段与综合指标数据对应片段的相关系数、该数据单元中异常数据片段的占比、以及两两数据单元的关联置信度计算每个类别中各个数据单元的异常影响程度值;根据每个类别中各个数据单元的异常影响程度值计算其读取频率,根据读取频率分别对每个类别中的数据单元划分存储单元。2.根据权利要求1所述的一种基于人工智能的大数据分布式存储方法,其特征在于,对所有数据单元进行分类的方法为:对两两数据单元进行相关性计算得到两两数据单元的相关系数,以每个数据为节点,以相关系数为对应两个数据的边权值,建立所有数据单元的相关性图谱,对所述相关性图谱进行谱聚类,得到多个类别,每个类别中包含多个数据单元。3.根据权利要求1所述的一种基于人工智能的大数据分布式存储方法,其特征在于,计算每个窗口区域中的数据异常程度的方法为:将该窗口数据遮挡,利用其他数据拟合整个数据单元的规律,根据规律拟合遮挡的窗口数据值,根据拟合数据与实际数据的偏差值计算该窗口数据的异常程度值,表达式为:其中,P
i,j
表示第i个数据单元第j个窗口数据的偏差值,表示第i个数据单元所有窗口数据的平均拟合偏差值,Y
i,j
表示第i个数据单元第j个窗口数据的异常程度值。4.根据权利要求1所述的一种基于人工智能的大数据分布式存储方法,其特征在于,所述每个类别中各个数据单元的异常数据片段与综合指标数据对应片段的相关系数为:获取该数据单元同类别中的每个综合指标数据与该数据单元的异常数据...

【专利技术属性】
技术研发人员:杨玉豪许文熙
申请(专利权)人:南京大昌智能科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1