一种云存储日志数据分析方法技术

技术编号:10344636 阅读:109 留言:0更新日期:2014-08-21 16:42
本发明专利技术涉及一种云存储日志数据分析方法,步骤1、对云存储日志的数据进行预分析;步骤2、对预分析后的云存储日志数据进行计算,得到生成关联准则需要的频繁项集;步骤3、根据步骤2得到的频繁项集生成云存储日志的关联准则;步骤4、输出步骤3得到的关联规则.本发明专利技术通过对频繁项集矩阵的化简来减小生成的候选项集矩阵的规模,有效的减少了后续迭代计算过程中生成的候选项集的数量;另外,在进一步改进技术方案中,发明专利技术通过自定义的矩阵运算计算候选项集矩阵,整个计算过程比较简单,能够减少数据分析过程中的运算量,缩短挖掘时间。

【技术实现步骤摘要】
一种云存储日志数据分析方法
本专利技术属于数据分析
,特别涉及一种云存储日志数据分析方法,可用于云存储系统日志的数据分析。
技术介绍
云存储系统在运行的过程中,会产生大量的日志文件。这些日志文件记录了系统管理员对系统的操作情况,用户对系统的访问情况以及系统服务器接收、分析请求、运行时错误等各种原始信息。对系统管理员操作日志进行数据分析,可以规范管理员的操作;对用户访问情况日志进行数据分析,可以发现用户的行为习惯,有利于查询、分析各用户操作,提升用户满意度;对云存储服务器日志进行数据分析,可以检测系统状态,排除网络故障,实现入侵检测,还能够发现云存储系统自身的设计缺陷、性能瓶颈以及需要优化配置的模块。由于云存储系统所产生的日志数据量非常庞大,因而如何从大量的数据中,快速并有效地提取出有价值的信息,发现这些信息之间的相互关系,成为云存储日志数据分析中首要解决的问题。目前针对云存储系统日志的数据分析的研究较少。关联准则是数据分析过程的重要组成部分,通过关联准则可以发现大量数据之间的内在关系和有价值的联系。对云存储日志进行数据分析,生成关联准则,就可以有效利用云存储日志文件。目前,现有的云存储日志的数据分析的流程参见附图1所示,其主要包括:对云存储日志文件预处理,准则生成和对生成的准则输出进行分析利用这几个步骤。其中准则生成这一步,主要涉及寻找频繁项集和生成关联准则两个方面。其中寻找频繁项集的方法主要有Apriori算法和基于矩阵的Apriori算法。Apriori算法是一种经典的寻找频繁项集算法,该算法使用逐层搜索的迭代方法,利用前一项的计算结果得到后一项。Apriori算法被广泛的研究和改进,其中一种改进是基于矩阵的Apriori算法。这个改进是将矩阵的思想应用到该算法中,把被分析的数据库表示成矩阵的形式。通过这种方法可以将数据库的扫描次数减少为两次,缩短数据分析时间,提高算法性能。然而,现有基于矩阵的Apriori算法存在以下问题:首先该算法的计算量比较大,当被分析的数据库中包含的数据项目较多时,该算法耗费的时间会呈指数增长,所以在对大量数据进行分析时,会耗费更多的时间;其次,该算法在进行迭代的过程中会产生过多的候选项集,存储这些候选项集会占用内存空间,并且在进行后续的迭代计算时增加计算量。这些缺点不利于从云存储日志中快速的提取关联准则,导致整个云存储日志的数据分析过程需要很长的时间,效率不高,不能及时反映云存储系统的运行状态情况,不利于对系统进行优化和性能提升。
技术实现思路
本专利技术所要解决的技术问题是针对上述现有技术提供一种云存储日志数据分析方法,该方法能减少计算量和迭代过程中生成的候选项集数据,能大大提高数据分析的效果。本专利技术解决上述技术问题所采用的技术方案为:一种云存储日志数据分析方法,其包括如下步骤:步骤1、对云存储日志的数据进行预分析,即删除日志数据中的重复数据,补齐日志数据中的缺失数据;步骤2、对预分析后的云存储日志数据进行计算,得到生成关联准则需要的频繁项集;步骤3、根据步骤2得到的频繁项集生成云存储日志的关联准则;步骤4、输出步骤3得到的关联规则;其特征在于:设常数k,k为迭代计算的次数,令k的初始值为2,所述步骤2中,通过以下步骤得到生成关联准则需要的频繁项集:步骤2a、利用预分析后的云存储日志数据生成候选1项集矩阵C1:候选1项集矩阵该矩阵是M行N列矩阵,cij是该矩阵的第i行第j列的元素,i和j是候选1项集矩阵C1的位置索引,其中1≤i≤M,1≤j≤N,Ij为云存储日志数据库中记录的第j个事件,Ij∈{I1,I2,…,IN},1、2、……N表示云存储日志数据库中包含的事件的标号,N为事件的总数;Ti为云存储日志据库中的第i条日志,Ti∈{T1,T2,…TM},1、2、……M表示云存储日志据库中记录的日志的标号,M为日志的总数;cij是一个布尔值,只能取0或者1,即如果云存储日志文件记录的第i条日志Ti包含第j个事件Ij,则cij取0,否则cij取1;步骤2b、利用给定的最小支持度Sc和候选1项集矩阵C1,计算频繁1项集矩阵L1,对该矩阵进行化简,得到化简后的频繁1项集矩阵L1',其中最小支持度Sc等于常数x乘以N,常数x的取值范围为0~1;其具体通过如下步骤实现:步骤2b-1、计算候选1项集矩阵C1各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,得到第一中间矩阵;步骤2b-2、计算第一中间矩阵每一行的行和,若行和小于2,则将该行删除,否则保留该行,得到第二中间矩阵;步骤2b-3、计算第二中间矩阵各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,生成新的频繁1项集矩阵L1';步骤2c、设k为迭代计算的次数,令k的初始值为2,利用k的值求得(k-1)的值,确定出计算候选k项集矩阵Ck时需要的频繁(k-1)项集矩阵Lk-1',并根据该频繁(k-1)项集矩阵Lk-1'得到候选k项集矩阵Ck:步骤2d、利用最小支持度Sc与候选k项集矩阵Ck,计算频繁k项集矩阵Lk,并对该频繁k项集矩阵Lk进行化简,得到化简后的频繁k项集矩阵Lk',包括如下步骤:步骤2d-1、计算候选2项集矩阵C2中各列的列和,依次将每列列和与最小支持度Sc比较,若列小于最小支持度Sc,则删除该列,反之则保留该列,得到第三中间矩阵;步骤2d-2、根据迭代计算次数k的值求出k+1的值,计算第三中间矩阵每一行的行和,若行和小于k+1,则将对应的行删除行,否则保留该行,得到第四中间矩阵;步骤2d-3、再次计算第四中间矩阵各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,生成化简后的频繁k项集矩阵Lk';步骤2e、判断化简后的频繁k项集矩阵Lk'是否为空矩阵,若该矩阵为空矩阵,则结束计算,否则令k自增1,重复步骤2c至步骤2d。作为改进,所述步骤2c中候选k项集矩阵Ck由下述方式计算得到:设其中u,v分别表为频繁(k-1)项集矩阵Lk-1'的位置索引,并根据该频繁(k-1)项集矩阵Lk-1'得到候选k项集矩阵Ck:其中“∧”表示与运算符。再改进,所述步骤3通过如下步骤得到关联准则:步骤3a、给定最小置信度Sz,最小置信度Sz的取值范围为0~1;步骤3b、对于化简后的频繁k项集矩阵Lk',将Lk'的每一列组成一个单列矩阵l,l∈Lk',产生单列矩阵l的所有非空子集r;步骤3c、对于每个非空子集r,如果其中Sr是非空子集r的计数,Sl是单列矩阵l的列和,则得到关联准则与现有技术相比,本专利技术的优点在于:本专利技术通过对频繁项集矩阵的化简来减小生成的候选项集矩阵的规模,有效的减少了后续迭代计算过程中生成的候选项集的数量;另外,在进一步改进技术方案中,专利技术通过自定义的矩阵运算计算候选项集矩阵,整个计算过程比较简单,能够减少数据分析过程中的运算量,缩短挖掘时间。附图说明图1为现有技术中云存储日志的数据分析方法流程图;图2为本专利技术实施例中步骤2得到频繁项集的流程图;图3为采用本专利技术实施例中的生成频繁项集方法与现有方法中生成频繁项集方法的效果对比图。具体实施方式以下结合附图实施例对本本文档来自技高网
...
一种云存储日志数据分析方法

【技术保护点】
一种云存储日志数据分析方法,其包括如下步骤:步骤1、对云存储日志的数据进行预分析,即删除日志数据中的重复数据,补齐日志数据中的缺失数据;步骤2、对预分析后的云存储日志数据进行计算,得到生成关联准则需要的频繁项集;步骤3、根据步骤2得到的频繁项集生成云存储日志的关联准则;步骤4、输出步骤3得到的关联规则;其特征在于:所述步骤2中,通过以下步骤得到生成关联准则需要的频繁项集:步骤2a、利用预分析后的云存储日志数据生成候选1项集矩阵C1:候选1项集矩阵该矩阵是m行n列矩阵,cij是该矩阵的第i行第j列的元素,i和j是候选1项集矩阵C1的位置索引,其中1≤i≤m,1≤j≤n,Ij为云存储日志数据库中记录的第j个事件,Ij∈{I1,I2,...,IN},1、2、……N表示云存储日志数据库中包含的事件的标号,N为事件的总数;Ti为云存储日志据库中的第i条日志,Tj∈{T1,T2,...,TM},1、2、……M表示云存储日志据库中记录的日志的标号,M为日志的总数;cij是一个布尔值,只能取0或者1,即如果云存储日志文件记录的第i条日志Ti包含第j个事件Ij,则cij取0,否则cij取1;步骤2b、利用给定的最小支持度Sc和候选1项集矩阵C1,计算频繁1项集矩阵L1,对该矩阵进行化简,得到化简后的频繁1项集矩阵L1'其中最小支持度Sc等于常数x乘以N,常数x的取值范围为0~1;步骤2c、设k为迭代计算的次数,令k的初始值为2,利用k的值求得(k‑1)的值,确定出计算候选k项集矩阵Ck时需要的频繁(k‑1)项集矩阵Lk‑1',并根据该频繁(k‑1)项集矩阵Lk‑1'得到候选k项集矩阵Ck;步骤2d、利用最小支持度Sc与候选k项集矩阵Ck,计算频繁k项集矩阵Lk,并对该频繁k项集矩阵Lk进行化简,得到化简后的频繁k项集矩阵Lk';步骤2e、判断化简后的频繁k项集矩阵Lk'是否为空矩阵,若该矩阵为空矩阵,则结束计算,否则令k自增1,重复步骤2c至步骤2d。...

【技术特征摘要】
1.一种云存储日志数据分析方法,其包括如下步骤:步骤1、对云存储日志的数据进行预分析,即删除日志数据中的重复数据,补齐日志数据中的缺失数据;步骤2、对预分析后的云存储日志数据进行计算,得到生成关联准则需要的频繁项集;步骤3、根据步骤2得到的频繁项集生成云存储日志的关联准则;步骤4、输出步骤3得到的关联规则;其特征在于:设常数k,k为迭代计算的次数,令k的初始值为2,所述步骤2中,通过以下步骤得到生成关联准则需要的频繁项集:步骤2a、利用预分析后的云存储日志数据生成候选1项集矩阵C1:候选1项集矩阵该矩阵是M行N列矩阵,cij是该矩阵的第i行第j列的元素,i和j是候选1项集矩阵C1的位置索引,其中1≤i≤M,1≤j≤N,Ij为云存储日志数据库中记录的第j个事件,Ij∈{I1,I2,…,IN},1、2、……N表示云存储日志数据库中包含的事件的标号,N为事件的总数;Ti为云存储日志据库中的第i条日志,Ti∈{T1,T2,…TM},1、2、……M表示云存储日志据库中记录的日志的标号,M为日志的总数;cij是一个布尔值,只能取0或者1,即如果云存储日志文件记录的第i条日志Ti包含第j个事件Ij,则cij取0,否则cij取1;步骤2b、利用给定的最小支持度Sc和候选1项集矩阵C1,计算频繁1项集矩阵L1,对该矩阵进行化简,得到化简后的频繁1项集矩阵L1',其中最小支持度Sc等于常数x乘以N,常数x的取值范围为0~1;其具体通过如下步骤实现:步骤2b-1、计算候选1项集矩阵C1各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,得到第一中间矩阵;步骤2b-2、计算第一中间矩阵每一行的行和,若行和小于2,则将该行删除,否则保留该行,得到第二中间矩阵;步骤2b-3、计算第二中间矩阵各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反...

【专利技术属性】
技术研发人员:樊凯李晖郝延静
申请(专利权)人:西安电子科技大学宁波信息技术研究院
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1