一种基于事件关系网络的事件摘要方法技术

技术编号:11120777 阅读:147 留言:0更新日期:2015-03-11 09:59
本发明专利技术提供一种基于事件关系网络的事件摘要方法,包括以下步骤:步骤1,选取有序事件序列中任意两个事件类型作为关注事件类型,根据关注事件类型构造一个子事件序列,并构造该子事件序列的到达间隔直方图;步骤2,基于最短描述长度原则编码子事件序列中的片段;步骤3,基于启发式算法对子事件序列中的片段进行划分,计算子事件序列的最短编码长度;步骤4,构造事件关系网络刻画事件模式。本发明专利技术提供的方法依据最短描述长度原则对事件到达间隔直方图及其近似直方图进行编码,表达方式直观、易于理解,克服了需要事先确定组数和频数的不足,并能识别不相交的直方图集合。

【技术实现步骤摘要】

本专利技术属于数据挖掘领域,特别是一种基于事件关系网络图的事件摘要方法。
技术介绍
事件摘要是数据挖掘领域事件挖掘方向相对新的研究热点之一,可以被视为是频繁项集挖掘和频繁场景挖掘的扩展。频繁模式挖掘技术通过识别离散时间之间的相关性,能揭示一些令人感兴趣的模式,往往可以作为事件摘要的构造块。许多系统和应用程序会产生大量的时序事件,即关联着时间戳的事件序列,例如:系统日志、HTTP请求序列、数据库请求序列和网络流量数据序列等。这些事件捕获了随着时间变化而不断改变的系统状态和行为,对于历史事件数据的挖掘是理解和优化系统行为的有效方式之一。通过审核挖掘得到的事件模式,系统管理员可以建立事件或事故管理规则以消除或者缓解系统失效风险。目前,这种方式已经成为大规模分布式系统管理的标准方法,被IBM和HP这样的IT公司应用于IT基础设施管理。现有的大部分事件挖掘研究工作都致力于场景挖掘或频繁模式发现(R.Agrawal and R.Srikant.Mining sequential patterns.In ICDE,1995;S.Laxman and K.P.Unnikrishnan P.S.Sastryand.Discovering frequent episodes and learning hidden markov models:A formal connection.IEEE Transactions on Knowledge and Data Engineering,17:1505-1517,2005;T.Li,F.Liang,S.Ma,and W.Peng.An integrated framework on mining logs files for computing system management.In KDD,2005.)。这些方法简单地产生相互独立的大量模式,而不能提供一种简要的和综合性的事件摘要以揭示数据集所蕴含的系统视图,且这些模式对于系统管理员而言难于获得将它们应用于降低系统运行风险的方法。最新的事件挖掘研究工作不在聚焦于频繁模式发现,转而关注事件摘要。通常的方法是将事件序列划分为不相交的事件片段,而后为每一个事件片段产生一个事件模式用于描述片段中的事件。Peng提出了一种事件摘要方法,该方法从通过分析事件日志进而度量事件达到获取模式(W.Peng,C.Perng,T.Li,and H.Wang.Event summarization for system management.In KDD,2008.);Kiernan将事件摘要建模成优化问题,主要目的是平衡摘要的准确性和局部模型的缺陷,为此提出了一种基于分片的事件摘要方法,该方法将事件序列按照事件出现的频率变化划分为若干个事件片段(J.Kiernan and E.Terzi.Constructing comprehensive summaries of large event sequences.ACM Transactions on Knowledge Discovery from Data,3:1–31,2009)。基于上述工作,Peng进一步地提出了采用隐马尔科夫模型来刻画事件序列片段之间的状态迁移过程,改进基于分片的事件摘要方法(W.Peng,H.Wang,M.Liu,and W.Wang.An algorithmic approach to event summarization.In SIGMOD,2010.)。然而,这些方法获得的事件摘要对于数据挖掘领域的外行而言难于理解,无法为系统管理员提供足够的帮助。本专利技术中采用直方图的方式描述事件模式,并采用信息论中的位串方式对直方图进行编码。Marsland提出了一种直方图的编码方法(S.Marsland,C.J.Twining,and C.J.Taylor.A minimum description length objective function for group-wise non-rigid image registration.In Image and Vision Computing,2008),但该方法仅适用于有固定的组数和固定的频数的直方图,而本专利技术中用于事件摘要的直方图不能满足上述要求,所以不能应用于本专利技术。
技术实现思路
为克服现有技术的不足,本专利技术中依据最短描述长度原则对事件到达间隔直方图及其近似直方图进行编码,克服了需要事先确定组数和频数的不足,并能识别不相交的直方图集合。进一步地,采用事件网络关系模型这一直观和易于理解的表达方式表示事件模式,能帮助系统管理员掌握系统运行状态及其变化过程。一种基于事件关系网络的事件摘要方法,包括以下步骤:步骤1,构造事件到达间隔直方图,过程如下:给定一个事件序列D,令S是D中最多包含两种不同事件类型ex和ey的子序列,且子序列S可以划分为k个不相交的片段,即S=(S1,S2,...,Sp,...,Sk),1≤p≤k;对于任意的片段Sp,根据片段Sp中事件类型为ex和ey的事件到达时间间隔分布情况,构造事件到达间隔直方图,记为hxy(Sp);步骤2,基于最短描述长度原则编码事件片段,过程如下:给定仅包含事件类型ex和ey的子序列S,对于任意的子序列S中事件片段Sp,先编码近似直方图编码长度再编码与hxy(Sp)的距离,编码长度最后计算事件到达间隔直方图编码长度, L ( h xy ( S p ) ) = L ( h ‾ xy ( S p ) ) + L ( h xy ( S p ) | h ‾ xy 本文档来自技高网
...
一种基于事件关系网络的事件摘要方法

【技术保护点】
一种基于事件关系网络的事件摘要方法,其特征在于,包括以下步骤: 步骤1,选取有序事件序列中任意两个事件类型作为关注事件类型,根据关注事件类型构造一个子事件序列,并构造该子事件序列的到达间隔直方图; 步骤2,基于最短描述长度原则编码子事件序列中的片段; 步骤3,基于启发式算法对子事件序列中的片段进行划分,计算子事件序列的最短编码长度; 步骤4,构造事件关系网络刻画事件模式。

【技术特征摘要】
1.一种基于事件关系网络的事件摘要方法,其特征在于,包括以下步骤: 
步骤1,选取有序事件序列中任意两个事件类型作为关注事件类型,根据关注事件类型构造一个子事件序列,并构造该子事件序列的到达间隔直方图; 
步骤2,基于最短描述长度原则编码子事件序列中的片段; 
步骤3,基于启发式算法对子事件序列中的片段进行划分,计算子事件序列的最短编码长度; 
步骤4,构造事件...

【专利技术属性】
技术研发人员:徐建李涛许福张琨张宏李千目陈龙范志凯吴旺文费薇
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1