【技术实现步骤摘要】
本专利技术涉及数据处理
,尤其涉及一种数据处理的方法及装置。
技术介绍
随着集群系统、云计算数据中心等平台的规模逐渐增长和计算任务日益复杂,系统故障造成的业务中断、数据泄漏丢失带给用户的打击越来越沉重。当故障发生后,如何进行快速精确的故障诊断成为当务之急。系统的日志中记载了系统运行过程中发生的事件,包括操作系统、内核、网络、硬件、应用程序或用户行为等,是进行系统故障诊断的首选资源。通过对日志进行数据处理,能够从日志中找出导致失效事件的根原因事件(Root cause),以便及时解决系统故障。现有技术中提供了并行处理日志的技术方案如下:根据固定大小对日志事件库(日志文件)进行分割,得到多个子序列库。以并行方式分别对这些子序列库进行数据处理,得到频繁序列(挖掘结果),在对所有频繁序列(挖掘结果)进行复杂的全局模式整合,得到针对上述多个子序列库的挖掘结果。在实现上述数据处理的过程中,专利技术人发现现有技术中至少存在如下问题:现有的对日志事件库进行固定分割并对得到的子序列库进行并行数据处理以提高海量日志挖掘效率的方法中,在获取日志整体挖掘结果时,需要对各个子序列库得到的局部频繁序列进行复杂的模式整合才能得到全局的挖掘结果。模式整合通常需要为每个频繁序列搜索整个日志事件库,使得总体的挖掘效率降低。
技术实现思路
本专利技术提供的一种数据处理的方法及装置,能够解决由于不能保证子序列库中事件的相互独立 ...
【技术保护点】
一种数据处理的方法,其特征在于,包括:根据第一时长对日志事件库进行划分,得到在时序上连续的至少一个日志序列,其中,一个日志序列为一个第一时长内发生的日志事件的有序集合;将所述日志序列中时序上排列第一的日志序列确定为起始序列,从所述起始序列开始依次判断当前日志序列包含的事件数量;如果当前日志序列中的事件数量小于第一预设事件数量,则将所述当前日志序列确定为终止序列;将所述起始序列、所述终止序列以及所述起始序列与所述终止序列之间的日志序列三者的有序集合确定为子序列库,将所述终止序列的下一个序列确定为起始序列,继续进行判断,或者,将所述起始序列以及所述起始序列与所述终止序列之间的日志序列两者的有序集合确定为子序列库,将所述终止序列确定为起始序列,继续进行判断;分别对每个子序列库进行分析处理,得到与每个子序列库分别对应的分析结果,所述分析结果用于表示一个子序列库中的全部第一频繁序列以及每个第一频繁序列在所述子序列库中出现的次数,所述第一频繁序列为日志序列中至少两次出现的有序集合。
【技术特征摘要】 【专利技术属性】
1.一种数据处理的方法,其特征在于,包括:
根据第一时长对日志事件库进行划分,得到在时序上连续的至少一个日志
序列,其中,一个日志序列为一个第一时长内发生的日志事件的有序集合;
将所述日志序列中时序上排列第一的日志序列确定为起始序列,从所述起
始序列开始依次判断当前日志序列包含的事件数量;
如果当前日志序列中的事件数量小于第一预设事件数量,则将所述当前日
志序列确定为终止序列;
将所述起始序列、所述终止序列以及所述起始序列与所述终止序列之间的
日志序列三者的有序集合确定为子序列库,将所述终止序列的下一个序列确定
为起始序列,继续进行判断,或者,将所述起始序列以及所述起始序列与所述
终止序列之间的日志序列两者的有序集合确定为子序列库,将所述终止序列确
定为起始序列,继续进行判断;
分别对每个子序列库进行分析处理,得到与每个子序列库分别对应的分析
结果,所述分析结果用于表示一个子序列库中的全部第一频繁序列以及每个第
一频繁序列在所述子序列库中出现的次数,所述第一频繁序列为日志序列中至
少两次出现的有序集合。
2.根据权利要求1所述的数据处理的方法,其特征在于,所述方法还包括:
根据第二时长分别对所述子序列库中每个日志序列进行分片,得到在时序
上连续的至少一个短日志序列,其中,一个短日志序列为一个第二时长内发生
的日志事件的有序集合;
根据预设规则从每个短日志序列中确定重叠子序列,从所述至少一个短日
志序列中的第一个短日志序列开始,将当前短日志序列的重叠子序列拼接到当
前短日志序列的下一个短日志序列中,将拼接后的下一个短日志序列确定为第
二子序列,其中,重叠子序列为以当前短日志序列时间截止点为截止点的至少
一个日志事件的有序集合;
所述分别对每个子序列库进行分析处理,得到与每个子序列库分别对应的
分析结果,所述分析结果用于表示一个子序列库中的全部第一频繁序列以及每
个第一频繁序列在所述子序列库中出现的次数,所述第一频繁序列为日志序列
\t中至少两次出现的有序集合,包括:
分别对每个子序列库中的全部第二子序列进行分析处理,得到与每个子序
列库分别对应的分析结果,所述分析结果用于表示一个子序列库中的全部第二
频繁序列以及每个第二频繁序列在所述子序列库中出现的次数,所述第二频繁
序列为短日志序列中至少两次出现的有序集合;
如果所述至少一个第二频繁序列中的至少两个第二频繁序列具有相同的重
叠子序列,则将所述至少两个第二频繁序列在所述重叠子序列处进行拼接。
3.根据权利要求2所述的数据处理的方法,其特征在于,所述根据预设规
则从每个短日志序列中确定重叠子序列,从所述至少一个短日志序列中的第一
个短日志序列开始,将当前短日志序列的重叠子序列拼接到当前短日志序列的
下一个短日志序列中,将拼接后的下一个短日志序列确定为第二子序列,包括:
从第一个短日志序列开始,依次在当前短日志序列中,从当前短日志序列
时间截止点向当前短日志序列时间起始点方向,选择预设时长内的有序集合或
第二预设事件数量的有序集合,其中,所述预设时长为第二时长的预设比例的
时长,所述第二预设数量为所述当前短日志序列包含的日志事件数量的预设比
例的事件数量;
将所述预设时长内的有序集合或第二预设事件数量的有序集合确定为所述
当前短日志序列对应的重叠子序列;
从第一个短日志序列开始,依次将当前短日志序列对应的重叠子序列拼接
到所述当前段日志序列的下一个短日志序列的起始位置,所述重叠子序列与所
述下一个短日志序列组成一个第二子序列。
4.根据权利要求2所述的数据处理的方法,其特征在于,所述如果所述至
少一个第二频繁序列中的至少两个第二频繁序列具有相同的重叠子序列,则将
所述两个第二频繁序列进行拼接,包括:
从所述至少一个第二频繁序列中的时序上排列第一的第二频繁序列开始,
依次在当前第二频繁序列至时序上排列倒数第二的第二频繁序列中,从当前第
二频繁序列时间截止点向当前第二频繁序列时间起始点方向,选择预设时长内
的有序集合或第二预设事件数量的有序集合,将所述预设时长内的有序集合或
\t第二预设事件数量的有序集合确定为与所述当前第二频繁序列对应的重叠频繁
序列,其中,所述预设时长为第二时长的预设比例的时长,所述第二预设数量
为所述当前短日志序列包含的日志事件数量的预设比例的事件数量;
从所述至少一个第二频繁序列中查找出具有相同重叠频繁序列的至少两个
第二频繁序列,将所述至少两个第二频繁序列进行拼接。
5.根据权利要求2所述的数据处理的方法,其特征在于,所述如果所述至
少一个第二频繁序列中的至少两个第二频繁序列具有相同的重叠子序列,则将
所述两个第二频繁序列进行拼接,包括:
从所述至少一个第二频繁序列中的时序上排列第二的第二频繁序列开始,
依次在当前第二频繁序列到时序上排列最后的第二频繁序列中,从当前第二频
繁序列时间起始点向当前第二频繁序列时间截止点方向,选择所述预设时长内
的第三有序集合或所述第二预设事件数量的第四有序集合,将所述第三有序集
合或所述第四有序集合确定为与所述当前第二频繁序列对应的重叠频繁序列;
从所述至少一个第二频繁序列中的查找出具有相同重叠频繁序列的至少两
个第二频繁序列,将所述至少两个第二频繁序列进行拼接。
6.一种数据处理的装置,其特征在于,包括:
划分单元,用于根据第一时长对日志事件库进行划分,得到在时序上连续
技术研发人员:付晓毓,任睿,詹剑锋,
申请(专利权)人:华为技术有限公司,中国科学院计算技术研究所,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。