基于频繁项集的数据关联性分析和预读取方法技术

技术编号:11982267 阅读:123 留言:0更新日期:2015-09-02 12:35
本发明专利技术提供了一种基于频繁项集的数据关联性分析和预读取方法,包括步骤如下:云平台每处理一个作业,将该次作业中每一个子任务处理的数据块作为一条记录存入资料库中;每隔一定时间利用集群的空闲资源对资料库中的频繁项集进行挖掘,找出数据块之间的关联性;在之后作业的执行过程中,根据预测的置信度,结合数据与任务所在节点的位置关系,提前读取所需要的数据块,从而达到提升整个集群吞吐率的目的。

【技术实现步骤摘要】

本专利技术设及一种分布式系统中数据关联性分析W及数据预读取
,具体 的,设及一种通过挖掘频繁项集找到数据的关联性,提前读取数据,从而提升整个系统的运 行速度。
技术介绍
在分布式系统中,一个文件通常被分割为多个等大的数据块,分布在集群中的各 台机器上,在进行计算时,系统会将一个大的作业拆分为多个子任务,部署到不同的机器上 同时运行,每个子任务通常会处理一至多个数据块。在任务执行过程中,需要读取相应的数 据块,按照任务所在节点与数据所在节点二者的位置关系,读取方式可W分为=类: (i)二者在同一节点上,通过本地磁盘I/O读取数据; (ii)二者不在同一节点但在同一机架上,通过机架内的网络传输数据; (iii)二者不在同一机架上,通过机架间的网络传输数据。 在数据密集型作业中,数据的读取往往成为系统效率的瓶颈,由于上述=种读取 方式的速度依次递减,因此如何降低网络传输所占的比例,将成为提升系统性能的关键所 在。 W目前广泛使用的分布式计算平台化doop为例,它的文件系统皿FS化adoop DistributedFileSystem)会将一个文件拆分为多个等大的数据块炬本文档来自技高网...

【技术保护点】
一种基于频繁项集的数据关联性分析和预读取方法,其特征在于,包括如下步骤:步骤1:对于用户提交到云平台中的第i个作业Jobi,云平台根据作业Jobi中的每个子任务Taskij涉及到的数据块生成一条记录Tij,并将记录Tij存入资料库D中;其中,Taskij表示作业Jobi的第j个子任务;i为正整数,j为正整数;所述记录Tij,是指作业Jobi中的子任务Taskij涉及到的数据块的集合;步骤2:每隔时间间隔Interval,对资料库D中的数据进行挖掘,找到频繁项集中所有的关联规则L,关联规则L中大小为m的子规则集合记为Lm,关联子规则集合Lm中的子规则Lmk的支持度定义为Support(Lmk);...

【技术特征摘要】

【专利技术属性】
技术研发人员:唐飞龙张健桐栾志坤张杨王玉凤房新宇唐灿过敏意
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1