【技术实现步骤摘要】
本专利技术设及一种分布式系统中数据关联性分析W及数据预读取
,具体 的,设及一种通过挖掘频繁项集找到数据的关联性,提前读取数据,从而提升整个系统的运 行速度。
技术介绍
在分布式系统中,一个文件通常被分割为多个等大的数据块,分布在集群中的各 台机器上,在进行计算时,系统会将一个大的作业拆分为多个子任务,部署到不同的机器上 同时运行,每个子任务通常会处理一至多个数据块。在任务执行过程中,需要读取相应的数 据块,按照任务所在节点与数据所在节点二者的位置关系,读取方式可W分为=类: (i)二者在同一节点上,通过本地磁盘I/O读取数据; (ii)二者不在同一节点但在同一机架上,通过机架内的网络传输数据; (iii)二者不在同一机架上,通过机架间的网络传输数据。 在数据密集型作业中,数据的读取往往成为系统效率的瓶颈,由于上述=种读取 方式的速度依次递减,因此如何降低网络传输所占的比例,将成为提升系统性能的关键所 在。 W目前广泛使用的分布式计算平台化doop为例,它的文件系统皿FS化adoop DistributedFileSystem)会将一个文件拆分 ...
【技术保护点】
一种基于频繁项集的数据关联性分析和预读取方法,其特征在于,包括如下步骤:步骤1:对于用户提交到云平台中的第i个作业Jobi,云平台根据作业Jobi中的每个子任务Taskij涉及到的数据块生成一条记录Tij,并将记录Tij存入资料库D中;其中,Taskij表示作业Jobi的第j个子任务;i为正整数,j为正整数;所述记录Tij,是指作业Jobi中的子任务Taskij涉及到的数据块的集合;步骤2:每隔时间间隔Interval,对资料库D中的数据进行挖掘,找到频繁项集中所有的关联规则L,关联规则L中大小为m的子规则集合记为Lm,关联子规则集合Lm中的子规则Lmk的支持度定义为Sup ...
【技术特征摘要】
【专利技术属性】
技术研发人员:唐飞龙,张健桐,栾志坤,张杨,王玉凤,房新宇,唐灿,过敏意,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。