The invention relates to the field of transparent computing technology and big data mining, and discloses a method and system for transparent computing service end buffer optimization based on association mode, so as to reduce disk I/O cost, improve cache hit rate and improve transparent computing service quality. The method of the invention includes: the introduction of support for each batch of data streams were selected to construct FP tree; in each batch of data stream mining frequent patterns and support count information, if any conditional pattern base single prefix path, frequency equal and path of the node elements, then stop the subset of frequent mining each node of the element model by the combination of the frequency equal; according to each batch of data stream frequent pattern and support count information to create and update FP Stream structure; when any data block into the cache, the data blocks in the FP Stream model correlated frequent pattern associated with other frequent items the corresponding data blocks are read.
【技术实现步骤摘要】
基于关联模式的透明计算服务端缓存优化方法及系统
本专利技术涉及透明计算技术大数据挖掘领域,尤其涉及一种基于关联模式的透明计算服务端缓存优化方法及系统。
技术介绍
普适计算是21世纪以来被广泛研究和应用的计算模式,它强调通过对数字环境的上下文感知,为用户提供及时有效的服务。透明计算是一种新的普适计算模式,它的主要思想是使计算和存储相分离,也就是用户私有数据、应用程序以及操作系统都存放在远程服务器,而不是本地机器上。在这种计算和存储分离的模式下,所有的用户数据、应用及操作系统就可以像软件资源一样被按需组合。透明服务平台由搭载轻量级微内核操作系统的透明客户端、透明网络以及提供数据服务的服务端管理平台组成。服务端的主要功能为提供透明计算数据访问服务和透明资源管理服务。因此,透明计算用户自主可控地按需使用服务的过程,其本质是借助虚拟磁盘技术访问存储于服务端的数据。其采用的虚拟磁盘模型具有以下特点:(1)、按资源共享程度及性质划分的三层链式存储机制。虚拟磁盘中数据资源被分成3类:系统资源、应用群组资源、私有数据资源;(2)、结合了位图的写时重定向机制。系统虚拟磁盘和群组虚拟磁盘上的数据以只读的方式存储于服务器,共享给多终端用户;当用户需要对系统虚拟磁盘和群组虚拟磁盘上的数据进行修改时,写时重定向机制将改写块存储于相应用户的用户虚拟磁盘,并使用位图标记改写块的位置。基于透明计算存储与计算分离的思想,在透明终端按需加载数据的过程中,对网络性能就有了很高的要求。在提高用户使用透明计算的体验质量方面,服务端性能成为其服务性能的瓶颈。缓存命中率是透明计算服务端性能表现最关键的因 ...
【技术保护点】
一种基于关联模式的透明计算服务端缓存优化方法,其特征在于,包括:将被用户访问的数据流分批进行处理,扫描各批次所分别对应的数据集合,记录各批次所对应数据集合中满足筛选条件的事务项,并筛选支持度计数大于或等于τ*(σ‑ε)*|Bi|的数据块以对n≥2批次的数据流Bn构建FP‑tree;其中,σ为最小支持度,ε为最大支持度误差,|Bi|表示批次为i数据流的宽度;使用FP增长法挖掘各批次数据流的频繁模式和支持度计数信息,如果任一条件模式基出现单一前缀路径,且路径上的节点元素的频次相等,则停止对该频次相等的各节点元素所组合的频繁模式子集的挖掘;根据所述各批次数据流的频繁模式和支持度计数信息创建及更新FP‑Stream结构;根据FP‑Stream结构获得不同时间粒度下的频繁项集,当将任一数据块读入缓存时,将该数据块在FP‑Stream结构模式中相关频繁模式所关联的其它频繁项所对应的数据块一并读入。
【技术特征摘要】
1.一种基于关联模式的透明计算服务端缓存优化方法,其特征在于,包括:将被用户访问的数据流分批进行处理,扫描各批次所分别对应的数据集合,记录各批次所对应数据集合中满足筛选条件的事务项,并筛选支持度计数大于或等于τ*(σ-ε)*|Bi|的数据块以对n≥2批次的数据流Bn构建FP-tree;其中,σ为最小支持度,ε为最大支持度误差,|Bi|表示批次为i数据流的宽度;使用FP增长法挖掘各批次数据流的频繁模式和支持度计数信息,如果任一条件模式基出现单一前缀路径,且路径上的节点元素的频次相等,则停止对该频次相等的各节点元素所组合的频繁模式子集的挖掘;根据所述各批次数据流的频繁模式和支持度计数信息创建及更新FP-Stream结构;根据FP-Stream结构获得不同时间粒度下的频繁项集,当将任一数据块读入缓存时,将该数据块在FP-Stream结构模式中相关频繁模式所关联的其它频繁项所对应的数据块一并读入。2.根据权利要求1所述的基于关联模式的透明计算服务端缓存优化方法,其特征在于,根据所述各批次数据流的频繁模式和支持度计数信息创建及更新FP-Stream结构包括:如果挖掘到的频繁项集中的频繁项I在FP-Stream中,就把I对应的支持度计数写入时间窗列表;如果挖掘到的频繁项I不在FP-Stream中,且其支持度计数大于ε*|Bi|,把I插入到FP-Stream中,且在把I第一次放入FP-Stream的时候,用I的支持度计数对其前缀路径上节点的时间窗进行更新;否则,停止在FP-tree中对I的超集的挖掘。3.根据权利要求1所述的基于关联模式的透明计算服务端缓存优化方法,其特征在于,还包括:对FP-Stream按深度优先的策略进行扫描,检测每个频繁项对应的时间窗是否更新,如果没有,在相应的频繁项对应的倾斜窗口中插入0;假设距当前最近的批次的时间窗标识为t0,最远的批次的时间窗标识为tn,任一频繁项倾斜时间窗中的支持度计数为对该频繁项的时间窗进行尾部置零的操作,如果满足以下条件则保留把置为零;具体条件如下:且以及如果任一频繁项倾斜时间窗的支持度都为0,则舍弃该频繁项及其相应的子节点。4.根据权利要求1至3任一所述的基于关联模式的透明计算服务端缓存优化方法,其特征在于,所述缓存采用两层结构,第一层用于存放在FP-Stream结构模式中相关频繁模式所关联的数据块集合,第二层用于存放系统数据、应用群组数据及用户数据;第一和第二层都采用以LRU为基础策略的队列形式;当用户对某数据块DBi进行访问时,将数据块的关联模式应用于缓存的步骤为:(1)、判断DBi是否存在于第一层缓存中,如果存在,将DBi放在第一层缓存队列的队首;(2)、如果DBi不在第一层缓存中,辨别其属于系统资源、应用资源还是用户资源,并在第二层缓存的相应分区中进行匹配,如果匹配到了,使用LRU方法把数据块DBi放到相应队列的队首;否则,执行第(3)步;(3)、在FP-Stream中查找DBi对应的频繁项,如果找到了,则从磁盘中将FP-Stream结构模式中该频繁项相关频繁模式所关联的其它频繁项所对应的数据块一并读入第一层缓存的队首;如果FP-Stream中没有与DBi相关的频繁项,从磁盘中读取DBi及与其连续的至少一个数据块放入第二层缓存的相应分区中。5.根据权利要求4所述的基于关联模式的透明计算服务端缓存优化方法,其特征在于,一并读入第二层缓存的关联数据块的数量小于或等于5。6.一种基于关联模式的透明计算服务端缓...
【专利技术属性】
技术研发人员:王斌,陈琳,李伟民,盛津芳,
申请(专利权)人:中南大学,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。