当前位置: 首页 > 专利查询>中南大学专利>正文

基于关联模式的透明计算服务端缓存优化方法及系统技术方案

技术编号:16819010 阅读:35 留言:0更新日期:2017-12-16 12:24
本发明专利技术涉及透明计算技术大数据挖掘领域,公开了一种基于关联模式的透明计算服务端缓存优化方法及系统,以减少磁盘I/O开销、提高缓存的命中率及提升透明计算服务质量。本发明专利技术方法包括:引入支持度对各批次的数据流进行筛选以构建FP‑tree;在挖掘各批次数据流的频繁模式和支持度计数信息时,如果任一条件模式基出现单一前缀路径,且路径上的节点元素的频次相等,则停止对该频次相等的各节点元素所组合的频繁模式子集的挖掘;根据各批次数据流的频繁模式和支持度计数信息创建及更新FP‑Stream结构;当将任一数据块读入缓存时,将该数据块在FP‑Stream结构模式中相关频繁模式所关联的其它频繁项所对应的数据块一并读入。

A transparent computing server end cache optimization method and system based on association pattern

The invention relates to the field of transparent computing technology and big data mining, and discloses a method and system for transparent computing service end buffer optimization based on association mode, so as to reduce disk I/O cost, improve cache hit rate and improve transparent computing service quality. The method of the invention includes: the introduction of support for each batch of data streams were selected to construct FP tree; in each batch of data stream mining frequent patterns and support count information, if any conditional pattern base single prefix path, frequency equal and path of the node elements, then stop the subset of frequent mining each node of the element model by the combination of the frequency equal; according to each batch of data stream frequent pattern and support count information to create and update FP Stream structure; when any data block into the cache, the data blocks in the FP Stream model correlated frequent pattern associated with other frequent items the corresponding data blocks are read.

【技术实现步骤摘要】
基于关联模式的透明计算服务端缓存优化方法及系统
本专利技术涉及透明计算技术大数据挖掘领域,尤其涉及一种基于关联模式的透明计算服务端缓存优化方法及系统。
技术介绍
普适计算是21世纪以来被广泛研究和应用的计算模式,它强调通过对数字环境的上下文感知,为用户提供及时有效的服务。透明计算是一种新的普适计算模式,它的主要思想是使计算和存储相分离,也就是用户私有数据、应用程序以及操作系统都存放在远程服务器,而不是本地机器上。在这种计算和存储分离的模式下,所有的用户数据、应用及操作系统就可以像软件资源一样被按需组合。透明服务平台由搭载轻量级微内核操作系统的透明客户端、透明网络以及提供数据服务的服务端管理平台组成。服务端的主要功能为提供透明计算数据访问服务和透明资源管理服务。因此,透明计算用户自主可控地按需使用服务的过程,其本质是借助虚拟磁盘技术访问存储于服务端的数据。其采用的虚拟磁盘模型具有以下特点:(1)、按资源共享程度及性质划分的三层链式存储机制。虚拟磁盘中数据资源被分成3类:系统资源、应用群组资源、私有数据资源;(2)、结合了位图的写时重定向机制。系统虚拟磁盘和群组虚拟磁盘上的数据以只读的方式存储于服务器,共享给多终端用户;当用户需要对系统虚拟磁盘和群组虚拟磁盘上的数据进行修改时,写时重定向机制将改写块存储于相应用户的用户虚拟磁盘,并使用位图标记改写块的位置。基于透明计算存储与计算分离的思想,在透明终端按需加载数据的过程中,对网络性能就有了很高的要求。在提高用户使用透明计算的体验质量方面,服务端性能成为其服务性能的瓶颈。缓存命中率是透明计算服务端性能表现最关键的因素,因此在服务端制定有效的缓存策略,减少磁盘I/O次数,是改善透明服务质量的一个极为重要的途径。目前针对透明计算的缓存优化思想主要有:(1)、优化缓存结构,从使用分级缓存的角度提高缓存命中率;(2)、结合FIFO、LRU、LFU等缓存替换策略,提出基于单个数据块的访问时间、访问频次计数的缓存策略;(3)、从查询速率的角度,如对终端缓存数据进行分区,结合索引等技术提高数据查询速率。透明服务平台中虚拟磁盘的三层链式存储模型解决了大量数据冗余和数据共享的问题,而结合现有透明计算及其缓存优化的研究现状,在服务性能方面仍存在以下问题:(1)、透明服务平台的三层链式存储的特点,决定了其数据访问的特殊性,因此,其用户数据访问行为模型也会不同于其它虚拟磁盘存储模型。使用传统的缓存策略效果并不显著;(2)、数据块资源在存储上具有一定的规则,针对用户当前访问所需的数据块,必然存在着与之相关的数据块,如果对这些关联度较大的数据块进行预取,就可以减少对磁盘的I/O,从而提高其访问效率。而目前缺乏对透明计算数据块的关联规则进行挖掘的研究工作;(3)、透明计算是强调以用户为中心的网络计算服务模式,并且用户的所有资源均存储在服务端。在服务多客户端的情况下,当大量用户对透明服务端进行访问时,会对网络等服务资源产生严重负载。
技术实现思路
本专利技术目的在于公开一种基于关联模式的透明计算服务端缓存优化方法及系统,以减少磁盘I/O开销、提高缓存的命中率及提升透明计算服务质量。为实现上述目的,本专利技术公开一种基于关联模式的透明计算服务端缓存优化方法,包括:将被用户访问的数据流分批进行处理,扫描各批次所分别对应的数据集合,记录各批次所对应数据集合中满足筛选条件的事务项,并筛选支持度计数大于或等于τ*(σ-ε)*|Bi|的数据块以对n≥2批次的数据流Bn构建FP-tree;其中,σ为最小支持度,ε为最大支持度误差,|Bi|表示批次为i数据流的宽度;使用FP增长法挖掘各批次数据流的频繁模式和支持度计数信息,如果任一条件模式基出现单一前缀路径,且路径上的节点元素的频次相等,则停止对该频次相等的各节点元素所组合的频繁模式子集的挖掘;根据所述各批次数据流的频繁模式和支持度计数信息创建及更新FP-Stream结构;根据FP-Stream结构获得不同时间粒度下的频繁项集,当将任一数据块读入缓存时,将该数据块在FP-Stream结构模式中相关频繁模式所关联的其它频繁项所对应的数据块一并读入。与上述方法相对应的,本专利技术还公开一种基于关联模式的透明计算服务端缓存优化系统,包括:第一处理单元,用于将被用户访问的数据流分批进行处理,扫描各批次所分别对应的数据集合,记录各批次所对应数据集合中满足筛选条件的事务项,并筛选支持度计数大于或等于τ*(σ-ε)*|Bi|的数据块以对n≥2批次的数据流Bn构建FP-tree;其中,σ为最小支持度,ε为最大支持度误差,|Bi|表示批次为i数据流的宽度;第二处理单元,用于使用FP增长法挖掘各批次数据流的频繁模式和支持度计数信息,如果任一条件模式基出现单一前缀路径,且路径上的节点元素的频次相等,则停止对该频次相等的各节点元素所组合的频繁模式子集的挖掘;第三处理单元,用于根据所述各批次数据流的频繁模式和支持度计数信息创建及更新FP-Stream结构;第四处理单元,用于根据FP-Stream结构获得不同时间粒度下的频繁项集,当将任一数据块读入缓存时,将该数据块在FP-Stream结构模式中相关频繁模式所关联的其它频繁项所对应的数据块一并读入。本专利技术具有以下有益效果:出于预取多个数据块来减少磁盘I/O的缓存策略,结合透明服务平台数据访问特征对FP-Stream算法进行相应改进,能有效地预取多个数据块,减少磁盘I/O开销。而且,相比改进前的FP-Stream在处理n≥2的数据集合Bn时,无论原始数据中项的支持度是否频繁,都对其进行存储而言,那么对于大量的访问并不频繁的块,放入FP-Stream中不久就又会通过剪枝被舍弃,这在空间和时间上就产生很大的浪费。而本专利技术在对n≥2批次的数据流Bn构建FP-tree也使用了支持度系数τ对原始数据流进行筛选,避免处理访问不频繁的数据块产生的时间和空间上的成本。另一方面,相比于改进前的FP-Stream在使用FP增长法逐层递归,获得所有的频繁模式及其子集,直至递归到根节点为止,由此会产生大量的子集。其中,大量子集的产生会消耗一定的时间和空间资源,且对于缓存策略中预取多个相关块的思想来说是冗余的。而本专利技术通过:如果任一条件模式基出现单一前缀路径,且路径上的节点元素的频次相等,则停止对该频次相等的各节点元素所组合的频繁模式子集的挖掘,以此避免了处理不必要子集所产生的时间和空间上的成本。下面将参照附图,对本专利技术作进一步详细的说明。附图说明构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术实施例的一种FP-tree结构示意图;图2为本专利技术实施例的一种FP-stream结构示意图;图3为本专利技术实施例的一种停止频繁模式子集挖掘的条件模式基的示意图;图4为本专利技术实施例例举的5分钟内透明计算服务端被访问数据块的频次累计统计图;图5为本专利技术实施例例举的相同块前后被访问的时间间隔分布示意图;图6为本专利技术实施例例举的数据块偏移量差值的分布示意图;图7为本专利技术实施例例举的预取不同数量的数据块对缓存命中率影响的对比结果图;图8为本专利技术实施例例举的不同缓存策略下的缓存命中率比较结果示意本文档来自技高网
...
基于关联模式的透明计算服务端缓存优化方法及系统

【技术保护点】
一种基于关联模式的透明计算服务端缓存优化方法,其特征在于,包括:将被用户访问的数据流分批进行处理,扫描各批次所分别对应的数据集合,记录各批次所对应数据集合中满足筛选条件的事务项,并筛选支持度计数大于或等于τ*(σ‑ε)*|Bi|的数据块以对n≥2批次的数据流Bn构建FP‑tree;其中,σ为最小支持度,ε为最大支持度误差,|Bi|表示批次为i数据流的宽度;使用FP增长法挖掘各批次数据流的频繁模式和支持度计数信息,如果任一条件模式基出现单一前缀路径,且路径上的节点元素的频次相等,则停止对该频次相等的各节点元素所组合的频繁模式子集的挖掘;根据所述各批次数据流的频繁模式和支持度计数信息创建及更新FP‑Stream结构;根据FP‑Stream结构获得不同时间粒度下的频繁项集,当将任一数据块读入缓存时,将该数据块在FP‑Stream结构模式中相关频繁模式所关联的其它频繁项所对应的数据块一并读入。

【技术特征摘要】
1.一种基于关联模式的透明计算服务端缓存优化方法,其特征在于,包括:将被用户访问的数据流分批进行处理,扫描各批次所分别对应的数据集合,记录各批次所对应数据集合中满足筛选条件的事务项,并筛选支持度计数大于或等于τ*(σ-ε)*|Bi|的数据块以对n≥2批次的数据流Bn构建FP-tree;其中,σ为最小支持度,ε为最大支持度误差,|Bi|表示批次为i数据流的宽度;使用FP增长法挖掘各批次数据流的频繁模式和支持度计数信息,如果任一条件模式基出现单一前缀路径,且路径上的节点元素的频次相等,则停止对该频次相等的各节点元素所组合的频繁模式子集的挖掘;根据所述各批次数据流的频繁模式和支持度计数信息创建及更新FP-Stream结构;根据FP-Stream结构获得不同时间粒度下的频繁项集,当将任一数据块读入缓存时,将该数据块在FP-Stream结构模式中相关频繁模式所关联的其它频繁项所对应的数据块一并读入。2.根据权利要求1所述的基于关联模式的透明计算服务端缓存优化方法,其特征在于,根据所述各批次数据流的频繁模式和支持度计数信息创建及更新FP-Stream结构包括:如果挖掘到的频繁项集中的频繁项I在FP-Stream中,就把I对应的支持度计数写入时间窗列表;如果挖掘到的频繁项I不在FP-Stream中,且其支持度计数大于ε*|Bi|,把I插入到FP-Stream中,且在把I第一次放入FP-Stream的时候,用I的支持度计数对其前缀路径上节点的时间窗进行更新;否则,停止在FP-tree中对I的超集的挖掘。3.根据权利要求1所述的基于关联模式的透明计算服务端缓存优化方法,其特征在于,还包括:对FP-Stream按深度优先的策略进行扫描,检测每个频繁项对应的时间窗是否更新,如果没有,在相应的频繁项对应的倾斜窗口中插入0;假设距当前最近的批次的时间窗标识为t0,最远的批次的时间窗标识为tn,任一频繁项倾斜时间窗中的支持度计数为对该频繁项的时间窗进行尾部置零的操作,如果满足以下条件则保留把置为零;具体条件如下:且以及如果任一频繁项倾斜时间窗的支持度都为0,则舍弃该频繁项及其相应的子节点。4.根据权利要求1至3任一所述的基于关联模式的透明计算服务端缓存优化方法,其特征在于,所述缓存采用两层结构,第一层用于存放在FP-Stream结构模式中相关频繁模式所关联的数据块集合,第二层用于存放系统数据、应用群组数据及用户数据;第一和第二层都采用以LRU为基础策略的队列形式;当用户对某数据块DBi进行访问时,将数据块的关联模式应用于缓存的步骤为:(1)、判断DBi是否存在于第一层缓存中,如果存在,将DBi放在第一层缓存队列的队首;(2)、如果DBi不在第一层缓存中,辨别其属于系统资源、应用资源还是用户资源,并在第二层缓存的相应分区中进行匹配,如果匹配到了,使用LRU方法把数据块DBi放到相应队列的队首;否则,执行第(3)步;(3)、在FP-Stream中查找DBi对应的频繁项,如果找到了,则从磁盘中将FP-Stream结构模式中该频繁项相关频繁模式所关联的其它频繁项所对应的数据块一并读入第一层缓存的队首;如果FP-Stream中没有与DBi相关的频繁项,从磁盘中读取DBi及与其连续的至少一个数据块放入第二层缓存的相应分区中。5.根据权利要求4所述的基于关联模式的透明计算服务端缓存优化方法,其特征在于,一并读入第二层缓存的关联数据块的数量小于或等于5。6.一种基于关联模式的透明计算服务端缓...

【专利技术属性】
技术研发人员:王斌陈琳李伟民盛津芳
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1