【技术实现步骤摘要】
基于数据去重技术的网络资源预取方法以及系统
本专利技术涉及网络
,具体涉及基于数据去重技术的网络资源预取方法以及系统。
技术介绍
随着互联网信息和用户的大量激增,如何提高网络服务质量、实现WWW加速是目前急需解决的问题。Web缓存机制、Web预取和重复数据删除技术能够有效减少网络延迟。Web缓存技术基于时间局部性原理,采用高效的替换算法,将用户可能访问的资源提前缓存,应用于代理服务器、P2P网络和移动网络等网络环境,但受限于命中率。Web预取技术试图在用户提出请求之前主动预取资源,在一定程度上提高了命中率,降低了访问延迟,但由于Web预取机制是一种投机机制,会导致带宽增加。同时该方法需要谨慎控制,否则将大大的降低性能,违背了原本的意图。数据去重技术旨在通过检测并去除重复数据的占用空间。目前发现若引用相同关键字的一个资源的两个版本就会有55%的重复冗余数据。若是该参考源是学术性的则重复度高达87%。利用数据对象之间的信息冗余,可以获得远高于传统压缩方法及增量备份方法的空间利用率,减少传输数据的字节释放部分占用带宽,减少网络延迟。若是能将Web预取技术与数据去重 ...
【技术保护点】
1.一种基于数据去重技术的网络资源预取方法,其特征在于:所述方法包括以下步骤:首先,在客户端与服务器端之间连接代理服务器端,客户端向服务器端发送访问请求的同时,代理服务器记录下用户的网络访问行为信息,提取访问日志;其次,代理服务器对网络访问日志进行Web挖掘和分析,提取用户行为特征并获取网络访问规律;从访问日志中挖掘出用户的访问偏爱从而提取用户网络访问行为特征的步骤包括:对访问日志进行数据清洗预处理,剔除日志文件中访问失败的记录和不可缓存的对象,从预处理过的网络访问序列中提取用户浏览特征;同时,通过预测引擎采用预测算法预先分析下一时间用户最可能访问的网络资源,并预取到缓存中 ...
【技术特征摘要】
1.一种基于数据去重技术的网络资源预取方法,其特征在于:所述方法包括以下步骤:首先,在客户端与服务器端之间连接代理服务器端,客户端向服务器端发送访问请求的同时,代理服务器记录下用户的网络访问行为信息,提取访问日志;其次,代理服务器对网络访问日志进行Web挖掘和分析,提取用户行为特征并获取网络访问规律;从访问日志中挖掘出用户的访问偏爱从而提取用户网络访问行为特征的步骤包括:对访问日志进行数据清洗预处理,剔除日志文件中访问失败的记录和不可缓存的对象,从预处理过的网络访问序列中提取用户浏览特征;同时,通过预测引擎采用预测算法预先分析下一时间用户最可能访问的网络资源,并预取到缓存中;所述预测引擎是在每一次资源被请求的时候预测即将可能访问的页面,依据预测算法将产生一系列的在最近被访问频率最高的资源的URL,并将结果放入到决策数据库中;用户行为特征通过Markov链模型能够精确地描述用户浏览特征,利用Markov树将用户对网页的浏览行为建模,采取基于访问概率的预测算法预测出下一时间用户最可能发出的访问请求;最后,将预取在缓存中的资源经过数据去重技术处理后存储在缓存中;其中,对预取的资源进行数据去重处理的步骤包括:客户端的重复数据删除模块CDM运行在客户端浏览器,用以存储最近最新的网络资源,并依据唯一的识别器指示相应资源如何对应位于服务器端的SDM模块;服务器端的重复数据删除模型SDM用以组合最终响应的数据块,当SDM接收到一个给定的资源的请求,它检索由CDM发送的引用资源标识符的一个自定义的请求报头,然后SDM从服务器中取出该资源,接收过充分响应的报头和数据后,SDM给资源分配一个新的标识符,将资源数据划分为块,块的元信息存储在数据存储文件中;在这个数据存储库中SDM保证了由块的哈希索引的元信息资源的所有版本的所有块;当CDM收到响应后,为所有的数据重建原有的资源,包括从本地缓存资源中复制块引用信息和复制接收到响应的非冗余数据内容。2.根据权利要求1所述的基于数据去重技术的网络资源预取方法,其特征在于:日志文件用户网络访问行为信息包括用户访问请求的访问时间、用户IP地址、访问资源的文件名或脚本以及参数域。3.根据权利要求1所述的基于数据去重技术的网络资源预取方法,其特征在于:SDM将资源数据划分为块的算法采用LBFS算法,具体为:当客户端发出请求时,由服务器执行将资源划分为若干索引chunk;从创建资源内容的字节哈希开始着手,使用滑动哈希函数实现:Ci为第i个资源流的字节,k为Karp-Rabin块的长度,b为进制的基数,Karp-Rabin块的哈希如下:H(ciKci+k)=ci×bk-1+ci+1×bk-2+K+ck-1×b+ckb为常数,函数的应激性允许计算下一个字节的哈希,如下:H(ci+...
【专利技术属性】
技术研发人员:姚瑶,王战红,丁颖,王会霞,
申请(专利权)人:郑州工程技术学院,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。