一种面向教育领域资源云存储的语义预取系统及方法技术方案

技术编号:20589028 阅读:31 留言:0更新日期:2019-03-16 07:12
本发明专利技术提供一种面向教育领域资源云存储的语义预取系统及方法,其中所述系统包括用户接口模块、请求控制模块、云存储模块、缓存管理模块、副本管理模块以及预取模块;所述方法包括如下步骤:用户请求概念获取、概念集合主题相关性判断、候选中心概念的选择、中心概念的确定、预取对象的确定、预取存储目标节点确定、预取窗口的大小以及主题相关性的保持、转换、消失与停止预取。本发明专利技术针对教育领域云存储方法的不足,结合教育资源的特征,形成特定的教育云存储系统。

【技术实现步骤摘要】
一种面向教育领域资源云存储的语义预取系统及方法
本专利技术属于教育领域资源云存储的语义预技术,具体涉及面向教育领域资源云存储的语义预取系统及方法。
技术介绍
近年来,云计算得到了快速的发展,而作为云计算的重要组成部分,云存储也成为当前的热门研究课题之一。目前对于云存储的研究主要集中在数据存储,以及提升存储性能方面,而较少关注在存储对象限于领域情况下的存储增效研究。按照一般规律,存储增效研究主要需要解决对资源请求的网络延迟和网络服务质量问题,目前方案有缓存和预取。对以教育领域资源而言,我们发现存在有访问对象主题性和行为聚集性等特征,它们将成为我们研究教育领域资源云存储增效技术的基础。访问的聚集性原理体现为时间与空间的聚集性,其中时间聚集性是指距离上次访问时间越近的对象或者资源,越有可能再次被访问;而空间聚集性是指存储对象相对集中服务于一定空间地理位置的访问行为。聚集性原理在计算机结构、缓存、基于WEB的企业系统、环境感知的软件等各个领域都有广泛的应用。目前一些现有的预取技术通常采用的方法为:1.一种基于云存储的高效资源动态调度方法·申请日:2012.11.07·申请号:201210440341.1·申请人地址:250014山东省济南市高新区舜雅路1036号·专利技术人:黄臣李瑞东2.一种网络资源预取并缓存加速的方法及其装置·申请日:2011.12.05·申请号:201110399507.5·申请人地址:100190北京市海淀区中关村东路66号长城大厦3层·专利技术人:李继明杨东晓3.一种教育资源语义标注方法·申请日:2014.10.23·申请号:201410571072.1·申请人地址:230601安徽省合肥市蜀山区黄山路599号时代数码港·专利技术人:吴雷阮怀伟虞勇勇昌磊专利技术1设计了一种基于云存储的高效资源动态调度方法。该专利技术基于云存储的高效资源动态调度方法,涉及到云存储
,其
技术实现思路
由云存储资源控制节点、云存储资源调度节点、云存储资源监控节点和各类存储节点组成,云存储控制节点根据传入的数据获取数据索引和更新数据索引,然后云存储调度节点根据索引值高低选择存储节点。专利技术2提供了用户网络访问行为进行资源预取的方法与装置。该专利技术根据用户的网络访问行为记录用户的网络访问信息;从访问信息中提取不同时间段的用户网络访问行为特征;从满足时间特征的所有网络访问行为特征中获得用户网络访问行为的规律,从而提前预知用户下一个相同时间特征的网络访问行为;根据用户下一个相同时间特征的网络行为,在下一个相同时间特征前预先下载用户的网络资源并加载到缓存中。专利技术3对教育资源进行语义标注,使用户能够更加精准的搜索到所需资源。该专利技术公开了一种教育资源语义标注方法,对于不同学习资源,进行资源信息抽取构建学习资源库,然后通过映射方式完成学习资源库与标签库中的标签进行映射,并抽取对应的标注信息存储于标注信息库中,从而实现学习资源的多标签标注,使用户可以更加准确地搜索到所需资源。以上三个专利专利技术都是针对资源(包括教育资源)检索与传输的专利技术创造,专利技术1是针对云存储系统的资源调度,专利技术2是针对用户网络访问的行为信息进行资源预取,专利技术3是对教育资源进行语义标注以提高信息检索时的准确度。目前云存储系统的研究范围多为通用领域,而缺乏某一特定领域的云存储系统。随着教育信息化的不断发展,教育资源数量逐渐增多,容量越来越大,因此对于存储对象限于教育领域情况下云存储系统的存储增效就成为一个亟待解决的问题。虽然以上三种专利技术在一定程度上提出了教育领域云存储的方案,但是主要存在以下不足:1.现有的数据预取技术主要面向通用领域,依靠用户行为数据与简单的资源类别来预取资源,而这些数据能说明的信息量是很有限的,系统在预判资源的中心概念时易出现偏差,影响用户所需教育资源的预取,使用户在有学习需求时找不到或获取到不相关的资源,不利于学习行为的开展。2.除了资源的准确性外,针对通用的云存储系统方案的节点确定不够明确,特别是教育资源具有访问对象主题性和行为聚集性等特征,简单的确定资源的调度节点是远远不足的,需要进一步的确定目标节点,以满足用户的学习需求。3.对于教育资源而言,采用语义标记检索的技术后,需要检索的信息量增大,如不采取一定的措施,所用的时间是要远大于传统检索方式的,在遇到一些时效性较强的资源时会在资源的检索与传递上花费大量的时间而错过时机;此外,在选定中心概念时,仅通过关联值而不考虑资源的特定范围与时效性同样会影响资源的有效性。
技术实现思路
有鉴于此,本专利技术的主要目的是提供一种面向教育领域资源云存储的语义预取系统及方法。本专利技术采用的技术方案是:一种面向教育领域资源云存储的语义预取系统,包括用户接口模块、请求控制模块、云存储模块、缓存管理模块、副本管理模块以及预取模块;所述用户接口模块用于接收用户的请求,将请求交付到后台处理,并根据后台系统的返回数据响应用户的请求;所述请求控制模块对用户的请求进行处理;所述云存储模块对存储资源的元数据进行管理;所述缓存管理模块由缓存数据与缓存管理组成,缓存数据是访问热度比较高的教育资源元数据,缓存管理则是对缓存数据进行实时更新,以最大限度降低云存储模块中名称节点的压力与提高元数据查询效率;所述副本管理模块基于教育资源用户访问的聚集性特征,根据系统的负载情况与资源的访问热度对资源的副本进行优化调度;所述预取模块基于教育资源用户访问的主题性特征,接收请求控制模块传递过来的请求,计算该请求和其相关请求的访问热度以及系统相对承载力,综合请求文件的访问热度和系统相对承载力判断是否执行预取操作。所述请求控制模块还触发优化增效模块。所述云存储模块包括一个名称节点与多个数据节点组成,本专利技术所述名称节点主要满足系统的查询,所述数据节点主要提供了资源的云存储空间与节点之间的数据通信。所述副本管理模块包括副本放置策略、副本生成策略与副本替换策略。所述执行预取操作的方法为:如果达到预取条件则触发预取推理,通过在日志文件、本体和语义标注的资源的基础上推理得到预取对象,并将预取对象序列传递到副本管理模块,否则返回不预取信号。本专利技术还提供了一种面向教育领域资源云存储的语义预取方法,包括如下步骤:步骤一,用户请求概念获取:系统首先会对用户请求数据资源中的标注进行关键字抽取,利用相应的匹配算法将关键词与本体库中的概念进行逐一匹配,实现关键词到本体概念的映射,得到相应的概念集合;步骤二,判断概念集合主题相关性:具体方法为,随机从中抽取m'个概念(m'≤m)进行抽样分析,并记抽取概念的集合为符号Sim(a,b)表示概念a与概念b在HowNet中的相似度计算公式,由此可以得出抽样集合中每个概念相互之间的相似度,并形成相似度矩阵,其如式(2)所示:根据HowNet相似的计算公式定义可知Sim(ci,ci)=1.000,Sim(ci,cj)=Sim(cj,ci),其中ci,cj∈Csa,则可以求出集合Csa的平均概念相似度,其定义如式(2)所示:设定平均概念相似度阈值ε1,该值可以根据历史记录简单分析得到,若则集合中的概念具有一定的主题相关性;步骤三,候选中心概念的选取:具体包括如下的步骤:A:当考察会话si与其他会话在时间段Δt内的主题相关性时,si中的每个概念ci,1,ci,本文档来自技高网
...

【技术保护点】
1.一种面向教育领域资源云存储的语义预取系统,其特征在于,包括用户接口模块、请求控制模块、云存储模块、缓存管理模块、副本管理模块以及预取模块;所述用户接口模块用于接收用户的请求,将请求交付到后台处理,并根据后台系统的返回数据响应用户的请求;所述请求控制模块对用户的请求进行处理;所述云存储模块对存储资源的元数据进行管理;所述缓存管理模块由缓存数据与缓存管理组成,缓存数据是访问热度比较高的教育资源元数据,缓存管理则是对缓存数据进行实时更新,以最大限度降低云存储模块中名称节点的压力与提高元数据查询效率;所述副本管理模块基于教育资源用户访问的聚集性特征,根据系统的负载情况与资源的访问热度对资源的副本进行优化调度;所述预取模块基于教育资源用户访问的主题性特征,接收请求控制模块传递过来的请求,计算该请求和其相关请求的访问热度以及系统相对承载力,综合请求文件的访问热度和系统相对承载力判断是否执行预取操作。

【技术特征摘要】
1.一种面向教育领域资源云存储的语义预取系统,其特征在于,包括用户接口模块、请求控制模块、云存储模块、缓存管理模块、副本管理模块以及预取模块;所述用户接口模块用于接收用户的请求,将请求交付到后台处理,并根据后台系统的返回数据响应用户的请求;所述请求控制模块对用户的请求进行处理;所述云存储模块对存储资源的元数据进行管理;所述缓存管理模块由缓存数据与缓存管理组成,缓存数据是访问热度比较高的教育资源元数据,缓存管理则是对缓存数据进行实时更新,以最大限度降低云存储模块中名称节点的压力与提高元数据查询效率;所述副本管理模块基于教育资源用户访问的聚集性特征,根据系统的负载情况与资源的访问热度对资源的副本进行优化调度;所述预取模块基于教育资源用户访问的主题性特征,接收请求控制模块传递过来的请求,计算该请求和其相关请求的访问热度以及系统相对承载力,综合请求文件的访问热度和系统相对承载力判断是否执行预取操作。2.根据权利要求1所述的面向教育领域资源云存储的语义预取系统,其特征在于,所述请求控制模块还触发优化增效模块。3.根据权利要求1所述的面向教育领域资源云存储的语义预取系统,其特征在于,所述云存储模块包括一个名称节点与多个数据节点组成,所述名称节点主要满足系统的查询,所述数据节点主要提供了资源的云存储空间与节点之间的数据通信。4.根据权利要求1所述的面向教育领域资源云存储的语义预取系统,其特征在于,所述副本管理模块包括副本放置策略、副本生成策略与副本替换策略。5.根据权利要求1所述的面向教育领域资源云存储的语义预取系统,其特征在于,所述执行预取操作的方法为:如果达到预取条件则触发预取推理,通过在日志文件、本体和语义标注的资源的基础上推理得到预取对象,并将预取对象序列传递到副本管理模块,否则返回不预取信号。6.一种面向教育领域资源云存储的语义预取方法,包括如下步骤:步骤一,用户请求概念获取:系统首先会对用户请求数据资源中的标注进行关键字抽取,利用相应的匹配算法将关键词与本体库中的概念进行逐一匹配,实现关键词到本体概念的映射,得到相应的概念集合;步骤二,判断概念集合主题相关性:具体方法为,随机从中抽取m'个概念(m'≤m)进行抽样分析,并记抽取概念的集合为符号Sim(a,b)表示概念a与概念b在HowNet中的相似度计算公式,由此可以得出抽样集合中每个概念相互之间的相似度,并形成相似度矩阵,其如式(1)所示:根据HowNet相似的计算公式定义可知Sim(ci,ci)=1.000,Sim(ci,cj)=Sim(cj,ci),其中ci,cj∈Csa,则可以求出集合Csa的平均概念相似度,其定义如式(2)所示:设定平均概念相似度阈值ε1,该值可以根据历史记录简单分析得到,若则集合中的概念具有一定的主题相关性;步骤三,候选中心概念的选取:具体包括如下的步骤:A:当考察会话si与其他会话在时间段Δt内的主题相关性时,si中的每个概念ci,1,ci,2,ci,3将逐一比较其他每个会话中的概念,并且找出其中相似度最大的加入到以si中的概念为中心的序列中,得到Si,1,Si,2,Si,3,当ci,j=null时,Si,j=null,j=1,2,3,以Si,1,Si,2,Si,3中概念相似度总和最大作为其对应的概念为会话si的代表概念cire,Si,j的相似度总和的计算方式如式(3)所示:则的相似度总和如式(4)所示:经过式(3),(4)的计算,可以得到会话si中相应的代表概念cire,还有与cire相对应的主题相关性概念序列可相应求出其他会话的代表概念以及相应的主题相关概念序列;得到代表概念集合后,系统将进一步分析从中产生候选中心概念,具体流程如下:A:以cire为概念语义中心,删除中与之概念相似度小于阈值ε2的概念若删除后序列中只剩下cire本身,则说明该序列的主题相关性不明显,直接删除该代表概念cire与B:在序列的剩余概念中找出相似度为1的概念进行合并,假设则保留删除并wi,x=wi,x+wi,y;C:经过删除与合并后,假设序列剩余概念个数为r,根据式(6)计算出cire的序列概念相似度总和:并计算该序列概念的平均相似度,其定义如式(7)所示:再计算该序列的标准差,其定义如式(8)所示:D:设定阀值ε3与ε4,ε3应根据该时间段内用户请求会话的个数m成正比,ε4根据系统主题关系强弱稳定性要求设定来设定,保留且的代表概念cire作为候选中心概念,否则进入下一个代表概念的判定,遍历完代表概念集合及相应主题相关序列,得到候选中心概念集合步骤四,中心概念的确定:其具体的方法如下:A:在候选中心概念集合中,如果判断出几个概念元素的相似度很高,仅需合并为一个概念予以表征即可,该过程称之为候选中心概念的归并,假设cica为候选中心概念,在候选中心概念集合中与cica相似度大于ε5的概念加入带合并集合并记为Cica,然后对集合cica∪Cica进行概念合并,首先确定带合并候选概念集合cica∪Cica的合并中心,即中心概念其可以用概念中心度来得到。假设h=Size(cica∪Cica),ci在Cica中概念中心度定义如式(9)所示(ci∈cica∪Cica):则可以由式(10)得到:合并候选概念集合Cica中概念对应主题相关序列,得到中心概念后,把Cica中候选概念对应的主题相关序列合并到对应主题相关序列,得到中心概念最终对应的主题相关序列,在合并的过程中,集合中其他候选中心概念对应主题相关序列中的概念应该重新计算其与中心概念的相似度,计算方式如下式(11)所示:至此,中心概念集合Cc的确定与对应主题相关概念序列的获取到此完成;步骤五,预取对象的确定:根据中心概念集合CC系统进一步确定预取对象,确定预取对象之前分析需要预取的数据节点,与预取数据的数量,系统结合CC从空间的维度分析时间段ΔT内的用户请求,首先根据系统服务区域划分规则将请求客户端划分为g个区域A={ai'|1≤i'≤g},假设根据本发明提出的技术方案得到某个时间段区域ai'中心概念为则在该时间段ΔT内区域ai'关于概念的主题相关性程度为:计算方式如下式(12)所示:其中n与T距离根据系统性能要求确定;mt为时间段Δt区域ai'内用户访问请求总次数;cj是该时间段Δt区域ai'内的一个中心概念,其与当前时间段ΔT考察的中心概念有若t=T,即当前时间段,则有βt为时间衰减系数,0≤βt≤1,越接近当前时刻的时间段衰减系数值越大,说明时间距离当前时刻越远参考性越低,系统根据概念关系模式进行概念语义推理,推理规则包括一下两条:规则1:SubClassOf(cx,cy),SubClassOf(cy,cz)→hasGrandFather(cx,cz)规则2:SubClassOf(cx,cz),SubClassOf(cy,cz)→...

【专利技术属性】
技术研发人员:黄昌勤黄微宇黄琼浩王希哲李源
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1