当前位置: 首页 > 专利查询>王昱淇专利>正文

一种强化学习驱动的网络地图区域聚类预取方法技术

技术编号:14828762 阅读:117 留言:0更新日期:2017-03-16 15:11
本发明专利技术提供的一种强化学习驱动的网络地图区域聚类预取方法,同一区域内的瓦片小文件合并为区域聚类大文件,建立强化学习驱动的网络地图区域聚类预取模型,模型将记录统计的热点区域和区域空间关系加入Q学习参数中,Q值最大的方向对应的区域为对应预取区域。本发明专利技术通过对网络地图用户请求区域的缓存,提高对网络地图服务器缓存空间的利用率,网络地图数据以区域聚类大文件的形式缓存和预取,提高了瓦片的缓存和预取质量,结合网络地图自身的特点和历史访问记录,实时动态预测网络地图未来的热点区域并缓存,实现了一种主动大规模高效预取,动态更新且预测准确,能够提高网络地图服务器的性能。

【技术实现步骤摘要】

本专利技术涉及一种网络地图区域聚类预取方法,特别涉及一种强化学习驱动的网络地图区域聚类预取方法,属于网络地图数据预取

技术介绍
网络地图并发用户多,地图数据量大,传输耗时长。传统网络地图由于服务质量不高,严重制约了网络地图的应用,需要一个性能以上有很大提升的网络地图服务器系统。现有技术的网络地图服务器对于用户频繁访问的瓦片内容和数据,仍然需要每一次都从硬盘中获得,该过程开销大、速度慢,效率低,服务器的缓存没有得到充分的利用,严重影响了服务器的工作效率。如果将用户频繁访问的地图数据,直接缓存或预取在地图服务器缓存中,避免了每一次都从硬盘中获得数据,缓存中获得地图数据开销小、速度快,效率高,提高了网络地图服务器的工作效率,能解决单一服务器I/O带宽不足、处理能力不足的问题,可以支持高强度、大规模的网络地图用户并发访问,提高网络地图服务的可用性、可靠性。但网络地图在服务器端以瓦片的形式生成,瓦片大小从1KB到20KB,具有“单个文件小、总个数多”的特点,采用瓦片方法缓存或预取,文件数量大,过多的小文件导致缓存和预取文件过多过杂,容易达到系统的性能瓶颈。现有技术的网络地图数据预取方法较少,相关专利也较为少见。现有技术中有基于单个瓦片的缓存,但缓存单元小,需要缓存的瓦片多,组织和管理都比较复杂,也缺少对网络地图未来访问热点趋势的预测,更是缺少结合网络地图的访问特点对未来访问热点区域的提前预取。综合来看,现有技术主要存在以下几点缺陷:一是缺少对网络地图服务器缓存空间的有效利用,对于用户频繁访问的地图内容和数据,仍然需要每一次都从硬盘中获得,该过程开销大、速度慢,效率低,严重影响了服务器的工作效率;二是网络地图数据都是瓦片文件,瓦片文件都是小文件且数量巨大,海量瓦片数据的组织和管理非常复杂,过多的小文件不利于文件的管理、查找和服务,也会导致缓存和预取文件过多过杂;三是缺少先进预取方法对服务器缓存的高效利用,缺少准确预取网络地图热点区域,提高网络地图服务器性能的关键方法,四是缺少结合网络地图自身的特点和历史访问记录,实时动态预测网络地图未来的热点区域的方法。
技术实现思路
针对现有技术的不足,本专利技术提供的一种强化学习驱动的网络地图区域聚类预取方法,通过对网络地图用户请求的区域的缓存,提高了对网络地图服务器缓存空间的利用,网络地图数据以区域聚类大文件的形式缓存和预取,提高了瓦片的缓存和管理质量,结合网络地图自身的特点和历史访问记录,动态预测网络地图未来的热点区域,实现了一种实时大规模高效预取,动态更新且预测准确,能够提高网络地图服务器的性能。为达到以上技术效果,本专利技术所采用的技术方案如下:一种强化学习驱动的网络地图区域聚类预取方法,网络地图数据为瓦片小文件,同一区域内的瓦片小文件合并为区域聚类大文件,网络地图数据以区域聚类大文件的形式缓存和预取;网络地图服务器运行时,统计一段时间内用户对不同区域的访问次数,选择用户访问次数最多的若干个区域作为当前网络地图的热点区域,根据网络地图的区域划分信息确定同一层内各区域聚类大文件的相邻关系;建立强化学习驱动的网络地图区域聚类预取模型,所述强化学习为Q学习,模型将记录统计到的热点区域和网络地图的区域空间关系加入Q学习参数中,所述Q学习采用轨迹移动试探评价方法,尝试各区域可能的移动方向,通过试探到达热点区域的最优路径,判断各种移动方向的效果,基于各种移动方向的Q学习奖惩值得到各区域各种移动方向上的Q值;各区域不同移动方向中,Q值最大的方向对应的区域为对应预取区域,网络地图用户的当前请求为某一区域时,将该区域Q值最大的方向对应的区域提前预取;强化学习驱动的网络地图区域聚类预取方法的步骤为:第一步,网络地图数据为瓦片小文件,根据区域划分将同一区域内的瓦片小文件合并为区域聚类大文件,网络地图数据以区域聚类大文件的形式组织和缓存;第二步,网络地图服务器运行,统计一段时间内用户对地图不同区域的访问次数,选择用户访问次数最多的若干个区域作为当前网络地图的热点区域,根据网络地图的区域划分信息确定同一层内各区域聚类大文件的相邻关系,作为强化学习驱动的网络地图区域聚类预取方法所需的信息和数据;第三步,建立强化学习驱动的网络地图区域聚类预取模型,所述强化学习为Q学习,将记录统计到的热点区域和网络地图的区域空间关系加入Q学习参数中,Q学习的Agent每次学习迭代模拟用户的网络地图访问行为,会收到奖励或惩罚信息,以表示移动行为是否正确,Agent从回报结果中学习,Q学习的预取模型的公式为:Q(s,a)=Q(s,a)+alpha*(gama*maxQ(s',a')+r(s,a)-Q(s,a))s=s'强化学习驱动的网络地图区域聚类预取模型采用位置-方向对的奖赏和Q(s,a)作为预测函数,其中s表示当前所处的区域位置,a表示区域不同方向上的移动动作,Q(s,a)表示在位置s下移动动作a得到的Q值,maxQ(s',a')表示在当前所处的区域位置s'下,向不同的方向a'移动所能够获得的最大Q值,r(s,a)表示当前所处的区域位置s与热点区域相邻时,在当前所处的区域位置s下通过向a方向移动能够直接到达热点区域所获得的奖赏值,alpha和gama为公式参数,alpha和gama的取值范围为0至1;第四步,启动强化学习驱动的网络地图区域聚类预取模型,Q学习算法迭代计算出不同区域s不同移动方向a上的Q值Q(s,a);第五步,求得网络地图各区域不同方向上最大Q值,各区域的Q值最大的方向对应的区域为对应预取区域,记录各区域的对应预取区域;第六步,判断网络地图用户请求的区域是否已经缓存或预取,若否,则首先将用户请求的区域聚类大文件缓存,然后将用户请求的区域数据发送给用户,若是,则直接在缓存中找到并发送用户请求的区域数据;第七步,判断网络地图用户当前请求区域的对应预取区域是否已经缓存或预取,对应预取区域是当前用户请求的区域的Q值最大的方向对应的区域,若否,则将对应预取区域缓存后流程结束,若是,则流程直接结束。一种强化学习驱动的网络地图区域聚类预取方法,进一步的,当前网络地图的热点区域的确定标准为区域地图访问量占全地图访问量的30%以上,或者全地图访问量排名前三的区域。一种强化学习驱动的网络地图区域聚类预取方法,进一步的,网络地图的区域空间关系为网络地图的所有区域之间的相邻关系,包括每个区域的相邻区域以及二者之间的位置关系。一种强化学习驱动的网络地图区域聚类预取方法,进一步的,r(s,a)的取值分两种情况,当前所处的区域s与热点区域相邻时,向a方向移动能够直接到达热点区域,所获得的奖赏值r(s,a)=100;当前所处的区域s与热点区域不相邻时,r(s,a)=0。一种强化学习驱动的网络地图区域聚类预取方法,进一步的,alpha和gama为参数,alpha=0.7,gama=0.3。一种强化学习驱动的网络地图区域聚类预取方法,进一步的,启动强化学习驱动的网络地图区域聚类预取模型时,Q学习算法迭代计算次数不小于1000次,随机从不同区域不同移动方向上迭代计算出各区域个方向上的Q(s,a)。与现有技术相比,本专利技术的优点在于:1.本专利技术提供的一种强化学习驱动的网络地图区域聚类预取方法,通过对网络地图用户请求的区域的缓存,提本文档来自技高网
...
一种强化学习驱动的网络地图区域聚类预取方法

【技术保护点】
一种强化学习驱动的网络地图区域聚类预取方法,其特征在于:网络地图数据为瓦片小文件,同一区域内的瓦片小文件合并为区域聚类大文件,网络地图数据以区域聚类大文件的形式缓存和预取;网络地图服务器运行时,统计一段时间内用户对不同区域的访问次数,选择用户访问次数最多的若干个区域作为当前网络地图的热点区域,根据网络地图的区域划分信息确定同一层内各区域聚类大文件的相邻关系;建立强化学习驱动的网络地图区域聚类预取模型,所述强化学习为Q学习,模型将记录统计的热点区域和网络地图的区域空间关系加入Q学习参数中,所述Q学习采用轨迹移动试探评价方法,尝试各区域可能的移动方向,通过试探到达热点区域的最优路径,判断各种移动方向的反馈效果,基于各种移动方向的奖惩值得到各区域各种移动方向上的Q值;各区域不同移动方向中,Q值最大的方向对应的区域为对应预取区域,网络地图用户的当前请求为某一区域时,将这一区域Q值最大的方向对应的区域提前预取;强化学习驱动的网络地图区域聚类预取方法的步骤为:第一步,网络地图数据为瓦片小文件,根据区域划分将同一区域内的瓦片小文件合并为区域聚类大文件,网络地图数据以区域聚类大文件的形式组织和缓存;第二步,网络地图服务器运行,统计一段时间内用户对不同区域的访问次数,选择用户访问次数最多的若干个区域作为当前网络地图的热点区域,根据网络地图的区域划分信息确定同一层内各区域聚类大文件的相邻关系;第三步,建立强化学习驱动的网络地图区域聚类预取模型,所述强化学习为Q学习,模型将记录统计的热点区域和网络地图的区域空间关系加入Q学习参数中,Q学习的Agent每次学习迭代模拟用户的网络地图访问行为,会收到奖励或惩罚信息,以表示移动行为是否正确,Agent从回报结果中学习,Q学习的预取模型的公式为:Q(s,a)=Q(s,a)+alpha*(gama*max Q(s',a')+r(s,a)‑Q(s,a))s=s'强化学习驱动的网络地图区域聚类预取模型采用位置‑方向对的奖赏和Q(s,a)作为预测函数,其中s表示当前所处的区域位置,a表示区域s不同方向上的移动动作,Q(s,a)表示在位置s下移动动作a得到的Q值,maxQ(s',a')表示在当前所处的区域位置s'下,向不同的方向a'移动所能够获得的最大Q值,r(s,a)表示当前所处的区域位置s与热点区域相邻时,在当前所处的区域位置s下通过向a方向移动能够直接到达热点区域所获得的奖赏值,alpha和gama为公式参数,alpha和gama的取值范围为0至1;第四步,启动强化学习驱动的网络地图区域聚类预取模型,Q学习算法迭代计算出不同区域s不同移动方向a上的Q(s,a);第五步,求得网络地图各区域不同方向上最大Q值,各区域的Q值最大的方向对应的区域为对应预取区域,记录各区域的对应预取区域;第六步,判断网络地图用户请求的区域是否已经缓存或预取,若否,则首先将用户请求的区域聚类大文件缓存,然后从缓存中将用户请求的区域数据发送给用户,若是,则直接在缓存中找到并发送用户请求的区域数据;第七步,判断网络地图用户当前请求区域的对应预取区域是否已经缓存或预取,对应预取区域是当前用户请求的区域Q值最大的方向对应的区域,若否,则将对应预取区域缓存后流程结束,若是,则流程直接结束。...

【技术特征摘要】
1.一种强化学习驱动的网络地图区域聚类预取方法,其特征在于:网络地图数据为瓦片小文件,同一区域内的瓦片小文件合并为区域聚类大文件,网络地图数据以区域聚类大文件的形式缓存和预取;网络地图服务器运行时,统计一段时间内用户对不同区域的访问次数,选择用户访问次数最多的若干个区域作为当前网络地图的热点区域,根据网络地图的区域划分信息确定同一层内各区域聚类大文件的相邻关系;建立强化学习驱动的网络地图区域聚类预取模型,所述强化学习为Q学习,模型将记录统计的热点区域和网络地图的区域空间关系加入Q学习参数中,所述Q学习采用轨迹移动试探评价方法,尝试各区域可能的移动方向,通过试探到达热点区域的最优路径,判断各种移动方向的反馈效果,基于各种移动方向的奖惩值得到各区域各种移动方向上的Q值;各区域不同移动方向中,Q值最大的方向对应的区域为对应预取区域,网络地图用户的当前请求为某一区域时,将这一区域Q值最大的方向对应的区域提前预取;强化学习驱动的网络地图区域聚类预取方法的步骤为:第一步,网络地图数据为瓦片小文件,根据区域划分将同一区域内的瓦片小文件合并为区域聚类大文件,网络地图数据以区域聚类大文件的形式组织和缓存;第二步,网络地图服务器运行,统计一段时间内用户对不同区域的访问次数,选择用户访问次数最多的若干个区域作为当前网络地图的热点区域,根据网络地图的区域划分信息确定同一层内各区域聚类大文件的相邻关系;第三步,建立强化学习驱动的网络地图区域聚类预取模型,所述强化学习为Q学习,模型将记录统计的热点区域和网络地图的区域空间关系加入Q学习参数中,Q学习的Agent每次学习迭代模拟用户的网络地图访问行为,会收到奖励或惩罚信息,以表示移动行为是否正确,Agent从回报结果中学习,Q学习的预取模型的公式为:Q(s,a)=Q(s,a)+alpha*(gama*maxQ(s',a')+r(s,a)-Q(s,a))s=s'强化学习驱动的网络地图区域聚类预取模型采用位置-方向对的奖赏和Q(s,a)作为预测函数,其中s表示当前所处的区域位置,a表示区域s不同方向上的移动动作,Q(s,a)表示在位置s下移动动作a得到的Q值,maxQ(s',a')表示在当前所处的区域位置s'下,向不同的方...

【专利技术属性】
技术研发人员:王昱淇
申请(专利权)人:王昱淇
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1