一种页面地域权重模型实现方法技术

技术编号:9765850 阅读:457 留言:0更新日期:2014-03-15 11:17
本发明专利技术公开了一种页面地域权重模型实现方法,根据行政区划分的原理,建立基于行政区域划分的地理信息库以及同级别地理相邻位置关系图,以用户查询地域信息以及权重值队列为输入,动态输出用户查询地域以及相关地域信息权重队列,并用修正算法对动态输出的地理信息权重队列进行修正,输出修正后的地理信息权重队列。检索程序利用输出的地域权重队列进行检索,实现页面输出的地域排序效果。本发明专利技术包括以下流程:建立基于行政区域划分的地理信息库→建立相邻关系信息库→权重检索→修正权重→页面检索。本方法算法简单,易于实现;优化了搜索结果、增强信息本土化、个性化;实用性和易用性较强。

【技术实现步骤摘要】
一种页面地域权重模型实现方法
本专利技术涉及一种页面地域权重模型实现方法,尤其涉及一种引擎搜索结果排序,以及用户对应区域位置信息的精确检索问题的实现方法。属于引擎搜索及信息检索领域。
技术介绍
随着互联网时代不断推进,网络已经成为巨大的知识宝库,据统计,截止到2011年12月底,中国网站数量为230万。同时,中国网页数量达到866亿个。而对于目前针对搜索指定地域信息的准确度很差,造成搜索结果冗余以及无关网页过多。迫切需要一种针对特定地域信息权重的生成方法使得搜索结果更加准确与人性化。根据大量搜索经验显示,对本土化信息关注度是村(镇,县(区),市,省)、相邻村(镇,县(区),市,省)以及高级别的信息(镇,县(区),市,省),基于此原理,迫切需要页面搜索技术能准确、完善地实现信息本土化检索。当前搜索引擎大多都利用关键词匹配技术作为计算页面权重的重要影响因素之一。实际应用过程中由于没有地域针对性和可变化性,因此存在三问题:(1)地域信息搜索结果繁杂冗余;(2)特定地域信息检索的准确率低;(3)搜索结果没有针对用户习惯的特定地域信息个性化排序。而现有的提供地域化信息搜索类的方法和系统:如CNKI上公开号为CN101651634公开了一种提供地域化信息的方法和系统,其构成方法是萃取文档数据中的地理信息;根据萃取的地理信息在预置的地理信息库查找对应的地理属性,并为所述文档数据标记所述查找到的地理属性;获取用户的地理属性;将标记的地理属性与用户的地理属性匹配的文档数据提供给用户。虽然利用本专利技术,可以提供适于用户的地域化信息,但其不足之处是由于其只是简单匹配地理信息,而没有关注地域信息周边以及高级别的信息,检索范围过窄。没有较为完善实现信息本土化。
技术实现思路
本专利技术的目的在于解决上述问题而提供的一种页面地域权重模型实现方法,这种页面地域权重模型实现方法能够从大量的、冗杂、多样的网页页面中快速、准确的检索出针对特定地域信息权重计算生成的本土化、个性化的信息,同时有效解决了现有地域信息搜索技术的搜索结果繁杂冗余、准确率低、没有针对用户习惯的特定地域信息个性化排序的缺点。为了达到上述目的,本专利技术采用了以下技术方案:本专利技术所述一种页面地域权重模型实现方法,根据行政区划分的原理,建立基于行政区域划分的地理信息库以及同级别地理相邻位置关系图,以用户查询地域信息以及权重值队列为输入,动态输出用户查询地域以及相关地域信息权重队列,并用修正算法对动态输出的地理信息权重队列进行修正,输出修正后的地理信息权重队列。检索程序利用输出的地域权重队列进行检索,实现页面输出的地域排序效果。本专利技术包括以下流程:建立基于行政区域划分的地理信息库→建立相邻关系信息库→权重修正→页面检索。所述流程具体如下:1.建立基于行政区域划分的地理信息库:建立地理信息库主要有两个方面:1)、权重的划分:由于按照行政区域划分,因此各省的信息结构相似,本方案以四川省为例,分别为属于四川省的各市赋予相同权重,为属于四川省的各县(区)赋予相同权重,为属于四川省的各镇赋予相同权重,最后为各村赋予相同权重,其省,市,县(区),镇,村的权重值逐级递增;2)、地理信息组织:地理信息主要是以行政区划分,以树状图形式组织(其意义在于既作为地理信息库,又作为相邻关系信息库中每个图的索引入口),便于算法的检索(如以绵阳市为例,要查询绵阳市的北川县相关信息就以四川省-绵阳市树状关系为入口,在绵阳市范围内以其下一层级县级来获取所有县区的邻接关系图)。2.建立相邻关系信息库:建立相邻关系信息库按照如下所示来建立。1).建立相邻关系图:以“村”为例,在同一个镇的村之间的地理关系是确定的,因此利用此原理,将地图上的同一个镇的每个地理相邻村之间都用一条线来表示,将现有的地理关系抽象成数据结构中的图关系,其中,每个节点代表一个村,利用稀疏矩阵将每个镇的村与村的关系组织起来。基于以上原理,同一个县(区)的镇、市的县、省的市都可以按照相应的方法组织起来。其中可能存在的问题在于两个相邻村分属不同的两个镇(镇、区(县)、市、省类似)(定义为边界情况),对于这种情况可以通过单独建立这种特殊情况下的图来解决,其建立过程为:将边界村全部列出来,将其地理关系按照上述方法建立图,以稀疏矩阵存储。通过已经建立的同级相邻关系图以及特殊图可以将所有的情况都解决掉。2).建立一个以距离与偏差权重值组成的集合,其用于为检索算法检索出的相邻关系信息的地理位置信息权重值做细微的偏差设置,实现以查询地理位置为中心,与其距离成反比的权重递减。3.权重修正:修正权重利用统计学原理,统计用户历史查询网页中的地域信息,生成用户地域查询偏好。利用用户地域查询偏好,通过偏好权重生成算法,以初始权重作为参考,输出修正后的地域权重队列。精确查找目的地域权重之后,利用其邻近关系的地域对该地点权重做进一步调整;在当该目的地域权重缺失或无法获取时,可以通过其邻近地域的权重利用其邻近关系进行平均计算该缺失地域的权重。4.页面检索:检索程序利用已生成的权重队列进行信息检索,输出检索出的按照权重队列排序的页面,实现页面地域化。本专利技术的有益效果在于:通过用户提供其关心的地理位置信息通过页面地域权重模型中的地域权重数据字典为搜索出的网页赋予相应初始权重,为网页排序提供重要参考,以此达到提高搜索精度以及搜索准确率,并根据一定策略将权重过低的网页抛弃掉,无关页面过滤效果较好,针对性强,页面地域排序较好,实现对搜索结果的优化,增强了用户搜索体验;通过本方法搜索引擎检索到的信息不仅包含用户期望的地域信息,而且还包含周边信息以及高级别信息,使用户可参考信息更多,增强信息本土化;通过用户每次对网页点击的先后顺序记录网页中的关键特性,为用户建立相应的特征数据库,当用户搜索时,将利用特征数据库中用户的习惯信息、地域位置信息和检索词通过偏差算法,生成一个辅助权重,结合初始权重从而实现了个性化排序,同时本页面地域权重模型实现方法算法简单,易于实现,实用性和易用性较强。附图说明图1主要实施步骤框架图;图2行政区组织结构图;图3同级层次权重表与层级权重表;图4相邻关系信息库组织结构图;图5稀疏矩阵转换存储过程图。具体实施方式下面结合附图对本专利技术作进一步具体描述:本专利技术所述一种页面地域权重模型实现方法包括以下主要实施步骤如图1所示:建立同级层次权重表→建立层级权重表→建立全国省,市,区(县),镇,村的层级关系树(简称层级关系树)→建立全国省,市,区(县),镇,村的相邻关系信息库→权重检索→修正权重→页面检索。具体实施步骤如下:1.建立同级层次权重表:建立同级(如:村级)权重表,其结构如图3所示:其中Weight(n)中,n值代表层次,一般n值为12.建立层级权重表:建立层级权重表(权重由省,市,县,镇,村逐级递增),其结构如图3所示:其与层次权重表的区别在于n的含义,此时n值对应层级(如n=0对应村,n=1对应镇,n=2对应县等),权重值与权重偏差值不同。3.建立全国省,市,区(县),镇,村的层级关系树(简称层级关系树)其组织形式参照行政区组织结构图如图2所示,建立步骤为:1)以中国为根节点(Root),将各省份作为其孩子节点;并将省级相邻关系图的入口地址存储到根节点中。2)以各省份本文档来自技高网
...
一种页面地域权重模型实现方法

【技术保护点】
一种页面地域权重模型实现方法,其特征在于:包括以下流程:建立基于行政区域划分的地理信息库→建立相邻关系信息库→权重检索→修正权重→页面检索。

【技术特征摘要】
1.一种页面地域权重模型实现方法,其特征在于:包括以下流程:建立基于从上到下的行政区域划分的地理信息库→建立包括上级相同和上级不同的同级别行政区域相邻关系信息库→权重检索→权重修正→页面检索;权重检索中层次权重检索的具体方法如下:(1)获取检索信息即地理名称:AreaName,遍历层数N;(2)检索层级关系树:利用树的层级遍历思想确定AreaName层级数n、AreaName节点的父节点Parent以及父节点Parent的父节点GrandParent直到根节点的节点;(3)检索相邻关系信息库:将上述得到的Parent节点作为输入,利用其存储的相邻关系信息库中的入口地址,查找AreaName在入口地址对应的图中的对应位置,以AreaName为中心,广度遍历整个图,得到遍历出的节点集合;A[n]={a1,a2,…},0≤n<N;A代表广义表入口地址,a代表一个节点,A[n]代表第n层节点集合,直到遍历到满足输入要求层数,如果出现没有遍历到满足要求的层数而边界节点又无相邻节点,则利用Parent节点的存储的边界入口,检索该节点所在位置,依次广度遍历该节点,边界入口对应的图只有一层,若依然不满足遍历层数要求,则利用刚遍历出来的节点的地理名称作为输入,重复(1)、(2)、(3)步,直到满足遍历层数要求为止;(4)权重分配:利用(3)生成的广义表以及预先定义的同级层次权重表Weight:W1,W2,......,Wn,Wn为权重值;将对应权重值的权重分配给广义表上的对应层级,实现权重分配。2.根据权利要求1所述的一种页面地域权重模型实现方法,其特征在于:所述流程——建立基于行政区域划分的地理信息库包含以下两方面:1)、权重的划分:由于按照行政区域划分,因此各省的信息结构相似,本方案以省为例,分别为属于省的各市赋予相同权重,为属于省的各县或区赋予相同权重,为属于省的各镇赋予相同权重,最后为各村赋予相同权重,其省,市,县或区,镇,村的权重值逐级递增;在此基础上利用其邻近关系的地域对任意地域权重做进一步调整;在当目的地域权重缺失或无法获取时,可以通过其邻近地域的权重利用其邻近关系进行平均计算缺失地域的权重;2)、地理信息组织:地理信息主要是以行政区...

【专利技术属性】
技术研发人员:张克非刘志勤蒲伟郭焰莲李江张胜标黄超
申请(专利权)人:西南科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1