当前位置: 首页 > 专利查询>浙江大学专利>正文

基于可视程度的Web对象检索方法技术

技术编号:6172365 阅读:221 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于可视程度的Web对象检索方法。对具有空间属性的海量Web对象建立IR树索引;用积分式可视性度量方法符合人体视觉感知特征;设计环绕遮挡图结构作为Web对象及IR树节点对象的可视性计算引擎;针对用户可视Web检索需求设计查询匹配度度量函数,融合Web对象相对于用户位置的可视性与相对于查询关键词的语义相关性;利用IR树索引,对提出的环绕遮挡图结构以及查询匹配度度量函数,采用增量式的方法获得K个与用户查询匹配度最高的Web对象。本发明专利技术充分利用了IR树索引结构,无缝融合Web对象的空间属性与文本属性,基于积分式可视性度量的环绕遮挡图结构保证了查询的高效性。

【技术实现步骤摘要】

本专利技术涉及一种Web对象检索方法,尤其是涉及一种。
技术介绍
在空间数据库领域,常见的索引方法包括网格(Grid)、四叉树(Quad-Tree )和R树 (R-Tree)等,这些空间索引通常以层次型的结构组织空间对象,从而支持高效的空间查询。 以被广泛采用的R树为例,空间上位置相近的数据点被聚类到最小包围盒里,这些最小包围盒又根据空间局部性递归的进行聚类,直到到达根节点。基于上述索引结构,多种考虑空间对象可视信息的查询机制被提出比如以可视作为布尔筛选条件,学者们在传统近邻查询与反向近邻查询的基础上加入了可视与否的判断,提出了可视近邻查询与可视反向近邻查询;或者以最短可视距离(MINVIDIST)为可视程度衡量标准,依据较远处的对象不会影响较近对象的可视性这一事实,学者们提出了递增式可视最近邻查询,在最近邻查询过程中渐增式地获取最短可视距离较小的空间对象。在信息检索领域,常见全文搜索引擎通常采用倒排文件(Inverted File)对Web 对象进行索引,倒排文件以文档关键词作为索引,文档作为索引对象建立关键词-文档映射结构。当用户输入关键词进行检索时,搜索引擎可以利用倒排文件高效地获得包含此关键词的文档集合以及关键词在各个文档中出现的次数,从而便捷计算网页文档与用户查询之间的匹配程度,并按一定的排列顺序返回查询结果。空间索引和文本索引只能片面地处理空间查询或语义查询,为了处理基于位置的关键词搜索(LWS),必须综合利用空间索引与文本索引,一种方法是先通过空间索引得到满足空间查询条件的候选对象,然后通过文本索引过滤不满足关键词查询条件的对象,最后得到同时满足空间和文本条件的结果集。另一种方法则与之相反,即先通过关键词的筛选, 再利用空间信息进一步提炼,以得到最终结果。但是,无论是先空间再文本,还是先文本再空间的过滤方式,在中间过程中都会产生大量的候选对象,这是影响查询性能的主要瓶颈。 针对此缺陷,近年来研究者们提出了若干种混合索引机制,其中IR树是一种得到广泛认可的代表性混合索引,IR树将R树和倒排文件相结合,在各个节点中加入指向倒排索引文件的指针,从而在计算空间距离的同时,可以利用当前节点所对应的倒排文件方便估算节点文本与查询关键词的相关度。混合索引的提出较好地解决了空间属性与文本属性的融合问题,但是研究者们所提出的查询处理方法只是简单地以绝对欧式距离作为空间匹配程度的标准,将对象按照离查询点距离和搜索关键词相关度的线性组合来进行排序。而随着移动设备的流行与信息物理系统的兴起,用户感兴趣的通常只是其视野范围内的对象,相对于欧氏距离,可视程度将是一种更合适的空间匹配性度量,如何处理基于可视程度的Web对象检索是一个新的课题。
技术实现思路
本专利技术的目的在于提供一种。本专利技术解决其技术问题采用的技术方案是1. 一种采用以下步骤实现1)对具有空间属性的海量Web对象建立IR树索引;2)提出一种积分式可视性度量方法,该可视性度量方法符合人体视觉感知特征;3)基于步骤2)所提出的可视性度量方法,设计环绕遮挡图结构作为Web对象及IR树节点对象的可视性计算引擎;4)基于步骤2)中的可视性度量方法,针对用户可视Web检索需求设计查询匹配度度量函数,融合Web对象相对于用户位置的可视性与相对于查询关键词的语义相关性;5)利用IR树索引,结合步骤3)所提出的环绕遮挡图结构以及步骤4)所提出的查询匹配度度量函数,采用增量式的方法获得K个与用户查询匹配度最高的Web对象。2.步骤1)中所述的建立IR树索引,需要先对Web对象的空间属性和语义属性建立理论模型,用最小包围矩形表示Web对象的空间位置与几何形状,用文本表示Web对象的语义内容,依据理论模型对海量Web对象建立IR树索引,这种树索引结构无缝融合Web对象的空间信息与语义信息,并且对于后期Web对象的插入、删除、更新操作IR树索引都提供了处理机制。3.步骤2)中所述的积分式可视性度量方法,空间线段对象看做由无穷多个点对象组成,每一点的可视性都与该点到查询点的距离成反比,那么线段对象的可视性就是无穷多个点对象的可视度叠加,用定积分式表达,而对于空间属性被建模为平面矩形的Web 对象,平面矩形相对于查询点最多具有一条或两条能见边,即不考虑查询点落于矩形内部的特殊情况,从而Web对象的可视性即为平面矩形能见边的可视性之和。4.步骤3)中所述的环绕遮挡图结构的性质与构建方法如下4. 1)环绕遮挡图通过考虑Web对象的相互遮挡,并结合用户查询位置与步骤2)所提出的可视度衡量标准而构建,其成员全部来自于原始Web对象集;4. 2)环I 当图中链纖了苗钿^BM围0,刨的张角范围,且在以鶴点为坐标原点,与X轴正方向成任意角度白妨向上,环猶当图所对应的则豫将是勧向上針删豫集合中的廠可爾象;4. 3)环绕遮挡图之外的Web对象可视性为零,即对于任一不属于环绕遮挡图的Web对象,必定被环绕遮挡图的一个成员完全遮挡或多个成员联合完全遮挡;4. 4)环绕遮挡图通过最好优先(Best First)方法构建,距离查询点比较近的Web对象被优先获取作为初始遮挡体,后续获取得到的Web对象与当前环绕遮挡图的成员作比较,如果它们具有共同角度区间,则在共同角度区间中选取距离查询点更近的Web对象作为新的环绕遮挡图成员并计算可视性,重复这一过程直至环绕遮挡图完全覆盖查询点周围 的角度区间。5.步骤4)中所述的匹配度度量函数用以衡量Web对象与用户查询之间的匹配程度,以线性加权方式融合Web对象的可视性和语义相关性,其中可视性采用步骤2)所述的积分式可视性度量方法,语义相关性采用信息挖掘领域的TF-IDF模型与向量余弦距离度量,加权函数中的权重系数根据实际应用场景与用户需求方便设定。6.步骤5)中所述的K个Web对象的增量式获取具体实施方法如下6. 1)维护一个存放IR树索引节点的优先队列以及一个结果列表,其中优先队列以步骤4)所述的线性加权匹配度为键值,按照键值递减的顺序组织IR树各个节点;6. 2)将IR树索引的根节点放入优先队列,循环访问优先队列中位于队首,即匹配度最高的元素;6. 3)若优先队列队首元素为IR树索引中间节点,则利用环绕遮挡图与该节点所指向的倒排文件索引为其子节点分别计算可视性与语义相关度,并进行线性加权后作为各个子节点的查询匹配度与子节点一起压入优先队列;6. 4)若优先队列队首元素为Web对象,则说明当前Web对象的匹配度比优先队列中任意其它Web对象或IR树索引节点的匹配度都要高,于是将此对象加入到查询结果集中;6.5)当查询结果集的大小达到K或者优先队列已为空时,获取过程结束,返回最终的查询结果集。本专利技术具有的有益效果是本专利技术充分利用IR树索引结构海量Web对象的空间属性与文本属性,并支持高效的插入、删除、更新操作。相对于基于欧氏距离的Web对象检索,提出了一种积分式可视性度量方法作为空间属性匹配度,并在此基础上设计环绕遮挡图结构作为Web对象的可视性计算引擎。融合Web对象可视性与语义相关性,供用户增量式获取与查询密切匹配的可视Web 对象。附图说明图1是本专利技术实施步骤流程图。图2是Web对象的可视性度量示意图。图3是环绕遮挡图结构示意图。具体实施例方式现结合具体实本文档来自技高网
...

【技术保护点】
1.一种基于可视程度的Web对象检索方法,其特征在于采用以下步骤实现:1)对具有空间属性的海量Web对象建立IR树索引;2)提出一种积分式可视性度量方法,该可视性度量方法符合人体视觉感知特征;3)基于步骤2)所提出的可视性度量方法,设计环绕遮挡图结构作为Web对象及IR树节点对象的可视性计算引擎;4)基于步骤2)中的可视性度量方法,针对用户可视Web检索需求设计查询匹配度度量函数,融合Web对象相对于用户位置的可视性与相对于查询关键词的语义相关性;5)利用IR树索引,结合步骤3)所提出的环绕遮挡图结构以及步骤4)所提出的查询匹配度度量函数,采用增量式的方法获得K个与用户查询匹配度最高的Web对象。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈珂寿黎但胡天磊陈刚张超
申请(专利权)人:浙江大学
类型:发明
国别省市:86

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1