当前位置: 首页 > 专利查询>复旦大学专利>正文

∑*邻接矩阵全文数据库优化查询方法技术

技术编号:2887151 阅读:275 留言:0更新日期:2012-04-11 18:40
本发明专利技术属信息技术领域,是一种基于Σ↑[2]邻接矩阵的全文数据库的优化查询方法。通过引入关于Σ↑[2]邻接矩阵元素的基、关系、查询路类型(α、α↑[+]、α↑[-]和β型)和最大可能流通量以及基图等概念,提出基于Σ↑[2]邻接矩阵的全文数据库优化查询算法。本查询方法能够很快确定查询无解。在一般情况下能大幅度减少读盘操作和集合交运算,从而可大大提高查询效率。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】
信息检索是当前信息科学领域研究的一个重要课题。在信息检索中,出于查全和查准的考虑,人们普遍倾向于全文检索。而全文检索的一个主要问题就是全文数据库模型(在本文中也称为文本数据库模型),也就是如何表达全文数据库并提供方便、高效的全文数据库查询操作(W.B.Frakes,R.B.Yates.Information RetrievalData Structures &Algorithms.Prentice Hall PTR,Upper Saddle River,New Jersey.1992)。已经提出的全文数据库模型有倒排文件()和PAT树以及PAT数组等模型(;G.Gonnet.PAT3.1An Efficient Text Searching System.User’s Mannual.UW Centre for the New OED.University of Waterloo.1987;U.Manber,and G.Myers.Suffix arraysA New Methodfor Online String Searches.in 1stACM-SIAM Symposium on Discrete Algorithms.pp.319-27,San Francisco.1990)。尽管这些模型都得到应用,但都存在各自的局限性。为此,专利技术人提出了一种基于∑2邻接矩阵的新全文数据库模型(胡运发等,基于∑2邻接矩阵全文数据库的表达和操作方法,专利申请号99109122.1)。新模型继承了已有全文数据库模型的主要优点,同时避免了这些模型中存在的一些缺点。在领域独立性、时间无关性、查询完备性、空间复杂性、响应能力、可操作性、可维护性等方面均显示明显的优势。然而,只给出了∑2邻接矩阵全文数据库模型的基本概念和查询操作,并将新模型与其它模型进行了初步的比较。这些操作和查询方法还是比较基础的工作,查询效率还不高。本专利技术的目的在于提出一种基于∑2邻接矩阵全文数据库的高效率的优化查询方法。由于全文数据库的海量性,查询效率是衡量一个全文检索系统的重要指标。在()工作的基础上,本专利技术提出了∑2邻接矩阵全文数据库的查询优化问题,并通过分析∑2邻接矩阵元素间的关系,发现查询路径的特性,最后实现只根据查询路上的少量∑2邻接矩阵元素的操作来计算查询结果。为了便于说明问题,本专利技术先引进有关概念。定义1∑2邻接矩阵A(见)假定有文本库TB,它是一个无环句串的序列。文本库存在一个对应的以文本库中所有基本文字符为节点,以所有邻接基本文字符有序对为有向边而构成的有向图。∑2邻接矩阵A即为文本库有向图对应的邻接矩阵,但矩阵元素被赋予了独特的含义。在∑2邻接矩阵A中,每一矩阵元素不是简单的0/1值,仅仅表示节点间的连通性和方向性;而是一个集合,该集合为文本库有向图中对应的有向边所在的无环句串标号的集合,表示的是文本有向图中节点间的多通路特性。形式化地表示为A=, ……………………………………………(1)aij=I<l′,l′>={k|skliljsk,}。……………………………………………(2)其中,sk为文本数据库中的无环句串,li和lj为构成文本的基本文字符单元。定义2∑2邻接矩阵元素的基(Cardinality)∑2邻接矩阵元素aij包含的无环句串标号的个数称为aij的基(Cardinality),简记为cij。因此,有cij=|aij|。………………………(3)cij愈大,说明<li,lj>在更多的无环句串中出现。文本库有向图上的任意两条邻接的有向边对应的∑2邻接矩阵元素之间存在着一定关系。我们将这种关系归纳为两类,即包含与交叉。定义3∑2邻接矩阵元素间的包含关系(α型关系)aij和ajk为文本有向图中两条邻接有向边对应的∑2邻接矩阵元素,若它们之间存在如下关系1)aijajk或者2)aijajk,则称aij和ajk满足包含关系,或者α型关系。其中,若仅满足1),为递增包含关系,或者α+型关系仅满足2),则为递减包含关系,或者α-型关系。定义4∑2邻接矩阵元素间的交叉关系(β型关系)aij和ajk为文本有向图中两条邻接有向边对应的∑2邻接矩阵元素,若它们之间存在如下关系1)aij∩ajk≠Φ;2)aij∩ajk≠aij;3)aij∩ajk≠ajk。则称aij和ajk满足交叉包含关系,或者β型关系。在文本库有向图中,若干条邻接的有向边构成一条路。根据路上各有向边对应的∑2邻接矩阵元素之间的关系,下面定义几种不同特性的路。定义5α路若文本库有向图中某一条路上各有向边对应的∑2邻接矩阵元素之间均满足α型关系,则称这条路为α路。进一步地,若满足α+型关系,则称为α+路;类似地,若满足α-型关系,则称为α-路。定义6β路若文本库有向图中某一条路上至少有两条邻接的有向边所对应的∑2邻接矩阵元素之间满足β型关系,则称这条路为β路。定义7孤立有向边文本库有向图中,与它的邻接有向边构不成α路的有向边称为孤立有向边。可以把孤立有向边看作退化的α路,即只包含一条有向边的α路。根据上述给出的定义,有如下结论结论1任意一条α路可以分解为一系列的头尾有向边重叠的交替出现的α+路和α-路。特殊情况下α路为α+路或α-路。而一般情况下,α路将同时包含α+和α-子路。当首先出现的是α+子路时,则接下来出现的应是α-子路。否则,整条路就是α+路了。而且,作为连接前后两条子路的有向边既是前面的α+子路的尾,又是后面的α-子路的头。同样的道理,当先出现α-子路时,则接下来必定是α+子路,而且它们之间也存在一条公共的有向边。结论2一条β路可以分解为一系列的头尾相连的α路和孤立有向边为了更形象地描述路路,下面给出路的基图概念。定义8路的基图文本有向图中路的基图对应于一个二维平面图,路上的每一有向边对应于基图上的一个坐标点。点的纵坐标为有向边的基;点的横坐标为有向边的编号。这里的编号和文本库中句串的编号不同。我们将路的第1条有向边编号为1,以后沿路的方向给后续的有向边依次编号为2,3,…,直到路的最后一条有向边。然后,用线段将构成α关系的邻接有向边对应的坐标点连接起来,这样构成的图称为路的基图。定义9基图中的孤立点和极小点查询路中,孤立有向边在基图中对应的点称为孤立点;α+路的起始有向边和α-路的终止有向边在在基图中对应的点称为极小点。根据结论1、结论2和定义8、定义9,很显然,在基图中,α+路表现为一条递增的折线;α-路表现为一条递减的折线;而一般的α路则表现为一段段交替递减递减的相连折线;对于β路,由于满足β型关系的坐标点在基图中将不连接,可以想象,β路的基图是由被一些孤立点分隔的α路构成。下面给出一个具体例子进行说明。实例1给定如图1所示路,绘出对应的基图。显然,图1所示的查询路为α路。这条路上对应有向边的基分别为3、4、7、4、5、6、8、6、5。它的基见图2所示。在全文检索中,用户往往要确定一个文字串是否存在于文本库中和存在于文本库中的哪些文本中。用户的查询请求一般可形式化地表示为q(li1li2…lik)。在文本库有向图中,查询串li1li2..lik对应于一条路,我们称这条路为查询路。如果在文本库有向图中至少存在一条这样的查本文档来自技高网...

【技术保护点】
一种∑↑[2]邻接矩阵全文数据库查询方法,以文本库对应的∑↑[2]邻接矩阵表达全文数据库,其特征在于(1)根据用户提出的查询请求,分析查询路:求解查询路上每条有向边的基、相邻有向边的包含或交叉关系,判断该查询路的类型:α路或β路;( 2)求解查询路的最大可能流通量F↓[max]。若F↓[max]=0,则查询终止,返回空值;若F↓[max]≠0,则继续下一步;(3)找出查询路对应基图中的极小点和孤立点;(4)求所有极小点和弧立点对应的∑↑[2]邻接矩阵元素的交集。

【技术特征摘要】

【专利技术属性】
技术研发人员:胡运发周水庚
申请(专利权)人:复旦大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1