【技术实现步骤摘要】
一种基于贝叶斯网络的结构化文档检索模型及其检索方法
本专利技术属于结构化文档检索领域,尤其涉及一种基于贝叶斯网络的结构化文档检索模型及其检索方法。
技术介绍
随着互联网上新的文档表示方法HTML、XML和SGML的发展,一些类似教科书、科技文献和技术手册等结构规整的文档在互联网上越来越普遍。这类可以通过文档表示方法同时表示出内容和结构的文档被称之为结构化文档,它们的大量出现就需要设计和实现新的模型和工具来根据给定的结构索引、检索和呈现文档。而传统的信息检索系统往往是把每篇文档作为一个整体来考虑,这样的检索就没有利用到结构化文档的结构信息,容易产生大量的多余信息。因此如何使用结构信息从结构化文档中有效地检索出满足用户信息需求的精确简单的内容,这一问题得到了越来越多地关注。另外,以往的信息检索模型中往往假设索引术语之间是相互独立的,实际上索引术语不是相互独立的而是可能存在着某种关系。造成信息检索效果低下的主要原因是在信息检索中检索过程常常只是关键词(索引术语)的简单匹配过程,使得当查询中所使用的术语与文档的索引术语不匹配时就会导致与查询相关的文档不能被检索出来,所以采 ...
【技术保护点】
一种基于贝叶斯网络的结构化文档检索模型,其特征在于,该模型包括:结构化文档子网和术语子网;所述术语子网,用于表示术语层之间的关系,并计算所述术语层中的术语节点之间的相关性系数和所述术语层中的任一术语节点与预检索术语节点的第一条件概率,并根据所述相关性系数和所述第一条件概率检索出与预设目标术语相联系的多个衍生术语;所述结构化文档子网,用于表示各结构化文档层的结构层次关系,并计算所述多个衍生术语在所述各结构化文档层中的结构单元节点的第二条件概率,并根据所述第二条件概率确定与预设目标文档最相近的文档。
【技术特征摘要】
1.一种基于贝叶斯网络的结构化文档检索模型,其特征在于,该模型包括:结构化文档子网和术语子网;所述术语子网,用于表示术语层之间的关系,并计算所述术语层中的术语节点之间的相关性系数和所述术语层中的任一术语节点与预检索术语节点的第一条件概率,并根据所述相关性系数和所述第一条件概率检索出与预设目标术语相联系的多个衍生术语;所述结构化文档子网,用于表示各结构化文档层的结构层次关系,并计算所述多个衍生术语在所述各结构化文档层中的结构单元节点的第二条件概率,并根据所述第二条件概率确定与预设目标文档最相近的文档。2.根据权利要求1所述的结构化文档检索模型,其特征在于,所述术语层包括:第一术语层T′和第二术语层T,其中所述第二术语层T为原始术语层,所述第一术语层T′的术语节点是通过完全复制所述第二术语层T的术语节点得到的,每个术语节点用于表示一个术语,T′={T1′,T2′,...,Tk′},T={T1,...,Tk}。3.根据权利要求1或2所述的结构化文档检索模型,其特征在于,各结构化文档层的结构层次关系包括:下一结构化文档层j中的任一结构单元节点为上一结构化文档层j-1中的多个结构单元节点的父节点,其中j表示结构化文档层,j的取值j=2,...,l,l为结构化文档层的总数,l取值范围是大于或者等于2的自然数。4.根据权利要求2所述的结构化文档检索模型,其特征在于,所述第二术语层T中的任一术语节点为所述第一术语层T′中的多个术语节点的父节点。5.根据权利要求2所述的结构化文档检索模型,其特征在于,计算所述术语节点与预检索术语节点的第一条件概率包括:根据以下公式计算第一术语层T′中的术语节点的第一条件概率其中,第一条件概率也是边缘条件概率k为索引术语的总数,Ti′表示第i术语节点,i取值大于等于1的自然数。6.根据权利要求5所述的结构化文档检索模型,其特征在于,计算所述术语节点与预检索术语节点的第一条件概率包括:根据以下公式计算第二术语层T中的术语节点的第一条件概率其中pa(Tj)表示术语节点Tj作为父节点集合Pa(Tj)的值的任意组合,权重wij表示术语节点Ti′对术语节点Tj的影响程度,且满足wij≥0,所述权重wij的计算方法如下:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。