一种基于贝叶斯网络的结构化文档检索模型及其检索方法技术

技术编号:17346311 阅读:37 留言:0更新日期:2018-02-25 11:31
本发明专利技术涉及一种基于贝叶斯网络的结构化文档检索模型及其检索方法,该模型包括:术语子网用于表示术语层之间的关系,并计算其包含的术语节点之间的相关性系数和术语节点与预检索术语节点的第一条件概率,从而检索出多个衍生术语;结构化文档子网用于表示各结构化文档层的结构层次关系,并计算其包含的结构单元节点的第二条件概率,从而检索出最相近的文档。还涉及一种检索方法。本发明专利技术通过术语子网和结构化文档子网的模型,可以提高检索术语之间的相关度,有利于后续的术语计算更加精确,通过采用不同的计算条件概率公式,提高了术语之间的匹配度,提高了检索的精度,同时子网之间的各结构层的关系,可以加快检索的速度,缩短检索时间。

【技术实现步骤摘要】
一种基于贝叶斯网络的结构化文档检索模型及其检索方法
本专利技术属于结构化文档检索领域,尤其涉及一种基于贝叶斯网络的结构化文档检索模型及其检索方法。
技术介绍
随着互联网上新的文档表示方法HTML、XML和SGML的发展,一些类似教科书、科技文献和技术手册等结构规整的文档在互联网上越来越普遍。这类可以通过文档表示方法同时表示出内容和结构的文档被称之为结构化文档,它们的大量出现就需要设计和实现新的模型和工具来根据给定的结构索引、检索和呈现文档。而传统的信息检索系统往往是把每篇文档作为一个整体来考虑,这样的检索就没有利用到结构化文档的结构信息,容易产生大量的多余信息。因此如何使用结构信息从结构化文档中有效地检索出满足用户信息需求的精确简单的内容,这一问题得到了越来越多地关注。另外,以往的信息检索模型中往往假设索引术语之间是相互独立的,实际上索引术语不是相互独立的而是可能存在着某种关系。造成信息检索效果低下的主要原因是在信息检索中检索过程常常只是关键词(索引术语)的简单匹配过程,使得当查询中所使用的术语与文档的索引术语不匹配时就会导致与查询相关的文档不能被检索出来,所以采用现有技术的检索模型,检索得到的结果往往不精确,且检索的时间周期比较长。
技术实现思路
本专利技术所要解决的技术问题是:①现有技术中的检索过程采用的关键词匹配简单,导致检索不精确,检索时间周期较长。②传统的信息检索系统往往是把每篇文档作为一个整体来考虑,这样的检索就没有利用到结构化文档的结构信息,容易产生大量的多余信息。为解决上面的技术问题,本专利技术提供了一种基于贝叶斯网络的结构化文档检索模型,该模型包括:结构化文档子网和术语子网;所述术语子网,用于表示术语层之间的关系,并计算所述术语层中的术语节点之间的相关性系数和所述术语层中的任一术语节点与预检索术语节点的第一条件概率,并根据所述相关性系数和所述第一条件概率检索出与预设目标术语相联系的多个衍生术语;所述结构化文档子网,用于表示各结构化文档层的结构层次关系,并计算所述多个衍生术语在所述各结构化文档层中的结构单元节点的第二条件概率,并根据所述第二条件概率确定与预设目标文档最相近的文档。本专利技术的有益效果:通过上述的结构化文档检索模型中的术语子网,可以提高检索术语之间的相关度,有利于后续的术语计算更加精确,通过采用不同的计算条件概率公式,提高了术语之间的匹配度,提高了检索的精度,同时子网之间的各结构层的关系,可以加快检索的速度,缩短检索时间。进一步地,所述术语层包括:第一术语层T′和第二术语层T,其中所述第二术语层T为原始术语层,所述第一术语层T′的术语节点是通过完全复制所述第二术语层T的术语节点得到的,每个术语节点用于表示一个术语,T′={T′1,T′2,...,T′k},T={T1,...,Tk}。进一步地,各结构化文档层的结构层次关系包括:下一结构化文档层j中的任一结构单元节点为上一结构化文档层j-1中的多个结构单元节点的父节点,其中j表示结构化文档层,j的取值j=2,...,l,l为结构化文档层的总数,l取值范围是大于或者等于2的自然数。进一步地,所述第二术语层T中的任一术语节点为所述第一术语层T′中的多个术语节点的父节点。进一步地,计算所述术语节点与预检索术语节点的第一条件概率包括:根据以下公式计算第一术语层T′中的术语节点的第一条件概率其中,第一条件概率也是边缘条件概率k为索引术语的总数,T′i表示第i术语节点,i取值大于等于1的自然数。进一步地,计算所述术语节点与预检索术语节点的第一条件概率包括:根据以下公式计算第二术语层T中的术语节点的第一条件概率其中pa(Tj)表示术语节点Tj作为父节点集合Pa(Tj)的值的任意组合,权重wij表示术语节点T′i对术语节点Tj的影响程度,且满足wij≥0,所述权重wij的计算方法如下:其中,α是参数,满足0<α<1,用来表示术语节点之间的相关关系对Tj的相关条件概率的影响程度,Tj表示第j层的节点。上述进一步地有益效果:解决了由于用于结构化文档检索的贝叶斯网络中存在的节点数目非常庞大,估计和存储这些条件概率需要耗费大量的时间和空间的问题,通过上述的方法可以大大地缩短检索的时间,同时也减少了存储的概率的空间。进一步地,计算所述多个相关术语在所述各结构化文档层中的结构单元节点的第二条件概率包括:根据以下公式计算第j=l层结构化文档层中的结构单元节点的条件概率其中,pa(Uil)表示结构单元节点Uil作为父节点集合Pa(Uil)的值的任意组合,w(Tk,Uil)表示术语Tk对结构单元Uil的影响程度,且满足w(Tk,Uil)≥0,Uij表示第j层的第i个结构单元节点。进一步地,计算所述多个衍生术语在所述各结构化文档层中的结构单元节点的第二条件概率包括:根据以下公式计算第j≠l层结构化文档层中的结构单元节点的条件概率其中,pa(Uij)表示结构单元节点Uij作为父节点集合Pa(Uij)的值的任意组合,w(Uh,j+1,Uij)表示结构单元节点Uh,j+1对于其包含的结构单元节点Uij的影响程度,且满足w(Uh,j+1,Uij)≥0,A(Uij)表示结构单元节点Uij包含的所有的术语集合。本专利技术还涉及一种结构化文档检索模型的检索方法,该方法包括:S1,获取需要查询的目标术语;S2,所述结构化文档检索模型根据所述目标术语在预存文档库中进行检索,确定所述目标术语在预存文档库中的文档结构单元的条件概率;S3,判断所述条件概率是否大于预设条件概率阈值,若大于,则将大于所述条件概率阈值的文档结构单元提取出来;S4,将提取出来的文档结构单元按照所述条件概率的大小顺序进行降序排列,并将排列好的文档结构单元反馈存储或者显示,以便提供给用户使用。本专利技术的有益效果:在查询相关的衍生术语的情况下,对于每个直接或间接包含查询术语的文档结构单元计算得到它的相关条件概率,最终文档结构单元按照概率降序排列呈现给用户,不但提高了检索的精度,也大大提高了检索的文档的精度,更加能够满足用户的需求度。进一步地,所述S3中还包括:若小于,则返回步骤S1。附图说明图1为本专利技术的一种基于贝叶斯网络的结构化文档检索模型的拓扑结构示意图;图2为本专利技术的一种结构化文档检索模型的检索方法的流程图;图3为本专利技术的文档U11的结构示意图。具体实施方式以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。如图1所示,为本专利技术的基于贝叶斯网络的结构化文档检索模型的拓扑架构示意图。如图1所示,本实施例提供了一种基于贝叶斯网络的结构化文档检索模型,该模型包括:结构化文档子网和术语子网;所述术语子网,用于表示术语层之间的关系,并计算所述术语层中的术语节点之间的相关性系数和所述术语层中的任一术语节点与预检索术语节点的第一条件概率,并根据所述相关性系数和所述第一条件概率检索出与预设目标术语相联系的多个衍生术语;所述结构化文档子网,用于表示各结构化文档层的结构层次关系,并计算所述多个衍生术语在所述各结构化文档层中的结构单元节点的第二条件概率,并根据所述第二条件概率确定与预设目标文档最相近的文档。可选地,所述术语层包括:第一术语层T′和第二术语层T,其中所述第二术语层T为原始术语层,所述第本文档来自技高网...
一种基于贝叶斯网络的结构化文档检索模型及其检索方法

【技术保护点】
一种基于贝叶斯网络的结构化文档检索模型,其特征在于,该模型包括:结构化文档子网和术语子网;所述术语子网,用于表示术语层之间的关系,并计算所述术语层中的术语节点之间的相关性系数和所述术语层中的任一术语节点与预检索术语节点的第一条件概率,并根据所述相关性系数和所述第一条件概率检索出与预设目标术语相联系的多个衍生术语;所述结构化文档子网,用于表示各结构化文档层的结构层次关系,并计算所述多个衍生术语在所述各结构化文档层中的结构单元节点的第二条件概率,并根据所述第二条件概率确定与预设目标文档最相近的文档。

【技术特征摘要】
1.一种基于贝叶斯网络的结构化文档检索模型,其特征在于,该模型包括:结构化文档子网和术语子网;所述术语子网,用于表示术语层之间的关系,并计算所述术语层中的术语节点之间的相关性系数和所述术语层中的任一术语节点与预检索术语节点的第一条件概率,并根据所述相关性系数和所述第一条件概率检索出与预设目标术语相联系的多个衍生术语;所述结构化文档子网,用于表示各结构化文档层的结构层次关系,并计算所述多个衍生术语在所述各结构化文档层中的结构单元节点的第二条件概率,并根据所述第二条件概率确定与预设目标文档最相近的文档。2.根据权利要求1所述的结构化文档检索模型,其特征在于,所述术语层包括:第一术语层T′和第二术语层T,其中所述第二术语层T为原始术语层,所述第一术语层T′的术语节点是通过完全复制所述第二术语层T的术语节点得到的,每个术语节点用于表示一个术语,T′={T1′,T2′,...,Tk′},T={T1,...,Tk}。3.根据权利要求1或2所述的结构化文档检索模型,其特征在于,各结构化文档层的结构层次关系包括:下一结构化文档层j中的任一结构单元节点为上一结构化文档层j-1中的多个结构单元节点的父节点,其中j表示结构化文档层,j的取值j=2,...,l,l为结构化文档层的总数,l取值范围是大于或者等于2的自然数。4.根据权利要求2所述的结构化文档检索模型,其特征在于,所述第二术语层T中的任一术语节点为所述第一术语层T′中的多个术语节点的父节点。5.根据权利要求2所述的结构化文档检索模型,其特征在于,计算所述术语节点与预检索术语节点的第一条件概率包括:根据以下公式计算第一术语层T′中的术语节点的第一条件概率其中,第一条件概率也是边缘条件概率k为索引术语的总数,Ti′表示第i术语节点,i取值大于等于1的自然数。6.根据权利要求5所述的结构化文档检索模型,其特征在于,计算所述术语节点与预检索术语节点的第一条件概率包括:根据以下公式计算第二术语层T中的术语节点的第一条件概率其中pa(Tj)表示术语节点Tj作为父节点集合Pa(Tj)的值的任意组合,权重wij表示术语节点Ti′对术语节点Tj的影响程度,且满足wij≥0,所述权重wij的计算方法如下:

【专利技术属性】
技术研发人员:赵爽
申请(专利权)人:华北理工大学
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1