一种基于贝叶斯网络的结构化文档检索模型及其检索方法技术

技术编号：17346311 阅读：52 留言：0更新日期：2018-02-25 11:31

本发明专利技术涉及一种基于贝叶斯网络的结构化文档检索模型及其检索方法，该模型包括：术语子网用于表示术语层之间的关系，并计算其包含的术语节点之间的相关性系数和术语节点与预检索术语节点的第一条件概率，从而检索出多个衍生术语；结构化文档子网用于表示各结构化文档层的结构层次关系，并计算其包含的结构单元节点的第二条件概率，从而检索出最相近的文档。还涉及一种检索方法。本发明专利技术通过术语子网和结构化文档子网的模型，可以提高检索术语之间的相关度，有利于后续的术语计算更加精确，通过采用不同的计算条件概率公式，提高了术语之间的匹配度，提高了检索的精度，同时子网之间的各结构层的关系，可以加快检索的速度，缩短检索时间。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于贝叶斯网络的结构化文档检索模型及其检索方法
本专利技术属于结构化文档检索领域，尤其涉及一种基于贝叶斯网络的结构化文档检索模型及其检索方法。
技术介绍
随着互联网上新的文档表示方法HTML、XML和SGML的发展，一些类似教科书、科技文献和技术手册等结构规整的文档在互联网上越来越普遍。这类可以通过文档表示方法同时表示出内容和结构的文档被称之为结构化文档，它们的大量出现就需要设计和实现新的模型和工具来根据给定的结构索引、检索和呈现文档。而传统的信息检索系统往往是把每篇文档作为一个整体来考虑，这样的检索就没有利用到结构化文档的结构信息，容易产生大量的多余信息。因此如何使用结构信息从结构化文档中有效地检索出满足用户信息需求的精确简单的内容，这一问题得到了越来越多地关注。另外，以往的信息检索模型中往往假设索引术语之间是相互独立的，实际上索引术语不是相互独立的而是可能存在着某种关系。造成信息检索效果低下的主要原因是在信息检索中检索过程常常只是关键词(索引术语)的简单匹配过程，使得当查询中所使用的术语与文档的索引术语不匹配时就会导致与查询相关的文档不能被检索出来，所以采...
一种基于贝叶斯网络的结构化文档检索模型及其检索方法

【技术保护点】
一种基于贝叶斯网络的结构化文档检索模型，其特征在于,该模型包括：结构化文档子网和术语子网；所述术语子网，用于表示术语层之间的关系，并计算所述术语层中的术语节点之间的相关性系数和所述术语层中的任一术语节点与预检索术语节点的第一条件概率，并根据所述相关性系数和所述第一条件概率检索出与预设目标术语相联系的多个衍生术语；所述结构化文档子网，用于表示各结构化文档层的结构层次关系，并计算所述多个衍生术语在所述各结构化文档层中的结构单元节点的第二条件概率，并根据所述第二条件概率确定与预设目标文档最相近的文档。

【技术特征摘要】
1.一种基于贝叶斯网络的结构化文档检索模型，其特征在于,该模型包括：结构化文档子网和术语子网；所述术语子网，用于表示术语层之间的关系，并计算所述术语层中的术语节点之间的相关性系数和所述术语层中的任一术语节点与预检索术语节点的第一条件概率，并根据所述相关性系数和所述第一条件概率检索出与预设目标术语相联系的多个衍生术语；所述结构化文档子网，用于表示各结构化文档层的结构层次关系，并计算所述多个衍生术语在所述各结构化文档层中的结构单元节点的第二条件概率，并根据所述第二条件概率确定与预设目标文档最相近的文档。2.根据权利要求1所述的结构化文档检索模型，其特征在于，所述术语层包括：第一术语层T′和第二术语层T，其中所述第二术语层T为原始术语层，所述第一术语层T′的术语节点是通过完全复制所述第二术语层T的术语节点得到的，每个术语节点用于表示一个术语，T′＝{T1′,T2′,...,Tk′}，T＝{T1,...,Tk}。3.根据权利要求1或2所述的结构化文档检索模型，其特征在于，各结构化文档层的结构层次关系包括：下一结构化文档层j中的任一结构单元节点为上一结构化文档层j-1中的多个结构单元节点的父节点，其中j表示结构化文档层，j的取值j＝2,...,l，l为结构化文档层的总数，l取值范围是大于或者等于2的自然数。4.根据权利要求2所述的结构化文档检索模型，其特征在于，所述第二术语层T中的任一术语节点为所述第一术语层T′中的多个术语节点的父节点。5.根据权利要求2所述的结构化文档检索模型，其特征在于，计算所述术语节点与预检索术语节点的第一条件概率包括：根据以下公式计算第一术语层T′中的术语节点的第一条件概率其中，第一条件概率也是边缘条件概率k为索引术语的总数，Ti′表示第i术语节点，i取值大于等于1的自然数。6.根据权利要求5所述的结构化文档检索模型，其特征在于，计算所述术语节点与预检索术语节点的第一条件概率包括：根据以下公式计算第二术语层T中的术语节点的第一条件概率其中pa(Tj)表示术语节点Tj作为父节点集合Pa(Tj)的值的任意组合，权重wij表示术语节点Ti′对术语节点Tj的影响程度，且满足wij≥0，所述权重wij的计算方法如下：

【专利技术属性】
技术研发人员：赵爽，
申请(专利权)人：华北理工大学，
类型：发明
国别省市：河北,13

全部详细技术资料下载我是这个专利的主人