一种计算机标引和检索的方法技术

技术编号：2861516 阅读：197 留言：0更新日期：2012-04-11 18:40

本发明专利技术提出一种利用计算机系统进行自动标引及检索的方法，利用包括内容分析子系统、普通索引子系统、隐含概念索引子系统和检索子系统的计算机系统进行自动标引和检索。通过对文献增加隐含概念的标引及在其基础上的检索，使检索输出的文献更为全面和准确。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机信息处理技术，特别是一种利用计算机对文献进行标引和检索的方法。
技术介绍
随着计算机技术特别是互联网技术的迅速发展，信息爆炸性地增长。如何快速、准确地获取自己所需要的信息是人们的迫切需求。利用计算机系统进行自动标引和检索技术的发展为我们提供了有力的支持。基于词汇的检索技术是目前最常见的检索技术，由这种方法构建的计算机检索系统，使用者只要输入以词汇、短语或句子组成的提问，就可以实现对相关文献的检索。目前进行自动标引和检索的计算机系统一般包括内容分析子系统、索引子系统和检索子系统(参见公开号为CN1435776A的专利文献)。其进行标引的方法主要包括以下步骤进行文本分析、自动分词，根据词频等信息提取关键词，并计算出每个关键词与文献的相关度，为文献建立以词汇为内容的倒排索引。其进行检索的方法主要包括以下步骤检索输入串进行分词处理，得到检索关键词，用检索关键词依据一定的信息检索模型进行检索，得到文献和检索输入串的相关度，然后根据文献的相关度进行排序输出。目前的自动标引多是字面标引，也就是将文本中出现的关键词标为该文的索引词，也有部分进行同义词或上位词标引。例如文本中出现“计算机”一词，字面标引仅将“计算机”作为索引词，而同义词标引则同时将其同义词“电脑”作为索引词；文本中出现“Windows 2000”一词，字面标引仅将“Windows 2000”作为索引词，而上位词标引同时将其上位词“操作系统”作为索引词。上述标引方法不进行更深层次的隐含概念的标引，不能揭示文本的隐含概念。在检索时，目前常用的信息检索模型有布尔检索模型、向量空间模型、概率...

【技术保护点】
一种计算机标引和检索的方法，利用包括内容分析子系统、普通索引子系统和检索子系统的计算机系统进行自动标引和检索，其特征在于所述计算机系统还包含有隐含概念索引子系统，该子系统中存储有由隐含概念规则表组成的隐含概念规则库，隐含概念规则表的内容包含有隐含概念、隐含概念所对应的词、隐含概念所对应的词的权值；所述标引和检索的方法利用隐含概念索引子系统进行隐含概念的标引，并根据包括隐含概念索引在内的文献索引提供检索结果；所述方法利用隐含概念索引子系统进行隐含概念的标引时包括以下步骤：　　根据存储在隐含概念索引子系统内的隐含概念规则库及文献的关键词权值信息计算隐含概念与文献的相关度；将与文献的相关度达到一定阈值的隐含概念作为索引词进行标引；该方法根据包括隐含概念索引在内的文献索引提供检索结果。

【技术特征摘要】
1.一种计算机标引和检索的方法，利用包括内容分析子系统、普通索引子系统和检索子系统的计算机系统进行自动标引和检索，其特征在于所述计算机系统还包含有隐含概念索引子系统，该子系统中存储有由隐含概念规则表组成的隐含概念规则库，隐含概念规则表的内容包含有隐含概念、隐含概念所对应的词、隐含概念所对应的词的权值；所述标引和检索的方法利用隐含概念索引子系统进行隐含概念的标引，并根据包括隐含概念索引在内的文献索引提供检索结果；所述方法利用隐含概念索引子系统进行隐含概念的标引时包括以下步骤根据存储在隐含概念索引子系统内的隐含概念规则库及文献的关键词权值信息计算隐含概念与文献的相关度；将与文献的相关度达到一定阈值的隐含概念作为索引词进行标引；该方法根据包括隐含概念索引在内的文献索引提供检索结果。2.根据权利要求1所述的一种计算机标引和检索的方法，其特征在于隐含概念规则库由隐含概念规则表组成，该规则表包含隐含概念、隐含概念所对应的词、隐含概念所对应的词权值。3.根据权利要求1或2所述的一种计算机标引和检索的方法，其特征在于计算隐含概念与文献的相关度的计算公式为Sim(Dvi,Cvi)=Σj=1nDWij*CWijΣj=1n(DWij)2+Σj=1n(CWij)2-Σj=1nDWij*CWij]]>式中Sim(Dvi，Cvi)为隐含概念与文献的相关度，DWij为文献中每个关键词的权值，CWij为隐含概念规则表中每个隐含概念所对应的关键词的权值。4.根据权利要求1或2所述的一种计算机标引和检索的方法，其特征在于该方法运用信息检索模型的向量空间模型进行检索，文献与提问的相关度的计算公式为Sim(Dvi,Qv)=Σj=1nDWij*QWjΣj=1n(DWij)2+Σj=1n(QWj)2-Σj=1nDWij*QWj]]>式中Sim(Dvi，Qv)表示文献向量与提问的相关度，Dwij为文献中每个索引词的权值，QWj为提问中每个关键词的权值。5.根据权利要求3所述的一种计算机标引和检索的方法，其特征在于该方法运用信息检索模型的向量空间模型进行检索，文献与提问的相关度的计算公式为Sim(Dvi...

【专利技术属性】
技术研发人员：刘千祥，季晓燕，周群，苏华，赵静，
申请(专利权)人：中国计算机世界出版服务公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人