一种计算机标引和检索的方法技术

技术编号:2861516 阅读:197 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出一种利用计算机系统进行自动标引及检索的方法,利用包括内容分析子系统、普通索引子系统、隐含概念索引子系统和检索子系统的计算机系统进行自动标引和检索。通过对文献增加隐含概念的标引及在其基础上的检索,使检索输出的文献更为全面和准确。

【技术实现步骤摘要】

本专利技术涉及计算机信息处理技术,特别是一种利用计算机对文献进行标引和检索的方法。
技术介绍
随着计算机技术特别是互联网技术的迅速发展,信息爆炸性地增长。如何快速、准确地获取自己所需要的信息是人们的迫切需求。利用计算机系统进行自动标引和检索技术的发展为我们提供了有力的支持。基于词汇的检索技术是目前最常见的检索技术,由这种方法构建的计算机检索系统,使用者只要输入以词汇、短语或句子组成的提问,就可以实现对相关文献的检索。目前进行自动标引和检索的计算机系统一般包括内容分析子系统、索引子系统和检索子系统(参见公开号为CN1435776A的专利文献)。其进行标引的方法主要包括以下步骤进行文本分析、自动分词,根据词频等信息提取关键词,并计算出每个关键词与文献的相关度,为文献建立以词汇为内容的倒排索引。其进行检索的方法主要包括以下步骤检索输入串进行分词处理,得到检索关键词,用检索关键词依据一定的信息检索模型进行检索,得到文献和检索输入串的相关度,然后根据文献的相关度进行排序输出。目前的自动标引多是字面标引,也就是将文本中出现的关键词标为该文的索引词,也有部分进行同义词或上位词标引。例如文本中出现“计算机”一词,字面标引仅将“计算机”作为索引词,而同义词标引则同时将其同义词“电脑”作为索引词;文本中出现“Windows 2000”一词,字面标引仅将“Windows 2000”作为索引词,而上位词标引同时将其上位词“操作系统”作为索引词。上述标引方法不进行更深层次的隐含概念的标引,不能揭示文本的隐含概念。在检索时,目前常用的信息检索模型有布尔检索模型、向量空间模型、概率检索模型。其中向量空间模型是指,在向量空间模型(Vector Space Model)中,检索系统中的每一篇文献和每一个提问式均用向量表示,例如Di=(T1,T2,T3,...,Tm),Q=(T1,T2,T3,...,Tn),其中,Di为文献集合中的第i篇文献;Q为提问;Tk表示文献向量或提问向量中的第k个分量,即文献表示或提问式中所含的第k个索引词或检索词。那么向量Di(DVi)、Q(QV)可表示如下DVi=(DWi1,DWi2,DWi3,...DWim)QV=(QW1,QW2,QW3,...QWn)DWij和QWj 分别是文献和提问中每个分量(词)的权值,即词在特定文献中加权后的权重。向量空间模型将DWij和QWj在区间取值。这样,就可以构成一个向量空间,把信息检索中文献与提问的匹配处理过程转化为向量空间中文献向量与提问向量的相似度计算问题。某一文献与某一提问的相关程度通过计算该向量对之间的相似度来测定。计算向量对之间相似度最简单的方法就是用点积函数,它把文献向量与提问向量的相似度定义为Sim(DVi,QV)=Σj=1nDWij*QWj---(1)]]>公式(1)中,Sim(DVi,QV)表示文献向量Di与提问向量Q的相似度。计算向量对之间相似度较常用的方法是用余弦函数,它将相似度定义为Sim(DVi,QV)=Σj=1nDWij*QWj(Σj=1nDWij2)(Σj=1nQWj2)---(2)]]>公式(2)中,Sim(DVi,QV)表示文献向量Di与提问向量Q的相似度,这种方法的实质就是计算多维空间中文献向量与提问向量之间的夹角余弦。当两个向量完全相同时,它们在该空间中相互重叠,即夹角为0,函数(相似度)达到最大值。公式中的分母作为某种标准化因子起作用。若向量之间夹角很小,且采用的是标准化向量,那么向量之间的夹角余弦近似等于对应向量的端点之间的距离。当全部文献向量与某个提问向量的相似度都计算完毕后,系统就把相似度超过某一规定阈值的文献(或者根据预定要检出的文献数量)按相似度大小降序排列输出。使用公式(1)计算向量相似度有明显的局限性,因为公式(1)只是向量简单相加,未考虑向量的夹角,这样计算出的向量相似度与实际情况可能会有较大出入,如根据公式(1)将向量简单相加后计算出的相似度相同的文献,其向量夹角可能并不相同,这样实际相似度也不相同,向量夹角小的实际相似度高;公式(2)只度量了两个向量的夹角大小,而没有考虑向量的长度,这样计算出的向量相似度也可能与实际情况有较大出入,如根据公式(2)的计算结果,向量夹角大小一致而向量长度不一样的文献相似度相同,而事实上向量长度大的文献的实际相似度高。所以上述两种计算方法都有一定局限性。目前检索技术的另一个局限性是检索结果仅仅考虑文献的相关度,而不考虑时间,实际上只按相关度排序在很多时候并不符合用户实际的需求,因为在一般情况下,用户需要既相关又时效性强文献。
技术实现思路
本专利技术的方法针对上述标引方法的不足,提出一种利用计算机系统进行自动标引及其基础上的检索方法,使检索输出的文献更为全面;作为本专利技术的进一步改进,还针对上述检索方法的不足,提出新的技术方案,使检索输出文献与提问关键词的相关度更高,保证检索的准确性。本专利技术的目的是通过以下技术方案实现的本方法利用包括内容分析子系统、普通索引子系统、隐含概念索引子系统和检索子系统的计算机系统进行自动标引和检索。其中隐含概念索引子系统中存储有由隐含概念规则表组成的隐含概念规则数据库,隐含概念规则表的内容包含有隐含概念、隐含概念所对应的词、隐含概念所对应的词的权值。本方法利用隐含概念索引子系统进行隐含概念的标引,并根据包括隐含概念索引在内的文献索引提供检索结果。本方法利用隐含概念索引子系统进行隐含概念的标引时包括以下步骤根据存储在隐含概念索引子系统内的隐含概念规则数据库及文献的关键词权值信息计算隐含概念与文献的相关度;将与文献的相关度达到一定阈值的隐含概念作为索引词进行标引;该方法根据包括隐含概念索引在内的文献索引提供检索结果。所述隐含概念规则库可以由隐含概念规则表组成,该规则表包含隐含概念、隐含概念所对应的词、隐含概念所对应的词权值。在计算隐含概念与文献的相关度时采用向量空间模型,其计算公式为Sim(Dvi,Cvi)=Σj=1nDWij*CWijΣj=1n(DWij)2+Σj=1n(CWij)2-Σj=1nDWij*CWij---(3)]]>(3)式中Sim(Dvi,Cvi)为隐含概念与文献的相关度,DWij为文献中每个关键词的权值,CWij为隐含概念规则表中每个隐含概念所对应的关键词的权值。作为本专利技术的进一步改进,运用信息检索模型的向量空间模型进行检索时,计算文献和提问的相关度的公式为Sim(Dvi,Qv)=Σj=1nDWij*QWjΣj=1n(DWij)2+Σj=1n(QWj)2-Σj=1nDWij*QWj---(4)]]>式中Sim(DVi,QV)表示文献向量与提问的相关度,Dwij为文献中每个索引词的权值,QWj为提问经过分析后所得出的每个关键词的权值。作为本专利技术的进一步改进,本方法的检索结果可以依据文献的综合相关度排序输出,文献的综合相关度的计算方法为将文献的时间和文献与提问的相关度进行加权处本文档来自技高网
...

【技术保护点】
一种计算机标引和检索的方法,利用包括内容分析子系统、普通索引子系统和检索子系统的计算机系统进行自动标引和检索,其特征在于所述计算机系统还包含有隐含概念索引子系统,该子系统中存储有由隐含概念规则表组成的隐含概念规则库,隐含概念规则表的内容包含有隐含概念、隐含概念所对应的词、隐含概念所对应的词的权值;所述标引和检索的方法利用隐含概念索引子系统进行隐含概念的标引,并根据包括隐含概念索引在内的文献索引提供检索结果;所述方法利用隐含概念索引子系统进行隐含概念的标引时包括以下步骤:   根据存储在隐含概念索引子系统内的隐含概念规则库及文献的关键词权值信息计算隐含概念与文献的相关度;将与文献的相关度达到一定阈值的隐含概念作为索引词进行标引;该方法根据包括隐含概念索引在内的文献索引提供检索结果。

【技术特征摘要】
1.一种计算机标引和检索的方法,利用包括内容分析子系统、普通索引子系统和检索子系统的计算机系统进行自动标引和检索,其特征在于所述计算机系统还包含有隐含概念索引子系统,该子系统中存储有由隐含概念规则表组成的隐含概念规则库,隐含概念规则表的内容包含有隐含概念、隐含概念所对应的词、隐含概念所对应的词的权值;所述标引和检索的方法利用隐含概念索引子系统进行隐含概念的标引,并根据包括隐含概念索引在内的文献索引提供检索结果;所述方法利用隐含概念索引子系统进行隐含概念的标引时包括以下步骤根据存储在隐含概念索引子系统内的隐含概念规则库及文献的关键词权值信息计算隐含概念与文献的相关度;将与文献的相关度达到一定阈值的隐含概念作为索引词进行标引;该方法根据包括隐含概念索引在内的文献索引提供检索结果。2.根据权利要求1所述的一种计算机标引和检索的方法,其特征在于隐含概念规则库由隐含概念规则表组成,该规则表包含隐含概念、隐含概念所对应的词、隐含概念所对应的词权值。3.根据权利要求1或2所述的一种计算机标引和检索的方法,其特征在于计算隐含概念与文献的相关度的计算公式为Sim(Dvi,Cvi)=Σj=1nDWij*CWijΣj=1n(DWij)2+Σj=1n(CWij)2-Σj=1nDWij*CWij]]>式中Sim(Dvi,Cvi)为隐含概念与文献的相关度,DWij为文献中每个关键词的权值,CWij为隐含概念规则表中每个隐含概念所对应的关键词的权值。4.根据权利要求1或2所述的一种计算机标引和检索的方法,其特征在于该方法运用信息检索模型的向量空间模型进行检索,文献与提问的相关度的计算公式为Sim(Dvi,Qv)=Σj=1nDWij*QWjΣj=1n(DWij)2+Σj=1n(QWj)2-Σj=1nDWij*QWj]]>式中Sim(Dvi,Qv)表示文献向量与提问的相关度,Dwij为文献中每个索引词的权值,QWj为提问中每个关键词的权值。5.根据权利要求3所述的一种计算机标引和检索的方法,其特征在于该方法运用信息检索模型的向量空间模型进行检索,文献与提问的相关度的计算公式为Sim(Dvi...

【专利技术属性】
技术研发人员:刘千祥季晓燕周群苏华赵静
申请(专利权)人:中国计算机世界出版服务公司
类型:发明
国别省市:11[中国|北京]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1