基于叙词表的信息检索方法及装置制造方法及图纸

技术编号:10022035 阅读:212 留言:0更新日期:2014-05-09 03:43
一种基于叙词表的信息检索方法及装置,所述方法包括根据叙词表,对用户输入的检索词进行规范化,获得规范化检索词K;利用规范化检索词K,通过通用搜索引擎对规范化检索词K进行检索,对结果的网址进行分析,提取要素信息;利用相似度计算的方法求出叙词表中K的相关词的相似度,将相似度大于阈值的相关词加入查询扩展集合N;将与K的相似度作为对应相关词的权值,利用相关词对每个网页中的要素信息进行加权求和计算,得到网页的权值,将网页按照权值由从大到小排序。本发明专利技术利用叙词表的词间关系,提出语义相似度计算方法,实现对叙词表词间关系的量化分析,并将计算相似度的叙词用于检索后结果的加权排序。本发明专利技术信息检索方法和装置显著提高了查询效果。

【技术实现步骤摘要】
基于叙词表的信息检索方法及装置
本申请涉及一种信息检索方法和装置,具体地,涉及一种利用叙词表的相似度计算得到查询扩展词集从而对检索结果进行相似度加权排序的信息检索方法和装置。
技术介绍
随着Internet的迅速发展,网络上的信息已经变得非常庞大,面对海量级的数据,如何进行高效、准确的信息检索是值得研究的课题。现有技术中,搜索引擎凭借其符合大众信息检索习惯的优势成为了目前获取网络信息的主要工具。但是,由于目前的搜索引擎采用的都是基于关键词的字面匹配模式,即仅以孤立的关键词对信息内容进行标引和检索,并不能表达出词语的语义内涵,更不能胜任获取文本中潜在的丰富的语义知识。因此,人们依然很难从海量信息中获取到自己最需要的信息,在多样化的网络信息环境下,现有搜索技术存在着明显的不足之处。为解决以上问题,提出了一些新颖的网络信息组织和检索理念。例如,概念检索和语义检索等。本体是实现语义检索的一种较为有效的工具,但本体的构建和维护需要大量的工作。目前很多行业领域都有自己较成熟的叙词表。叙词表是一个相对完善并且发展成熟的概念知识体系,自其从20世纪50年代诞生以来,经过不断发展和完善,已成为主题法中重要的信息组织工具,并曾在传统文献标引和检索中发挥过重要作用。与普通的网络信息扩展检索方法相比,基于叙词表词间关系的信息检索方法更注重利用叙词表这一语义逻辑提高检索结果的检准率和检全率。基于叙词表的信息检索方法在某些领域已有相关研究,文献1(ChenC,ZhuQ,LinL,etal.Webmediasemanticconceptretrievalviatagremovalandmodelfusion[J].ACMTransactionsonIntelligentSystemsandTechnology(TIST),2013,4(4):61)利用美国国立医学图书馆(TheNationalLibraryofMedicine)设计的元叙词表(Metathesaurus)对用户所输入的检索信息进行语法分析,并根据分析结果进行查询扩展。但是该文献没有对叙词之间的关系类型进行量化分析。文献2(XiongXia.Domaininformationretrievalbasedontermrelationshipsofthesaurus.Beijing:ChineseAcademyofAgriculturalSciencesDissertation,2011)给出一种基于农业叙词表的信息检索方法,但该方法在查询扩展时只考虑了与核心检索词直接相关的单级扩展,没有考虑其他叙词的影响。因此,如何能够将叙词表利用到信息检索中,并综合考虑叙词间多种关系的相似度,进行检索结果的加权分析,成为现有技术亟需解决的技术问题。
技术实现思路
本专利技术的目的在于基于叙词表的信息检索方法和装置,使得能够利用叙词表的相似度计算得到查询扩展词集从而对检索结果进行相似度加权排序。为达到此目的,本专利技术采用了如下方案:一种基于叙词表的信息检索方法,包括如下步骤:叙词规范化步骤:根据叙词表,对用户输入的检索词进行规范化,获得规范化检索词K;网页抓取步骤:利用通用搜索引擎以规范化检索词K为检索词进行检索,对前若干个结果的网址进行分析,提取出网页中的要素信息,所述要素信息包括网页中的URL、标题、正文、摘要、关键词;查询扩展集合建立步骤:利用相似度计算的方法求出叙词表中K的相关词的相似度,将相似度大于所设置的阈值的相关词加入所述查询扩展集合N;加权排序步骤:将与K的相似度作为所述查询扩展集合N中相关词的权值,利用所述相关词对每个网页中的所述要素信息进行加权求和计算,得到每个网页的权值,将所述网页按照所述权值由从大到小排序,并返回给用户。优选地,所述加权排序步骤包括:频率计算步骤,计算所述查询扩展集合中的每一个相关词在网页的标题中出现的频率X以及在网页正文中出现的频率P;权值计算步骤,求和计算每个网页的权值,其公式为:其中,TWn为第n个网页的总权值,m为所述查询扩展集合N中相关词的数目,Wi为N中第i个扩展词与规范化检索词K的相似度,Xi和Pi分别为所述扩展词在第i个网页的标题和正文中出现的频率,ω为标题正文比,用于调节标题对于最终结果的重要性,ω越大,标题对该网页权值的影响越大;排序步骤,将所述网页按照所述权值由从大到小排序,并返回给用户。进一步优选地,通过实验来选择合适的阈值Q及加权排序中的标题正文比ω。阈值Q取值为0.2-0.8,标题正文比ω取值为1-6。优选地,所述查询扩展集合建立步骤包括:建立初始查询扩展集合步骤:根据叙词表对规范化检索词K进行扩展,得到关于所述规范化检索词K的初始查询扩展集合U={D,F,W,Y},其中,D表示K的等同词,F表示K的所有上位/下位词,即叙词表概念树T的所有节点,W表示K的相关词,Y表示F的等同词和相关词;建立叙词表查询概念树步骤:找到所述规范化检索K的族首词O,以O为根节点建立叙词表概念树T;概念对组成步骤:从所述初始查询扩展集合中逐个抽取扩展词,使得规范化检索词K与扩展词组成概念对;相似度计算步骤:根据所述概念对中规范化检索词K与扩展词的关系类型,采用不同的公式计算规范化检索词K与扩展词的相似度;阈值判断步骤:设置阈值Q,判断所述初始查询扩展集合每个词与所述规范化检索词K的相似度是否大于Q:若大于,则将该词加入到查询扩展集合N中;若小于,则跳过,即不加入到查询扩展集合N中。进一步优选地,所述相似度计算步骤包括:当概念对中扩展词为K的等同词D时,所述相似度为等同相似度SimD(K,D),采用以下公式计算:SimD(K,D)=1。当概念对中扩展词为K的上位/下位词F时,所述相似度为属分相似度SimF(K,F),采用以下公式计算:SimF(K,F)=f1×f2×f3其中,f1为基于最短路径的相似度,f2为基于最近根深度的相似度,f3为基于密度的相似度,基于最短路径的相似度f1的计算公式为:f1(d)=e-αd其中,d为在T中由K到F的最短路径长度,α为调节因子,α越大,f1也越大。基于最近根深度的相似度f2的计算公式为:f2(h)=1-e-βh其中,h为R(K,F)所在深度,β为调节因子,β越大,f2也就越大。基于密度的相似度f3的计算公式为:其中,分别为K和F的密度向量。当概念对中扩展词为K的相关词W时,所述相似度为相关相似度SimW(K,W),采用以下公式计算:SimW(K,W)=g1×g2其中,g1为基于相关关联叙词深度的相似度,g2为基于相关关联叙词密度的相似度,基于相关关联叙词深度的相似度g1的计算公式为:其中,K的深度为h,ε为调节因子,ε越大,g1也越大。基于相关关联叙词密度的相似度g2的计算公式为:g2(e)=1-e-γe其中,e为以K为根节点的直接子节点数,γ为调节因子,γ越大,g2也就越大。当概念对中扩展词为K的上位/下位词F的等同词/相关词Y时,所述相似度为间接关系相似度,分别采用以下公式计算:SimY(K,Y)=SimF(K,F)×SimD(F,Y)或者SimY(K,Y)=SimF(K,F)×SimW(F,Y)。本专利技术还公开了一种基于叙词表的信息检索装置,包括:叙词规范化单元:根据叙词表,对用户输入的检索词进本文档来自技高网
...
基于叙词表的信息检索方法及装置

【技术保护点】

【技术特征摘要】
1.一种基于叙词表的信息检索方法,包括如下步骤:叙词规范化步骤:根据叙词表,对用户输入的检索词进行规范化,获得规范化检索词K;网页抓取步骤:利用通用搜索引擎以规范化检索词K为检索词进行检索,对前若干个结果的网址进行分析,提取出网页中的要素信息,所述要素信息包括网页中的URL、标题、正文、摘要、关键词;查询扩展集合建立步骤:利用相似度计算的方法求出叙词表中K的相关词的相似度,将相似度大于所设置的阈值的相关词加入所述查询扩展集合N;加权排序步骤:将与K的相似度作为所述查询扩展集合N中相关词的权值,利用所述相关词对每个网页中的所述要素信息进行加权求和计算,得到每个网页的权值,将所述网页按照所述权值由从大到小排序,并返回给用户;其中,所述查询扩展集合建立步骤包括:建立初始查询扩展集合步骤:根据叙词表对规范化检索词K进行扩展,得到关于所述规范化检索词K的初始查询扩展集合U={D,F,W,Y},其中,D表示K的等同词,F表示K的所有上位/下位词,即叙词表概念树T的所有节点,W表示K的相关词,Y表示F的等同词和相关词;以及建立叙词表查询概念树步骤:找到所述规范化检索K的族首词O,以O为根节点建立叙词表概念树T;概念对组成步骤:从所述初始查询扩展集合中逐个抽取扩展词,使得规范化检索词K与扩展词组成概念对;相似度计算步骤:根据所述概念对中规范化检索词K与扩展词的关系类型,采用不同的公式计算规范化检索词K与扩展词的相似度;阈值判断步骤:设置阈值Q,判断所述初始查询扩展集合每个词与所述规范化检索词K的相似度是否大于Q:若大于,则将该词加入到查询扩展集合N中;若小于,则跳过,即不加入到查询扩展集合N中。2.根据权利要求1所述的基于叙词表的信息检索方法,其特征在于:所述加权排序步骤包括:频率计算步骤,计算所述查询扩展集合中的每一个相关词在网页的标题中出现的频率X以及在网页正文中出现的频率P;权值计算步骤,求和计算每个网页的权值,其公式为:其中,TWn为第n个网页的总权值,m为所述查询扩展集合N中相关词的数目,Wi为N中第i个扩展词与规范化检索词K的相似度,Xi和Pi分别为所述扩展词在第i个网页的标题和正文中出现的频率,ω为标题正文比,用于调节标题对于最终结果的重要性,ω越大,标题对该网页权值的影响越大;排序步骤,将所述网页按照所述权值由从大到小排序,并返回给用户。3.根据权利要求2所述的基于叙词表的信息检索方法,其特征在于:通过实验来选择合适的阈值Q及加权排序中的标题正文比ω。4.根据权利要求3所述的基于叙词表的信息检索方法,其特征在于:阈值Q取值为0.2-0.8,标题正文比ω取值为1-6。5.根据权利要求1所述的基于叙词表的信息检索方法,其特征在于:所述相似度计算步骤包括:当概念对中扩展词为K的等同词D时,所述相似度为等同相似度SimD(K,D),采用以下公式计算:SimD(K,D)=1。6.根据权利要求1所述的基于叙词表的信息检索方法,其特征在于:所述相似度计算步骤包括:当概念对中扩展词为K的上位/下位词F时,所述相似度为属分相似度SimF(K,F),采用以下公式计算:SimF(K,F)=f1×f2×f3其中,f1为基于最短路径的相似...

【专利技术属性】
技术研发人员:李冬梅韩其琛方博
申请(专利权)人:北京林业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1