基于语义小世界模型的文献检索方法技术

技术编号:2839487 阅读:294 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于语义小世界模型的文献检索方法,先利用潜在语义索引提取文献特征向量,在尽量保留文献特征的前提下降低其维数,减少文献信息存储量;再利用支持向量机对节点的所有共享文献进行分类,形成分类信息,该分类信息标志该节点对文献类别的兴趣比例;最后利用社会网络中的小世界现象,使对等网络中的所有节点都具有直接相连的较少的与其兴趣相似的短链接节点,同时具有极少的在某一种文献类别的兴趣比例非常高的长链接,形成具有语义小世界特征的网络拓扑。本发明专利技术特点是查询消息被路由到最有可能回答该请求的节点,提高查询效率;充分利用长链接,使查询语句能很快路由到网络其他部分,提高查全率,减少网络负载。

【技术实现步骤摘要】

本专利技术属于计算机领域的分布式计算和信息检索,具体涉及一种,该方法主要利用语义小世界模型解决文献信息共享的对等网络中的高效信息存储和检索问题。
技术介绍
对等网络系统由于其可扩展性、容错性、自治性和自组织性等特点,在大规模的信息检索领域越来越受到人们关注。但是在文献信息共享的对等网络中,如何进行有效的信息存储和检索仍然是一个具有很大挑战性的问题。小世界现象广泛存在于社会网络中,即世界上的每个人之间都可以通过很短的社会关系链联系起来,社会关系链的长度一般不超过六,被称为“六度分离理论”,这种理论存在的原因在于在社会网络中,人们通常都有一些与其兴趣相似的朋友,同时也可能有少数与其兴趣不一定相似但有众多社会联系的朋友,从而人们可以通过很短的“朋友的朋友”社会关系链相互联系。潜在语义索引是对传统的信息检索中的向量空间模型的扩展,能消除信息检索中广泛存在的影响查全率和查准率的同义词和多义现象,在文献的语义概念空间基础上实现对文献的降维,减少文献信息存储量。支持向量机是一种机器学习方法,被广泛应用于模式识别、数据分类等领域,能实现对大规模文献高效准确的分类。目前,对等网络中的信息存储和检索主要基于以下方法集中式索引(如Napster、BitTorrent)、查询泛洪(Gnutella)或随机游走。但以上方法都要求精确的元数据匹配(如文件名或关键字)完成搜索要求,由于无法获得网络中其他节点的语义信息,所以需要盲目的搜索大量的节点以保证信息检索的查全率,从而造成严重的网络负载。通过改进的邻居节点索引信息(如本地索引)引导查询消息能提高查询性能,但是更新索引信息要求非常大的额外开销。基于分布式哈希表的有结构的对等网络(如CAN、Chord)能提供好的可扩展性和有效的搜索性能,但是只能支持关键字/值的查找方式,对于信息检索领域中的全文检索是不合适的,而且维护有结构的对等网络结构的开销非常大。
技术实现思路
本专利技术的目的是提供一种,该方法可以提高检索的查全率和查询速度。本专利技术,包括如下步骤(1)建立全局的具有语义小世界特征的网络拓扑结构,其步骤包括(1.1)利用潜在语义索引方法提取文献特征向量,该文献特征向量包括文献中单词出现的频率以及在所有待提取特征向量的文献集合中出现的次数;(1.2)在上述文献特征向量基础上,支持向量机对训练文献进行有指导的学习,获取支持向量模型;(1.3)对等网络中每台参与文献共享的机器称为节点,每个节点在获得以上向量模型后,对本节点的所有共享文献进行分类,形成分类信息,该分类信息标志该节点文献类别的兴趣比例;(1.4)每个节点在两个跳的范围内选择文献类别的兴趣比例相似的节点,选择的标准是相似度超过预定的相似度阈值;(1.5)如果网络中部分节点在某一种文献类别的兴趣比例非常高,超过预定的阈值,则该节点设置成具有可能被其他节点直接链接的超级语义节点;(1.6)所有节点在超过两个跳的范围外与超级语义节点以概率p直接链接,其中0<p≤0.001;(2)在建立具有语义小世界特征的网络拓扑基础上,进行文献信息检索,其步骤包括(2.1)节点发出查询请求,每个查询语句包括查询关键字和查询的文献类别;(2.2)如果查询的文献类别属于发出该查询语句的节点的文献类别,且其比例大于50%,则跳入步骤(2.3);否则,跳入步骤(2.5);(2.3)节点进行本地查询,返回查询结果;(2.4)将该查询语句转发给该节点的每个短链接节点;并对每个长链接节点,如果其最高兴趣比例的文献类别与查询语句的文献类别一致,则转发给该长链接节点,并跳入步骤(2.6),否则直接跳入步骤(2.6);(2.5)将查询语句转发给该节点的每个物理直接相连的邻居节点;并对每个长链接节点,如果其最高兴趣比例的文献类别与查询语句的文献类别一致,则转发给该长链接节点;跳入步骤(2.6);(2.6)查询结束。针对文献信息共享的对等网络中存在的存储和检索效率问题,本专利技术结合潜在语义索引和支持向量机以及社会网络中的小世界现象,提供了一种适用于文献信息共享对等网络的存储和检索方法。本专利技术方法能将文献信息按语义方式组织,利用社会网络中的小世界现象(即社会网络中的人们可以通过很短的路径相识),在减少消息传递和网络负载的前提下,提高检索的查全率和查询速度。采用本专利技术方法,查询语句可以被路由到最有可能回答该请求的节点,而不是传统的盲目路由,从而提供查询效率;同时,充分利用小世界中的长链接,使查询语句也能被很快的路由到网络中的其他部分,而不是陷在小的网络搜索范围内,从而提高信息检索的重要指标查全率。具体而言,本专利技术具有以下特点(1)使用潜在语义索引提取文献特征向量可以在尽量保持文献信息特征的情况下,减少信息存储量;(2)利用支持向量机对节点文献信息分类,准确率高,更重要的是节点的文献分类信息可以表达该节点的语义,为后续的搜索提供有效支持; (3)利用小世界现象,能使查询信息很快的路由到相关的节点,提高查全率,并可减少网络开销。附图说明图1是建立具有语义小世界特征的网络拓扑流程图。图2是基于语义拓扑结构的文献信息检索流程图。具体实施例方式下面结合附图和具体实施方式对本专利技术做进一步说明。本专利技术包括两个主要步骤,即首先需要建立具有语义小世界特征的网络拓扑;其次,在建立的拓扑结构上进行文献信息检索,下面对以上两个步骤分别描述。(1)建立全局的具有语义小世界特征的网络拓扑结构,其步骤包括(1.1)利用潜在语义索引方法提取文献特征向量,该文献特征向量包括文献中单词出现的频率以及在所有待提取特征向量的文献集合中出现的次数。(1.2)在上述文献特征向量基础上,支持向量机对训练文献进行有指导的学习,获取支持向量模型;(1.3)对等网络中的每个节点在获得以上向量模型后,对本节点的所有共享文献进行分类,形成分类信息,该分类信息标志该节点文献类别的兴趣比例;分类的标准由具体应用决定,如计算机类的文献共享,则可以选择按照ACM的计算机分类系统分成计算机系统组织(Computer SystemsOrganization)、计算数学(Mathematics of Computing)、信息系统(InformationSystems)等;(1.4)每个节点在两个跳的范围内选择文献类别的兴趣比例相似的节点,选择的标准是相似度超过预定的相似度阈值,该阈值的取值范围为,从而满足小世界现象中的短链接要求;(1.5)如果网络中部分节点在某一种文献类别的兴趣比例非常高,超过预定的阈值,该阈值的取值范围为,则该节点设置成具有可能被其他节点直接链接的超级语义节点;(1.6)所有节点在超过两个跳的范围外与超级语义节点以概率p直接链接,即节点同超级语义节点连接的可能性为概率p,其中0<p≤0.001,从而满足小世界现象中的长链接要求;在完成上述步骤(1.1)-(1.6)后,对等网络中的所有节点都具有直接相连的较少的与其兴趣相似的短链接节点,同时具有极少的与其兴趣不一定相似但一定在某一种文献类别的兴趣比例非常高的长链接,从而形成具有语义小世界特征的网络拓扑。(2)在建立具有语义小世界特征的网络拓扑基础上,进行文献信息检索,其步骤包括(2.1)节点发出查询请求,每个查询语句包括查询关键字和查询的文献类别;(2.2)如果查本文档来自技高网
...

【技术保护点】
一种基于语义小世界模型的文献检索方法,包括如下步骤:(1)建立全局的具有语义小世界特征的网络拓扑结构,其步骤包括:(1.1)利用潜在语义索引方法提取文献特征向量,该文献特征向量包括文献中单词出现的频率以及在所有待提取特征向量 的文献集合中出现的次数;(1.2)在上述文献特征向量基础上,支持向量机对训练文献进行有指导的学习,获取支持向量模型;(1.3)对等网络中的每个节点在获得以上向量模型后,对本节点的所有共享文献进行分类,形成分类信息,该分类信息 标志该节点文献类别的兴趣比例;(1.4)每个节点在两个跳的范围内选择文献类别的兴趣比例相似的节点,选择的标准是相似度超过预定的相似度阈值;(1.5)如果网络中部分节点在某一种文献类别的兴趣比例非常高,超过预定的阈值,则该节点 设置成具有可能被其他节点直接链接的超级语义节点;(1.6)所有节点在超过两个跳的范围外与超级语义节点以概率p直接链接,其中0<p≤0.001;(2)在建立具有语义小世界特征的网络拓扑基础上,进行文献信息检索,其步骤包括:  (2.1)节点发出查询请求,每个查询语句包括查询关键字和查询的文献类别;(2.2)如果查询的文献类别属于发出该查询语句的节点的文献类别,且其比例大于50%,则跳入步骤(2.3);否则,跳入步骤(2.5);(2.3)节点 进行本地查询,返回查询结果;(2.4)将该查询语句转发给该节点的每个短链接节点;并对每个长链接节点,如果其最高兴趣比例的文献类别与查询语句的文献类别一致,则转发给该长链接节点,并跳入步骤(2.6),否则直接跳入步骤(2.6);   (2.5)将查询语句转发给该节点的每个物理直接相连的邻居节点;并对每个长链接节点,如果其最高兴趣比例的文献类别与查询语句的文献类别一致,则转发给该长链接节点;跳入步骤(2.6);(2.6)查询结束。...

【技术特征摘要】
1.一种基于语义小世界模型的文献检索方法,包括如下步骤(1)建立全局的具有语义小世界特征的网络拓扑结构,其步骤包括(1.1)利用潜在语义索引方法提取文献特征向量,该文献特征向量包括文献中单词出现的频率以及在所有待提取特征向量的文献集合中出现的次数;(1.2)在上述文献特征向量基础上,支持向量机对训练文献进行有指导的学习,获取支持向量模型;(1.3)对等网络中的每个节点在获得以上向量模型后,对本节点的所有共享文献进行分类,形成分类信息,该分类信息标志该节点文献类别的兴趣比例;(1.4)每个节点在两个跳的范围内选择文献类别的兴趣比例相似的节点,选择的标准是相似度超过预定的相似度阈值;(1.5)如果网络中部分节点在某一种文献类别的兴趣比例非常高,超过预定的阈值,则该节点设置成具有可能被其他节点直接链接的超级语义节点;(1.6)所有节点在超过两个跳的范围外与超级语...

【专利技术属性】
技术研发人员:金海宁小敏袁平鹏武浩余一娇
申请(专利权)人:华中科技大学
类型:发明
国别省市:83[中国|武汉]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1