基于语义小世界模型的文献检索方法技术

技术编号:2839487 阅读:310 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于语义小世界模型的文献检索方法,先利用潜在语义索引提取文献特征向量,在尽量保留文献特征的前提下降低其维数,减少文献信息存储量;再利用支持向量机对节点的所有共享文献进行分类,形成分类信息,该分类信息标志该节点对文献类别的兴趣比例;最后利用社会网络中的小世界现象,使对等网络中的所有节点都具有直接相连的较少的与其兴趣相似的短链接节点,同时具有极少的在某一种文献类别的兴趣比例非常高的长链接,形成具有语义小世界特征的网络拓扑。本发明专利技术特点是查询消息被路由到最有可能回答该请求的节点,提高查询效率;充分利用长链接,使查询语句能很快路由到网络其他部分,提高查全率,减少网络负载。

【技术实现步骤摘要】

本专利技术属于计算机领域的分布式计算和信息检索,具体涉及一种,该方法主要利用语义小世界模型解决文献信息共享的对等网络中的高效信息存储和检索问题。
技术介绍
对等网络系统由于其可扩展性、容错性、自治性和自组织性等特点,在大规模的信息检索领域越来越受到人们关注。但是在文献信息共享的对等网络中,如何进行有效的信息存储和检索仍然是一个具有很大挑战性的问题。小世界现象广泛存在于社会网络中,即世界上的每个人之间都可以通过很短的社会关系链联系起来,社会关系链的长度一般不超过六,被称为“六度分离理论”,这种理论存在的原因在于在社会网络中,人们通常都有一些与其兴趣相似的朋友,同时也可能有少数与其兴趣不一定相似但有众多社会联系的朋友,从而人们可以通过很短的“朋友的朋友”社会关系链相互联系。潜在语义索引是对传统的信息检索中的向量空间模型的扩展,能消除信息检索中广泛存在的影响查全率和查准率的同义词和多义现象,在文献的语义概念空间基础上实现对文献的降维,减少文献信息存储量。支持向量机是一种机器学习方法,被广泛应用于模式识别、数据分类等领域,能实现对大规模文献高效准确的分类。目前,对等网络中的信息存储和检索本文档来自技高网...

【技术保护点】
一种基于语义小世界模型的文献检索方法,包括如下步骤:(1)建立全局的具有语义小世界特征的网络拓扑结构,其步骤包括:(1.1)利用潜在语义索引方法提取文献特征向量,该文献特征向量包括文献中单词出现的频率以及在所有待提取特征向量 的文献集合中出现的次数;(1.2)在上述文献特征向量基础上,支持向量机对训练文献进行有指导的学习,获取支持向量模型;(1.3)对等网络中的每个节点在获得以上向量模型后,对本节点的所有共享文献进行分类,形成分类信息,该分类信息 标志该节点文献类别的兴趣比例;(1.4)每个节点在两个跳的范围内选择文献类别的兴趣比例相...

【技术特征摘要】
1.一种基于语义小世界模型的文献检索方法,包括如下步骤(1)建立全局的具有语义小世界特征的网络拓扑结构,其步骤包括(1.1)利用潜在语义索引方法提取文献特征向量,该文献特征向量包括文献中单词出现的频率以及在所有待提取特征向量的文献集合中出现的次数;(1.2)在上述文献特征向量基础上,支持向量机对训练文献进行有指导的学习,获取支持向量模型;(1.3)对等网络中的每个节点在获得以上向量模型后,对本节点的所有共享文献进行分类,形成分类信息,该分类信息标志该节点文献类别的兴趣比例;(1.4)每个节点在两个跳的范围内选择文献类别的兴趣比例相似的节点,选择的标准是相似度超过预定的相似度阈值;(1.5)如果网络中部分节点在某一种文献类别的兴趣比例非常高,超过预定的阈值,则该节点设置成具有可能被其他节点直接链接的超级语义节点;(1.6)所有节点在超过两个跳的范围外与超级语...

【专利技术属性】
技术研发人员:金海宁小敏袁平鹏武浩余一娇
申请(专利权)人:华中科技大学
类型:发明
国别省市:83[中国|武汉]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1