文件发布和检索的方法及其系统技术方案

技术编号:2845367 阅读:267 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种关于对等网络中文件发布和检索的方法及其系统,所述文件发布和检索系统包括至少一个对等结点,每一对等结点包括一个分类单元,将对等节点发布的文件或者检索的内容进行分类生成分类结果;一个关键字生成单元,根据分类单元生成的分类结果生成对应的文件关键字或检索关键字,且将所述关键字存储在分类单元;一个发布单元,据分类单元中的文件关键字生成文件索引,并发送到对等网络中进行存储;一个检索单元根据分类单元中的检索关键字生成检索索引,并将检索索引发布到对等网络中进行检索。本发明专利技术减轻了对等网络中对等结点的计算负担、减少了网络的流量,因此提高了文件发布和检索的效率。

【技术实现步骤摘要】

本专利技术涉及一种文件发布和检索的方法及其系统,尤其是一种对等网络中文件发布和检索的方法及其系统。
技术介绍
随着互联网络的发展,分布在世界各地的计算机的信息可以被互联网上的用户共享,人们可以在互联网上可以随时获取各种信息,极大方便了人们的生活。目前在互联网中,文件共享采用的网络架构大致有两种,一种是以服务器/客户机(Server/Client)方式实现的网络架构,用户即客户机需要获取信息时,先连接到服务器,并从服务器获取所需的信息;另一种是对等网络(Peer-to-PeerNetwork),对等网络与传统的服务器/客户机模式不同,对等网络中没有明确的服务器和客户机之分,每个对等结点(Peer)既作为服务器为对等网络提供服务,又作为客户机从对等网络获得服务。目前,对等网络在文件共享、数据检索、协同计算、即时通讯、数据分散存储以及网络游戏等方面有着广泛的应用。根据拓扑结构可以将对等网络分为中心化拓扑式对等网络、全分布非结构化对等网络、全分布结构化对等网络和半分式拓扑式对等网络。下面列举这几种对等网络中文件共享的通常做法。以Napster为代表的中心化拓扑式对等网络中,一群高性能的中央服务器(中央索引服务器)保存着网络中所有活动对等结点共享资源的目录信息。当需要检索某个文件时,对等结点向中央服务器发出检索请求,中央服务器进行相应的检索后,会返回符合检索要求的对等结点地址列表。检索发起结点接收到应答后,会根据网络流量和延迟等信息进行选择,与合适的对等结点建立连接,并开始传输文件。全分布式非结构化对等网络中没有中央服务器,它采用了基于完全随机的洪泛(Flooding)发现和随机转发(Random Walker)机制。为了控制搜索消息的传输,通过TTL(Time To Live)的减值来实现。为了检索某个文件,源对等结点向与之相邻的所有活动对等结点发送一个检索请求包(Query),其他对等结点在接收到该检索请求包后,检查本地是否有符合检索请求的文件内容,如果有,则按检索请求包的发送路径返回一个检索响应包(QueryHit)。无论本地是否存在符合检索请求的文件内容,其他对等结点都会向所有邻居结点转发检索请求包,直至检索请求包中TTL属性值递减为0时停止继续转发。全分布式结构化对等网络中采用分布式哈希表(Distributed Hash Table,DHT)可以精确、高效的检索信息。DHT基本思想为首先为网络中的每一个结点分配虚拟地址(VID),也叫结点ID,同时用一个关键字(KEY)来表示其提供的共享内容。取一个散列函数H,这个函数可以将KEY转换成一个散列值H(KEY)。网络中结点相邻的定义是散列值相邻。结点发布信息的时候就把(KEY,VID)二元组发布到具有和H(KEY)相同或相近虚拟地址的结点上去,其中VID指出了文档的存储位置。资源定位的时候,就可以快速根据H(KEY)到索引存放结点上获取二元组(KEY,VID),从而获得文档的真实存储位置。半分布式拓扑对等网络中通常选择性能较高(处理、存储、带宽等方面性能)的结点作为超级结点(SuperNodes,Hubs),在各超级结点上存储其负责的普通结点的信息,如共享文件信息等。普通结点向其超级结点提交检索请求,发现算法仅在超级结点之间转发,超级结点最终将检索请求转发给适当的普通结点。半分布式结构是一个层次式结构,超级结点之间构成一个高速转发层,超级结点和所负责的普通结点构成若干层次。另外,对等网络中基于内容的检索是一个重要的研究领域。目前主要采用以下两种技术,对于第一种技术,用户在发布文件时,先将本地共享文件根据其内容进行处理,每个文件被表示成一个文件向量,将文件向量存储在本地或者中心索引服务器上。用户进行检索时,通过将检索请求表示成一个检索向量,计算检索向量和共享文件向量的相似度,将相似度较大的文件作为结果返回源检索发起结点。这种技术的缺点是文件发布和检索时,文件向量和检索向量需要在对等网络上路由,而文件向量和检索向量都是多维的,因此会造成一定的网络流量;检索时需要实时计算检索向量和共享文件向量间的相似度,这导致了相应的计算量和时延。对于第二种技术,用户在发布文件时,先将本地共享文件根据其内容采用分类器进行分类,将文件分类结果存储在本地或者中心索引服务器上。用户进行检索时,通过对检索的内容进行分类(或者检索内容本身就是类别名),对等网络返回与检索请求具有相同类别的共享文件最为检索结果。第二种技术的缺点是由于只是基于检索内容与共享文件两者的类别名进行匹配,粒度太大,无法区分共享文件与检索内容的匹配程度。现有技术公开了一种应用于内容寻址网络(Content Addressable Network,CAN)的文件检索方法。CAN是一种全分布式结构化对等网络,每个对等结点拥有唯一的结点ID。请参考图1,为该技术方案内容寻址网络示意图,图中右上角的某个对等结点在对等网络100中共享了文件DOC A,通过隐含语义索引变换,得到了该文件的索引[V(Doc A),Y]。该索引在空间中对应的点在对等结点134负责的区域134a内,因此对等网络将该文件索引[V(Doc A),Y]存储在对等结点134中。图中左上角某个用户结点提交了一个检索QUERY,经过隐含语义索引变换,得到了该检索对应的语义向量V(QUERY)。该语义向量在空间中对应的点属于对等结点130负责的区域130a。对等结点130以及其邻居结点进行相应的本地检索与匹配运算,获知结点135中保存了与检索语义向量V(QUERY)相似度满足要求的文件索引。对等结点135将相应文件索引返回源检索发起结点,源检索结点根据需要向文件宿主结点发出请求,进行相应文件的下载。虽然上述技术方案能够实现基于内容的检索,但是在用户在检索文件时,需将检索语义向量路由至相应的用户结点,并在该用户结点及其邻居结点进行本地检索和匹配运算,由于语义向量一般有50-350维,因此会造成较大的网络流量和计算负担,从而影响了检索效率。综上所述,有必要提供一种对等网络中效率较高的文件发布和检索的方法。
技术实现思路
本专利技术要解决的问题在于提供一种对等网络中效率较高的文件发布和检索的方法及其系统。为解决上述技术问题,本专利技术的目的是通过以下技术方案实现的本专利技术提供一种文件发布方法,适用于各种对等网络,所述方法包括步骤 对发布的文件进行分类,生成分类结果;根据分类结果生成对应的文件关键字;制作包含文件关键字的文件索引;将文件索引发布到对等网络中进行存储。优选地,由待发布文件的对等结点对发布的文件进行分类、生成文件关键字、制作文件索引以及将文件索引发布到对等网络中。优选地,所述对发布的文件进行分类具体为针对不同的文件格式,采用不同的分类器模型对文件进行分类。优选地,所述生成分类结果为生成文件格式、文件类别以及文件相似度向量。优选地,所述生成对应的文件关键字为将文件相似度向量与从配置服务器获得的类别加权向量进行数量积运算,去掉结果的小数部分,将整数部分作为文件关键字。优选地,所述生成对应的文件关键字为将文件相似度向量与该文件关键字范围进行乘积运算,去掉结果的小数部分,将结果作为文件关键字。优选地,所述待发布文件的对等结点将文件索引发布到中央索引服务器中进行存本文档来自技高网
...

【技术保护点】
一种文件发布方法,适用于各种对等网络,其特征在于,所述方法包括步骤:对发布的文件进行分类,生成分类结果;根据分类结果生成对应的文件关键字;制作包含文件关键字的文件索引;将文件索引发布到对等网络中进行存储。

【技术特征摘要】
1.一种文件发布方法,适用于各种对等网络,其特征在于,所述方法包括步骤对发布的文件进行分类,生成分类结果;根据分类结果生成对应的文件关键字;制作包含文件关键字的文件索引;将文件索引发布到对等网络中进行存储。2.根据权利要求1所述的文件发布方法,其特征在于,由待发布文件的对等结点对发布的文件进行分类、生成文件关键字、制作文件索引以及将文件索引发布到对等网络中。3.根据权利要求1所述的文件发布方法,其特征在于,所述对发布的文件进行分类具体为针对不同的文件格式,采用不同的分类器模型对文件进行分类。4.根据权利要求3所述的文件发布方法,其特征在于,所述生成分类结果为生成文件格式、文件类别以及文件相似度向量。5.根据权利要求4所述的文件发布方法,其特征在于,所述生成对应的文件关键字为将文件相似度向量与从配置服务器获得的类别加权向量进行数量积运算,去掉结果的小数部分,将整数部分作为文件关键字。6.根据权利要求4所述的文件发布方法,其特征在于,所述生成对应的文件关键字为将文件相似度向量与该文件关键字范围进行乘积运算,去掉结果的小数部分,将结果作为文件关键字。7.根据权利要求1所述的文件发布方法,其特征在于,所述待发布文件的对等结点将文件索引发布到中央索引服务器中进行存储。8.根据权利要求1所述的文件发布方法,其特征在于,所述待发布文件的对等结点将文件索引发布到ID值与所述文件关键字相同或近似的对等结点中进行存储。9.根据权利要求2所述的文件发布方法,其特征在于,在对发布的文件进行分类之前,由配置服务器对待发布文件的对等结点进行参数配置。10.一种文件检索方法,适用于各种对等网络,其特征在于,所述方法包括步骤对检索请求的内容进行分类,生成分类结果;根据分类结果生成对应的检索关键字;制作包含检索关键字的检索索引;将检索索引路由到对等网络;在对等网络中进行关键字匹配运算,得到检索结果,并将检索结果返回提出检索请求的对等结点。11.根据权利要求10所述的文件检索方法,其特征在于,由提出检索请求的对等结点对检索请求的内容进行分类、生成关键字、制作检索索引以及将检索索引路由到对等网络。12.根据权利要求10所述的文件检索方法,其特征在于,所述对检索请求的内容进行分类为针对不同的文件格式,采用不同的分类器模型进行分类。13.根据权利要求10所述的文件检索方法,其特征在于,所述生成分类结果为生成文件格式、文件类别以及文件相似度向量。14.根据权利要求13所述的文件检索方法,其特征在于,所述生成对应的检索关键字为将文件相...

【专利技术属性】
技术研发人员:朱望斌符海芳刘经及李朋吕晓雨朱贤金洪波
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1