一种自动构建分布式分类搜索引擎的方法技术

技术编号:13202189 阅读:129 留言:0更新日期:2016-05-12 10:56
本发明专利技术涉及一种自动构建分布式分类搜索引擎的方法,其特征在于:1)建立具有根节点的信息分类目录的步骤;2)对网站进行分布式信息采取并进行信息分类的步骤;3)用户自动将本地计算机的信息发布到分类目录的步骤;4)用户采用语义P2P网络方式搜索加入领域的所有用户的信息的步骤。本发明专利技术方法比之目前市场上的搜索引擎,具有查找信息的准确率比较高;可以在不清晰知道要查找的关键词时找到用户所需的信息;并且可以搜索到用户本机(局域网IP)的信息。

【技术实现步骤摘要】

信息技术,分布式分类搜索引擎。
技术介绍
搜索引擎主要分为全文搜索引擎和目录分类搜索。全文搜索引擎是目前主流搜索引擎,国外代表搜索是Google,国内是百度。全文搜索引擎利用“蜘蛛”(Spider)程序或“机器人”(Robot)程序从互联网提取各个网站的信,建立起数据库。当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法一一通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量一一计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。目录分类搜索按目录分类将网站进行分类链接。用户可以按照分类目录找到所需要的信息,不依靠关键词进行查询。分类搜索如Yahoo、新浪分类等。与全文搜索引擎相比,目录索引则完全依赖手工操作。这种引擎的特点是找的准确率比较高。全文搜索引擎和目录分类搜索各有优缺点。目录索引则完全依赖手工操作,费时,信息不全。当目录很长时,用户需要逐级查找下一级目录,用户体验差。但查找的准确率比较高。全文搜索引擎属于自动网站检索。这种引擎的特点是搜全率比较高。但是查找的结果不精确。当不知道关键词时,则不能搜索结果。用户如果清晰知道要查找的关键词,全文搜索引擎是最好的选择,但用户不清晰知道要查找的关键词,则目录分类搜索适合用户。当用户从天空看“森林“时,选择使用目录分类搜索,当用户查找具体的”树“时,全文搜索引擎是好的选择。目前的搜索引擎仅仅搜索网页的内容,对用户的本地信息则不能搜索。然而。用户本地信息巨大,如何将用户本地的信息搜索出来,也是需要解决的课题。本专利技术提出,解决以上两种搜索引擎存在的以上问题。
技术实现思路
—种自动构建分布式分类搜索引擎的方法,其特征在于:I)建立具有根节点的信息分类目录的步骤;2)对网站进行分布式信息采取并进行信息分类的步骤;3)用户自动将本地计算机的信息发布到分类目录的步骤;4)用户采用语义P2P网络方式(专利:一种基于p2p的查找有关节点子集合的方法CN200910096247.7 )搜索加入领域的所有用户的信息的步骤。根据权利要求1所述的建立具有根节点的信息分类目录的步骤,自动建立全领域的信息分类目录,涵盖社会、科学、技术、生活等各领域,这些目录从根节点到页节点逐步对应详细的目录。根据权利要求1所述的对网站进行分布式信息采取并进行信息分类的步骤,大量计算机对网站进行分类信息抓取,可以人工设定信息分类和抓取模式,也可以对抓取的信息用程序自动分类。根据权利要求1所述的用户自动将本地计算机的信息发布到分类目录的步骤,用户开放本地计算机的文件目录,可以将这些文件目录的链接发布到分类目录中,也可以将这些文件目录中的内容复制带搜索引擎的分录目录中。根据权利要求1所述的用户自动将本地计算机的信息发布到分类目录的步骤,用户可以将桌面搜索的索引的链接发布到搜索引擎的分录目录中,用户可以通过NAT穿透技术访问用户本地的文件。根据权利要求1所述的用户采用语义P2P网络方式搜索加入领域的所有用户的信息的步骤,用户通过程序向所有加入相关领域的用户发出请求,所有加入用户的计算机将自己的相关领域的信息搜索出来并返回到请求计算机。建立具有根节点的信息分类目录,可以是专门领域的组织或专家进行的分类;也可以是用户自己根据喜好建立的分类;可以是学术的,也可以是通俗的分类。目录建立既有高权限人员的集中建立;也有普通用户自己建立后,管理员进行审核的目录建立。有灵活的增、删、改、查询等功能。用户自动将本地计算机的信息发布到分类目录,用户设置自己本地计算机的开放文件目录,分布式搜索引擎将这些文件目录的链接自动发布到分类目录中;如果还设置为复制,这些文件目录中的内容将复制到搜索引擎的分录目录中。分布式搜索引擎将这些文件目录的链接自动发布到分类目录中,由于用户的本地计算机可能是局域网;用户访问时,用户的分布式搜索引擎将通过NAT技术将这些内容传送到用户本地计算机的一个规定的目录,打开浏览器浏览此目录的内容,从而访问NAT背后的内容;在此种情况下,分布式搜索引擎的浏览器并不采用http协议,也不采用ftp协议,而是采用基于UDP的自定义协议。本地计算机通过桌面搜索形成索引,分布式搜索引擎通过语义P2P网络,不通过网站服务器进行搜索。在分布式搜索程序中,用类似域名的id搜索某一领域的信息。本专利技术具有以下优点:1.能够提高搜索精度;2.当不知道关键词时,还能搜索到所需要的结果;3.可以对用户的本地信息进行搜索。本案实施方案1:服务器搜索程序自动检索与发布。本案实施方案i中,服务器搜索程序对网站内容进行抓取并分类后加入分类索引文件或数据库中。比如,对http://sports.163.com/nba/网页进行抓取摘要及链接,并加入“总根.体育.篮球.NBA”分类目录索引文件。本案实施方案2:客户端搜索程序自动检索与发布。本案实施方案2中,客户端搜索程序抓取网页进行分类,通过接口程序发布到搜索引擎网站中。客户端搜索程序可以有很多用户同时使用。如A公司网页需要发布到搜索引擎网站,A公司运行客户端搜索程序从A公司网页中抓取文摘和链接,通过接口自动发布到搜索引擎网站。发布接口可以设定目录ID号以及需要发布的网页链接范围和网页模式。本案实施方案2可以方便用户自动发布搜索链接。本案实施方案3:本地计算机目录自动发布。本案实施方案3中,本地计算机建立公开的文件目录,将需要发布的文件拷贝到此目录下。客户端搜索程序通过NAT技术将文件的链接发布到搜索引擎网站。例如,小王本地计算机含有教育考试相关文件、医药卫生保健相关文件、工艺品等文件,小王希望发布这些信息并被互联网用户搜索到,小王先在本地计算机建立公开的文件目录(引擎公开),并建立教育考试、医药卫生保健以及工艺品子目录;然后,小王通过客户端搜索程序将这些文件的链接分别发布到相应选择的分类目中。比如教育考试中的文件(GRE学习.html)发布到“总根.网友分类.教育.教育考试”中,文件链接为“小王@总根.网友分类.教育.教育考试/GRE学习.html”。当用户小张在“总根.网友分类.教育.教育考试”分类目录查到有“小王O总根.网友分类.教育.教育考试/ GRE学习.html”链接时,小张客户端搜索程序通过NAT技术链接小王计算机并将小王的GRE学习.html文件通过UDP协议传输到小张的临时目录,小张客户端搜索程序打开浏览器显示GRE学习.html的内容。其他文件类型如doc、PDF等做类似处理。如果小王同时设置复制到引擎网站为真时,GRE学习.html将复制到网站,并产生URL链接,比如,http://yvsou.com/28.9937.218.181806/0/postview.html ,小张直接用浏览器就能打开GRE学习.html的内容。本案实施方案4:P2P分布式检索。本案实施方案4中,本地计算机的文件和链接不发布到搜索引擎网站,而是通过客户端搜索程序通过P2P技术直接返回搜索的信息。本地计算机加入类似DNS组,这些组具有信息分类的语义。客户查询某一目录的信息,将向加入这个组的用户计算机发出请求查询,这些加入这个组的计算机接到查询请求后,将自己计算机的相关领域的信息摘本文档来自技高网
...

【技术保护点】
一种自动构建分布式分类搜索引擎的方法,其特征在于:1)建立具有根节点的信息分类目录的步骤;2)对网站进行分布式信息采取并进行信息分类的步骤;3)用户自动将本地计算机的信息发布到分类目录的步骤;4)用户采用语义P2P 网络方式搜索加入领域的所有用户的信息的步骤。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄理灿
申请(专利权)人:杭州域竹科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1