当前位置: 首页 > 专利查询>马岩专利>正文

一种通用的文件搜索系统及方法技术方案

技术编号:2851074 阅读:202 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种通用的文件搜索系统,其包括有资源搜索单元、结果页面生成单元、资源验证单元、资源数据库、资源整理单元、搜索数据库、检索单元、反馈单元和资源更新单元。本发明专利技术同时涉及一种通用的文件搜索方法,其不仅能搜索出互联网中的媒体资源,而且可以对资源的有效性进行验证并加以整理,过滤掉无效的资源,然后在所有符合搜索关键字的资源中,挑选出最有效的、无重复的资源返回给用户,并通过反馈单元不断优化搜索结果,去除无效的搜索结果。本发明专利技术具有搜索快速的优点,并提高了搜索的准确性和降低了重复率。

【技术实现步骤摘要】

本专利技术涉及一种文件搜索系统及方法,特别涉及一种利用计算机互联网,可对搜索到的资源进行有效性验证和整理,具有高准确性和低重复率的文件搜索系统及方法。
技术介绍
由于互联网能够廉价、迅速、高效的传递信息,网络资源又十分丰富,因此很多人开始利用互联网来查询信息、查找和获取所需的资源,如电脑游戏、歌曲MP3、电影、图片等,而且有越来越多的媒体发行通过网络来进行,以求扩大覆盖范围。网络作为最大的信息载体和交流平台,已成为许多人获取信息的重要途径。人们使用互联网来寻找信息和获取资源的主要方法之一,是通过搜索引擎。目前,常用的搜索技术是以文字信息为基础的,它所依赖的资源整理技术是通过在网络上大量搜索具有相同特征文本的资源地址,并将结果整理到数据仓库中,提供给用户搜索使用。用户使用软件或者通过浏览器,输入搜索的关键字,搜索引擎去服务器查询,然后返回所有与关键字匹配的记录集合。这种常用搜索方法存在着很大的不足。由于互联网上的网站成千上万,总体资源量非常大,其中也包括了大量的无效资源,诸如包括无法下载的或下载后无法使用的资源,另外,还有大量的重复资源。资源的有效性并不高,搜索出的大量结果中,存在很多重复结果或无效结果,只有少数是有效且可以被使用的。用户面对成千上万的搜索结果,很难马上找到所需要的资源,从而导致浏览者迷失在信息的海洋中。同时,由于计算机技术的多样性,用户的一次搜索,可能会得到符合目标的多个类型的资源(如内容相同的rar和zip文件,只是压缩格式不同,解压后结果相同),相同的资源也可能在名称上不一致。面对不同的文件,用户常常无从选择。在现阶段,尚没有一个很好的方法解决了上述提到的问题。在大多数情况下,搜索者需要在搜索出的大量结果中依次进行尝试,直到找到一个有效的资源。目前的搜索引擎技术,不能判断出资源是否有效,也不能判断出哪个文件类型的资源更有效,给用户的使用上带来不便。
技术实现思路
本专利技术所要解决的技术问题在于为了克服现有搜索引擎技术不能判断所搜索的文件资源是否有效及存在大量重复的不足,本专利技术提供一种具有高准确性和低重复率的文件搜索系统和方法,利用该系统和方法,可以对所搜索的资源进行有效性验证、整理,可过滤掉无效的资源并能为用户挑选出最有效的、无重复的资源。本专利技术所采用的技术方案在于本专利技术提供一种通用的文件搜索系统,其包括有资源搜索单元及结果页面生成单元,该资源搜索单元主要用于搜索预定的目标网站,并记录所搜索网站上的文件资源,进一步包括有资源验证单元、资源数据库、资源整理单元、搜索数据库、检索单元、反馈单元和资源更新单元;该资源验证单元用来验证资源搜索单元所搜索的文件资源是否有效,舍弃无效的资源,计算有效的资源中文件片断的信息摘要值,将该有效资源存入资源数据库;该资源数据库用来存放经过资源验证单元验证的、有效的资源的信息;该资源整理单元用来给出相同文件的唯一标题名称、版本和描述说明,并选择相同文件中最有效的一个,建立进一步的搜索索引库,并将该用于检索的资源存入搜索数据库;检索单元接受搜索用户提交的检索要求,并根据检索要求中的关键字在搜索数据库的资源名称中进行匹配,生成搜索结果的核心内容;结果页面生成单元用于根据预先设置的网页格式模板,将搜索结果核心内容,生成最终结果页面;反馈单元集成在系统的客户端,其能检测所下载的资源的有效性,并生成一资源状态报告,并可将该资源状态报告发送给资源更新单元;资源更新单元用于接受反馈单元的资源状态报告,根据资源状态报告更新资源数据库和搜索数据库,删除该两数据库中的无效资源。在本技术方案的进一步改进中,所述资源搜索单元所搜索的信息包括资源URL、资源名称、文件类型、文件大小、资源描述。在本技术方案的进一步改进中,检索单元生成的搜索结果的核心内容包括有资源名称、资源的简要描述及资源的URL。在本技术方案的进一步改进中,所述资源搜索单元、结果页面生成单元、资源验证单元、资源整理单元、检索单元及资源更新单元,可以安装在不同的应用程序服务器中,这些应用程序服务器通过互联网或内部网络相连。在本专利技术的另一技术方案中,本专利技术还提供了一种通用的文件搜索方法,其用于搜索计算机互联网络的资源,其包括以下步骤(a)资源搜索单元搜索网络上的文件信息,并分析出文件的标题名称、真实存储链接、文件类型、描述说明信息,然后将所有信息存放到该资料搜索单元的数据库中;(b)资源验证单元对资源搜索单元记录下来的资源进行有效性验证,并对有效资源文件的内容作出标识,过滤掉无效的资源;(c)资源整理单元整理资源,给出相同文件的唯一标题名称、版本和描述说明,并选择相同文件中最有效的一个,建立进一步的搜索索引库;(d)检索单元响应用户的搜索请求,在搜索数据库中的搜索索引库中查找资源名称中包含搜索请求的关键字的资源信息,生成搜索结果的核心内容;(e)结果页面生成单元根据预设置的网页格式模板,将搜索结果核心内容生成结果页面,显示给用户。在本技术方案的进一步改进中,在步骤(e)后进一步包括有如下步骤(f)集成客户端的反馈单元检查正在下载资源的有效性,并生成资源状态报告,传给服务器的资源更新单元;(g)资源更新单元接收该资源状态报告,更新搜索数据库和资源数据库中的资料,将其中无效的资源删除。在本技术方案的进一步改进中,所述步骤(b)还包括如下步骤(b1)定义文件片断信息摘要值的计算规则和算法;(b2)从资源搜索单元的搜索结果中取出资源URL;(b3)对其URL为重定向URL的资源,则确定它实际的URL,并用该实际的URL更新资源URL;(b4)根据该资源URL请求资源文件,如资源文件无法请求到,则被视为无效资源;(b5)根据预定义的算法,计算资源的文件片断信息摘要值;(b6)将有效资源的信息存储到资源数据库。在本技术方案的进一步改进中,还包括在任何能够解析html的浏览器或者软件中查看结果页面的步骤。在本技术方案的进一步改进中,步骤(c)进一步包括如下步骤(c1)通过网络连接或者本地硬盘通信,向资源数据库发出请求,取得所有待整理的资源信息;(c2)对文件片断信息摘要值相同的资源进行过滤;(c3)先取出有效性最佳的资源的文件类型,保留所有该类型资源,删除所有不同类型资源;(c4)取出有效性最佳的资源的文件大小,保留所有该大小的资源,删除所有不同大小的资源;(c5)找出同类的资源中最有效的一个资源,放入搜索数据库。在本技术方案的进一步改进中,步骤(g)进一步包括如下步骤(g1)资源更新单元对资源状态报中下载报告失败的资源,更新其下载失败的次数;(g2)判断该资源是否超过一预定的阀值,如果该资源超过该阀值,则从搜索数据库及资源数据库中删除该资源。本专利技术的有益效果在于本专利技术所提供的文件搜索系统及方法,其不仅能搜索出互联网中的媒体资源,而且可以对资源的有效性进行验证并加以整理,过滤掉无效的资源,然后在所有符合搜索关键字的资源中,挑选出最有效的、无重复的资源返回给用户。搜索引擎可以将资源限定在有效资源的范围内,而搜索者则可以简单的通过搜索引擎,以“关键字搜索”的方式,来获得可下载、易下载、可用的资源。通过对数据库中的信息进行特征值唯一性处理,从而使相同的信息具有唯一性,完全相同的信息只在搜索结果中出现一次,从而降低搜索结果重复率,本文档来自技高网
...

【技术保护点】
一种通用的文件搜索系统,其包括有资源搜索单元及结果页面生成单元,该资源搜索单元主要用于搜索预定的目标网站,并记录所搜索网站上的文件资源,其特征在于:进一步包括有资源验证单元、资源数据库、资源整理单元、搜索数据库、检索单元、反馈单元和资源更新单元;该资源验证单元用来验证资源搜索单元所搜索的文件资源是否有效,舍弃无效的资源,计算有效的资源中文件片断的信息摘要值,将该有效资源存入资源数据库;该资源数据库用来存放经过资源验证单元验证的、有效的资源的信息;该资源 整理单元用来给出相同文件的唯一标题名称、版本和描述说明,并选择相同文件中最有效的一个,建立进一步的搜索索引库,并将该用于检索的资源存入搜索数据库;检索单元接受搜索用户提交的检索要求,并根据检索要求中的关键字在搜索数据库的资源名称中进 行匹配,生成搜索结果的核心内容;结果页面生成单元用于根据预先设置的网页格式模板,将搜索结果核心内容,生成最终结果页面;反馈单元集成在系统的客户端,其能检测所下载的资源的有效性,并生成一资源状态报告,并可将该资源状态报告发送给 资源更新单元;资源更新单元用于接受反馈单元的资源状态报告,根据资源状态报告更新资源数据库和搜索数据库,删除该两数据库中的无效资源。...

【技术特征摘要】
1.一种通用的文件搜索系统,其包括有资源搜索单元及结果页面生成单元,该资源搜索单元主要用于搜索预定的目标网站,并记录所搜索网站上的文件资源,其特征在于进一步包括有资源验证单元、资源数据库、资源整理单元、搜索数据库、检索单元、反馈单元和资源更新单元;该资源验证单元用来验证资源搜索单元所搜索的文件资源是否有效,舍弃无效的资源,计算有效的资源中文件片断的信息摘要值,将该有效资源存入资源数据库;该资源数据库用来存放经过资源验证单元验证的、有效的资源的信息;该资源整理单元用来给出相同文件的唯一标题名称、版本和描述说明,并选择相同文件中最有效的一个,建立进一步的搜索索引库,并将该用于检索的资源存入搜索数据库;检索单元接受搜索用户提交的检索要求,并根据检索要求中的关键字在搜索数据库的资源名称中进行匹配,生成搜索结果的核心内容;结果页面生成单元用于根据预先设置的网页格式模板,将搜索结果核心内容,生成最终结果页面;反馈单元集成在系统的客户端,其能检测所下载的资源的有效性,并生成一资源状态报告,并可将该资源状态报告发送给资源更新单元;资源更新单元用于接受反馈单元的资源状态报告,根据资源状态报告更新资源数据库和搜索数据库,删除该两数据库中的无效资源。2.如权利要求1所述的一种通用的文件搜索系统,其特征在于所述资源搜索单元所搜索的信息包括资源URL、资源名称、文件类型、文件大小、资源描述。3.如权利要求2所述的一种通用的文件搜索系统,其特征在于检索单元生成的搜索结果的核心内容包括有资源名称、资源的简要描述及资源的URL。4.如权利要求1至3任一项所述的一种通用的文件搜索系统,其特征在于所述资源搜索单元、结果页面生成单元、资源验证单元、资源整理单元、检索单元及资源更新单元,可以安装在不同的应用程序服务器中,这些应用程序服务器通过互联网或内部网络相连。5.一种通用的文件搜索方法,其用于搜索计算机互联网络的资源,其特征在于包括以下步骤(a)资源搜索单元搜索网络上的文件信息,并分析出文件的标题名称、真实存储链接、文件类型、描述说明信息,然后将所有信息存放到该资料搜索单元的数据库中;(b)资源验证单元对资源搜索单元记录下来的资源进行有效性验证,并对有效资源文件的内容作出标识,过滤掉无效的资源;(c)资源整理单元整...

【专利技术属性】
技术研发人员:马岩
申请(专利权)人:马岩
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1