【技术实现步骤摘要】
本专利技术涉及一种分布式的搜索方法,尤其是处理大数据下进行快速检索的基于云计算的分布式搜索方法。
技术介绍
随着Internet迅速发展,WWW(World Wide Web简称WWW)已成为一个巨大的信息空间,为用户提供了极具价值的信息资源。而面对大量的信息资源,通过浏览器一步步浏览已十分不便,如何快捷、准确地从WWW上获取所需信息,成为至关重要的问题。搜索引擎的出现,大大提高了人们搜集信息的能力。然而,现有的搜索引擎在搜索效率、信息维护、信息重复、网络及站点、负载等方面还存在着问题和困难。目前,从体系结构上看,大部分搜索引擎是集中式的。即从Internet上取回页面,经过分析、处理后将所有的索引信息集中存储在某个站点,用户通过访问该站点实现查询。它们之间通常没有什么协作,各自独立搜索和处理信息,造成了大量的重复工作和严重的带宽浪费,有时甚至能造成网络阻塞。这种体系结构难以适应网络规模的日益扩大,业界已纷纷提出建立分布式搜索引擎的策略。传统的搜索引擎,即通用搜索引擎,在应用中能够为用户提供大量的搜索结果,但是这些通用搜索引擎在追求返回更多信息的同时,很难兼顾到搜索结果的准确度和相关度,从而导致网页覆盖率较低、信息更新不及时等问题。由于传统搜索引擎存在着覆盖率有限,查准率低,用户相关性差的缺点,而且行业用户有着信息需求相对集中、分类更加精细的要求,通用搜索引擎缺乏足够的导向作用。传统搜索引擎缺乏个性化的局限具体表现在: (I)网络数据海量性:网络信息数量大覆盖面广,对这些数据的计算和存储需要消耗很多的时间与存储空间。(2)用户差异性:用户背景知 ...
【技术保护点】
一种基于云计算的分布式搜索方法,该方法包括以下步骤:步骤⑴:通过分布式的网络爬虫爬取多种格式的网络文件;步骤⑵:通过分布式的并行抽取解析爬虫所爬取到的文件,抽取格式为自定义的文档表格式;步骤⑶:将抽取好的文档内容存入分布式的数据库中,建立文档表数据库;步骤⑷:由文档表数据库建立索引表也采用并行计算技术,索引表格式也为自定义的格式;步骤⑸:将索引文件导入索引数据库,为检索器提供索引数据;步骤⑹:对检索结果采用PageRank以及优化的在线排序算法。
【技术特征摘要】
1.一种基于云计算的分布式搜索方法,该方法包括以下步骤: 步骤⑴:通过分布式的网络爬虫爬取多种格式的网络文件; 步骤⑵:通过分布式的并行抽取解析爬虫所爬取到的文件,抽取格式为自定义的文档表格式; 步骤⑶:将抽取好的文档内容存入分布式的数据库中,建立文档表数据库; 步骤⑷:由文档表数据库建立索引表也采用并行计算技术,索引表格式也为自定义的格式; 步骤(5):将索引文件导入索引数据库,为检索器提供索引数据; 步骤(6):对检索结果采用PageRank以及优化的在线排序算法。2.根据权利要求1所述的基于云计算的分布式搜索方法,其特征在于:所述的步骤⑴的爬取网络文件包括...
【专利技术属性】
技术研发人员:向阳,陈佑雄,张依杨,平宇,张波,袁书寒,
申请(专利权)人:同济大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。