一种实时搜索的方法、装置和系统制造方法及图纸

技术编号:7325200 阅读:153 留言:0更新日期:2012-05-10 02:46
本发明专利技术公开了一种实时搜索的方法,包括:S1.设定系统指定的兴趣点数据;S2.根据所述的兴趣点数据从目标网站上抓取关联数据至系统中;S3.根据预设的数据采集周期遍历所述的目标网站;S4.判断所述的目标网站是否有更新的目标网站,所述的更新包括:新出现的网页,改变过的网页;若否,返回步骤S2,若是,进入步骤S5;S5.抓取所述的更新的目标网站上的关联数据至所述的系统并更新,实现同步采集。本发明专利技术还公开了一种实时搜索的装置和系统。本发明专利技术实时搜索方法、装置及系统能实时搜索即时信息,速度快,占用资源少。

【技术实现步骤摘要】

本专利技术涉及一种网络搜索领域,特别涉及一种方法、装置和系统。
技术介绍
对大到全世界,小到每个企业、商家,甚至是一个家庭和个人来说,信息是人们工作与生活关系最为密切的重要因素。虽然这些年来搜索引擎的技术是越来越先进,可是在互联网上的信息搜索不论成功与否仍然存在一个很大的问题。使用过搜索引擎的人都有过这样的感受有的时候会搜不到你想要的结果,相反的,有的时候竟会搜索出上百万条不需要的结果。而实际上,第二种结果是最令人头疼也是最难以处理的。如果想从这百万条搜索结果中找到自己真正需要的信息,就如同是大海捞针。假设互联网是一个巨型图书馆,包罗万象。在图书馆建设初期,图书馆里的图书数量较少,摆放杂乱无章,用户查找信息,需要自己一本一本的翻,这是互联网的初级阶段。过了一段时间,开始有管理员把这些信息分门别类的进行整理,并提供一个目录供我们查找, 这个管理员就是门户网站,这是以雅虎为代表的门户网站辉煌的阶段。后来,开始出现更聪明的管理员,组织一批人,把图书馆里的图书一本一本看个遍,然后把书本的内容编录成一个巨大的索引,向公众提供服务,公众只要告诉管理员我需要什么样的图书,管理员就把包含你所要的内容的所有图书告诉你,并告诉你每一本书具体放在什么位置,自己去找来看就可以了,这个聪明的管理员就是以google为代表的搜索引擎。但是图书馆时刻都有新入馆的图书和已过时被退馆的图书,传统管理员没有办法及时知道这些信息,现在我们需要一个更高级的管理员,不仅能按我的要求告诉我哪些图书是我需要的,还要能够记住我的要求,每当有新的图书入馆时,只要与我的需求匹配,就第一时间通知到我,让我可以及时过来取阅图书,这,即为实时搜索。我们做实时搜索,目的就是第一时间获取互联网新出现的信息,并通知到用户,让用户及时地查看到自己需要的信息。实时搜索对于时效性较强的互联网应用具有巨大的价值。目前最典型的应用领域就是针对微博的搜索。我们可以看到,微博流行已有超过三年的时间了,但针对微博的搜索引擎却迟迟没有出现,直到最近一年内,各大主流搜索引擎才相继推出针对微博实时搜索的能力。google针对twitter的实时搜索由于尚未成熟目前并没有着力推广,有道是国内做实时搜索比较好的,但其搜索对象只是网易本身的微博,腾讯自己的实时搜索也只针对自己的微博,而且并没有正式推广。目前国内做微博实时搜索较有优势的,是今年(2011)2 月份才刚刚发布的盘古搜索,其搜索的对象涵盖了腾讯、新浪、搜狐、网易等主流微博,并在继续拓展中。由于门槛较高,一些小型搜索引擎尚未完全突破技术难关,因此微博实时搜索目前尚处于摸着石头过河的初级阶段,并没有任何一家具备足够的实力形成垄断优势。另一方面,实时搜索应用在生活信息领域也具备重大的价值。目前国内生活信息网站发展如火如荼,某些生活信息对时效性要求较高,如某些紧缺资源的租售信息、某些让利促销源就已经被别人抢占了。由于门槛较高,目前在生活信息领域,国内尚没有发现生活信息实时搜索的进入者,传统大型通用搜索引擎大多采用定期对新采集到的数据建立增量索引,定期合并增量索引与全量索引库,定期更新全量索引库的做法,这种做法有以下几个不足1.由于增量索引是定期建立的,因此无法做到实时更新数据。新增的数据只能被缓存,等到下一个索引更新周期到来时,才被建进索引,从而才能被搜索到。基于这样的机制,经过优化的增量索引能够做到分钟级分钟)的准实时效果。2.增量索引与全量索引库的合并机制较为复杂,难于控制。如果采用单个增量索引单个全量索引的方式,将会由于全量索引在长期运营中变得极大而导致合并过程极为缓慢,从而也会影响到检索性能。如果采用多级增量索引多级全量索引库的方式,那么增量索引中包含的对现有数据的更新和删除操作,将会被分布在多个全量索引库中,合并时需要额外的管理机构协助处理,大幅增加系统复杂性,同时也容易存在数据不一致的问题。3.传统索引通常针对某一个具体应用建立一份索引,每个具体索引及其配套资源 (如分词器、相似度计算器等)都是独立的,多个索引之间的配套资源不能共享。比如分词器的词库会占用大量内存,如果多个索引部署在同一台服务器,每个索引必须独自加载一个词库,造成大量内存浪费。
技术实现思路
为了解决以上的技术问题,本专利技术提供一种实时搜索方法、装置和系统。本专利技术公开了一种实时搜索方法,包括Si.设定系统指定的兴趣点数据;S2.根据所述的兴趣点数据从目标网站上抓取关联数据至系统中;S3.根据预设的数据采集周期遍历所述的目标网站;S4.判断所述的目标网站是否有更新的目标网站,所述的更新包括新出现的网页,改变过的网页;若否,返回步骤S2,若是,进入步骤S5 ;S5.抓取所述的更新的目标网站上的关联数据至所述的系统并更新,实现同步采集,分类显示搜索信息。在本专利技术所述的实时搜索方法中,所述的步骤Sl至步骤S2之间还包括下列步骤Sll.通过对大量数据的样本分析,提炼出结构模型库,自动生成提取模板;S12.预处理所述的兴趣点数据,计算和所述的结构模型库的相似度,来判定关联数据的结构。在本专利技术所述的实时搜索方法中,所述的分类显示搜索信息包括生活淘宝、生活分类、生活商铺、生活圈子以及生活应用,所述的生活淘宝下的二级目录包括房产信息、生活服务、交友征婚、车辆买卖服务、宠物/宠物用品、跳蚤市场、求职简历、招聘信息、商务服务;所述的生活分类二级目录包括不同城市的房产信息、跳蚤市场、车辆买卖与服务、 票务优惠券、教育培训;所述的生活商街的二级目录包括不同城市的美食、购物、丽人、休闲、酒店、健身、旅游;所述的生活圈子二级目录包括网页、图片、视频;所述的生活应用二级目录包括娱乐、游戏、工具;其中,所述的二级目录下均具有三级目录,所述的三级目录为具体的程序。在本专利技术所述的实时搜索方法中,所述的提取模板包括网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接。本专利技术公开了一种实时搜索的装置,用于实现上述的方法,包括兴趣点数据设定单元设定系统指定的兴趣点数据;关联数据抓取单元用于根据所述的兴趣点数据从目标网站上抓取关联数据至系统中;目标网站遍历单元与所述的关联数据抓取单元相连,用于根据预设的数据采集周期遍历所述的目标网站;目标网站更新判断单元与所述的目标网站遍历单元相连,用于判断所述的目标网站是否有更新的目标网站,所述的更新包括新出现的网页,改变过的网页;目标网站更新抓取单元与所述的目标网站更新判断单元相连,用于抓取所述的更新的目标网站上的关联数据至所述的系统并更新,实现同步采集,分类显示搜索信息。在本专利技术所述的实时搜索装置中,还包括提取模板生成单元及关联数据结构判定单元,所述的提取模板生成单元与所述的兴趣点数据设定单元相连,用于通过对大量数据的样本分析,提炼出结构模型库,自动生成提取模板;关联数据结构判定单元与所述的提取模板生成单元及关联数据抓取单元相连,用于预处理所述的兴趣点数据,计算和所述的结构模型库的相似度,来判定关联数据的结构。本专利技术公开了一种实时搜索系统,包括搜索网站的搜索器,与所述的搜索器相连的用于控制所述的搜索器的控制器,与所述的控制器相连的原始数据库,与所述的原始数据库相连的索引器,与所述的索引器相连的索引数据库,与所述的索引数据库相连的检索器,所述的检索本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:刘晓刚
申请(专利权)人:深圳市爱咕科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术