一种深层网移动搜索方法、服务器及系统技术方案

技术编号:3763322 阅读:235 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例提供了一种深层网移动搜索方法、服务器及系统,所述的方法包括以下步骤:获取深层网Deep?Web成员搜索引擎的成员搜索引擎代表值;接收客户端发送的搜索请求,并从所述的搜索请求中获取搜索请求信息;根据所述搜索请求信息与成员搜索引擎代表值计算所述搜索请求与成员搜索引擎的匹配度,根据所述匹配度从所述成员搜索引擎的集合中选择成员搜索引擎进行内容数据搜索;将搜索到的内容数据发送给所述的客户端。用以集成Deep?Web成员搜索引擎,实现对Deep?web成员搜索引擎的代表,并通过DeepWeb成员搜索引擎的代表值来自动选择成员搜索引擎进行搜索。

【技术实现步骤摘要】

本专利技术关于移动搜索技术,特别是关于深层网(De印Web)移动搜索技术,具体的讲是一种深层网移动搜索方法、服务器及系统
技术介绍
目前,De印Web得到了越来越多的研究和关注,De印Web (深层网,又称hiddenweb,暗网;invisible web,不可见网)指的是网络上隐藏在HTML表单之后的内容。与De印Web相对应的是表面网(Surface Web) , Surf ace Web通常指网页上的静态内容。现有搜索引擎的普通网页爬虫只能爬取静态的Surface Web内容,对De印Web的内容需要用专用的爬虫或者进行专门的处理。 在实现本专利技术的过程中专利技术人发现,De印Web中大约包含9000亿个网页,而目前最大的搜索引擎能够爬取的包括De印Web和Surface Web在内的所有内容大约为200亿个页面,可见大量的高质量的De印Web内容得不到有效的搜索和访问。 De印Web访问方式包括爬取内容的访问方式,该访问方式通过专用的De印Web爬取工具爬取De印Web的内容,将获得的内容存储到搜索服务器,并对内容数据进行分析和建立索引等处理。这种访问方式的缺陷是1)由于De印Web内容数据不是通过实时访问表单得到的,而是定期从表单中抓取内容数据,再将抓取的内容数据存储到搜索服务器中,所以内容数据的时新性(freshness)不高;2)由于需要大规模的存储空间来存储爬取过来的内容数据,并需要庞大的索引库来存储和维护这些内容数据的索引,所以需要大规模的存储空间。 De印Web访问方式还包括整合搜索访问方式,该访问方式通过整合几个专业领域数据库进行搜索,提供统一的搜索门户给用户。这种访问方式的缺陷是在检索时需要指定搜索的目标数据库,仅能集成少量的指定数据库。
技术实现思路
本专利技术实施例提供了一种深层网移动搜索方法、服务器及系统,用以集成De印Web成员搜索引擎,实现对De印web成员搜索引擎的代表,De印Web搜索服务器基于De印Web成员搜索引擎提供的代表值(r印resentative,可以为对De印Web成员搜索引擎的内容或地址的统计数据),选择合适的De印Web成员引擎进行De印Web搜索。 根据本专利技术的一方面,提供一种深层网移动搜索方法,所述的方法包括以下步骤获取深层网De印Web成员搜索引擎的成员搜索引擎代表值;接收客户端发送的搜索请求,并从所述的搜索请求中获取搜索请求信息;根据所述搜索请求信息与成员搜索引擎代表值计算所述搜索请求与成员搜索引擎的匹配度,根据所述匹配度从所述成员搜索引擎的集合中选择成员搜索引擎进行内容数据搜索;将搜索到的内容数据发送给所述的客户端。 根据本专利技术的另一方面,提供一种深层网移动搜索服务器,所述的服务器包括代表值获取单元,用于获取De印Web成员搜索引擎的成员搜索引擎代表值;搜索请求接收单元,用于接收客户端发送的搜索请求,并从所述的搜索请求中获取搜索请求信息;成员引擎选择单元,用于根据所述搜索请求信息与成员搜索引擎代表值计算所述搜索请求与成员搜索引擎的匹配度,根据所述匹配度从所述成员搜索引擎的集合中选择成员搜索引擎进行内容数据搜索;搜索结果输出单元,用于将搜索到的内容数据发送给所述的客户端。 根据本专利技术的另一方面,提供一种深层网移动搜索系统,所述的系统包括成员搜索引擎和所述的搜索服务器;所述的搜索服务器,用于获取所述De印Web成员搜索引擎的成员搜索引擎代表值和接收客户端发送的搜索请求,并从所述的搜索请求中获取搜索请求信息;根据所述搜索请求信息与成员搜索引擎代表值计算所述搜索请求与成员搜索引擎的匹配度,根据所述匹配度从所述成员搜索引擎的集合中选择成员搜索引擎进行内容数据搜索;将搜索到的内容数据发送给所述的客户端。 根据本专利技术的另一方面,提供一种深层网移动搜索方法,所述的方法包括以下步骤获取De印Web成员搜索引擎的成员搜索引擎代表值,所述的成员搜索引擎代表值为成员搜索引擎内容属性数据;接收客户端发送的搜索请求,并从所述的搜索请求中获取搜索请求信息;根据所述搜索请求信息与成员搜索引擎内容属性数据计算所述搜索请求与成员搜索引擎的匹配度,根据所述匹配度从所述成员搜索引擎的集合中选择成员搜索引擎进行内容数据搜索;将搜索到的内容数据发送给所述的客户端。 根据本专利技术的另一方面,提供一种深层网移动搜索方法,所述的方法包括以下步骤获取De印Web成员搜索引擎的成员搜索引擎代表值,所述的成员搜索引擎代表值为成员搜索引擎所服务的地址;接收客户端发送的搜索请求,并从所述的搜索请求中获取地址信息;根据所述搜索请求的地址信息与成员搜索引擎所服务的地址计算所述搜索请求与成员搜索引擎的匹配度,根据所述匹配度从所述成员搜索引擎的集合中选择成员搜索引擎进行内容数据搜索;将搜索到的内容数据发送给所述的客户端。 本专利技术实施例实现了De印Web成员搜索引擎的自动选择搜索,避免了搜索时指定成员搜索引擎。并通过抽取成员搜索引擎的代表值的方式集成了大规模的De印Web成员搜索引擎的数量,使庞大的De印Web资源能够得到访问。在不需要大规模的存储空间和索引数据库来存储爬取的De印Web成员搜索引擎数据的情况下,实现De印Web成员搜索引擎的实时搜索。附图说明 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例深层网移动搜索方法流程图; 图2A为本专利技术实施例成员搜索引擎类别与类别信息的映射关系图; 图2B为本专利技术实施例搜索请求类别与类别信息的映射关系图; 图3为本专利技术实施例类别搜索目录树示意图; 图4为本专利技术实施例深层网移动搜索服务器结构框图; 图5为本专利技术实施例搜索服务器的成员搜索引擎选择单元结构框 图6为本专利技术实施例深层网移动搜索系统结构框图; 图7为本专利技术实施例搜索系统中搜索服务器的结构框图; 图8A为本专利技术实施例成员搜索引擎与类别和地址信息的映射关系图; 图8B为本专利技术实施例搜索请求与类别和地址信息的映射关系图; 图9为本专利技术实施例类别及地址信息搜索目录树示意图; 图10为本专利技术实施例基于属性的深层网移动搜索方法流程图; 图11为本专利技术实施例基于地址信息的深层网移动搜索方法流程图。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于 本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本专利技术保护的范围。 实施例一 如图1所示,本专利技术实施例的深层网移动搜索方法,所述的方法包括以下步骤获 取De印Web成员搜索引擎的成员搜索引擎代表值(步骤S101);接收客户端发送的搜索请 求,并从所述的搜索请求中获取搜索请求信息(步骤S102);根据所述搜索请求信息与成员 搜索引擎代表值计算所述搜索请求与成员搜索引擎的匹配度,根据所述匹配度从所述成员 搜索引擎的集合中选择成员搜索引擎进行内容数据搜索(步骤S103);将搜索到的本文档来自技高网
...

【技术保护点】
一种移动搜索方法,其特征是,所述的方法包括以下步骤:获取深层网DeepWeb成员搜索引擎的成员搜索引擎代表值;接收客户端发送的搜索请求,并从所述的搜索请求中获取搜索请求信息;根据所述搜索请求信息与成员搜索引擎代表值计算所述搜索请求与成员搜索引擎的匹配度,根据所述匹配度从所述成员搜索引擎的集合中选择成员搜索引擎进行内容数据搜索;将搜索到的内容数据发送给所述的客户端。

【技术特征摘要】

【专利技术属性】
技术研发人员:王玮董晓艺顾翀胡汉强张飞孟卫一
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1