确定隐藏的URL的方法及装置制造方法及图纸

技术编号:15639413 阅读:39 留言:0更新日期:2017-06-15 23:23
本发明专利技术公开了一种确定隐藏的URL的方法及装置,涉及互联网技术领域,能够基于网站的已知URL来确定出其隐藏的URL。本发明专利技术的方法主要包括:获取网站的已知统一资源定位符URL的相关信息,所述已知URL为爬虫能够爬取到的URL,所述已知URL的相关信息包括用于扩展URL的特征信息;根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL;将所述扩展后的URL发送给所述网站的服务器;根据所述服务器返回的结果,确定所述扩展后的URL是否为所述网站隐藏的URL。本发明专利技术主要适用于利用爬虫技术爬取网页的场景中。

【技术实现步骤摘要】
确定隐藏的URL的方法及装置
本专利技术涉及互联网
,特别是涉及一种确定隐藏的URL的方法及装置。
技术介绍
搜索引擎是网络信息搜索的主要工具,它能够自动从因特网搜集信息,并在经过一定整理以后,提供给用户进行查询的系统。搜索引擎在网络中抓取网页时,通常使用网络爬虫进行网页的抓取,最终将重要的网页展示给用户。抓取的策略中最常用的方法为先抓取起始网页中链接的所有网页,然后再选择其中一个链接的网页,继续抓取在该网页中链接的所有网页。然而网站中的某些URL是对外隐藏的,且对于这种隐藏的URL,爬虫无法抓取到,由此使得搜索引擎搜索网页的全面性降低,从而无法满足用户的搜索需求。
技术实现思路
有鉴于此,本专利技术提供的确定隐藏的URL的方法及装置,能够基于网站的已知URL来确定出其隐藏的URL。本专利技术的目的是采用以下技术方案来实现的:一方面,本专利技术提供了一种确定隐藏的URL的方法,所述方法包括:获取网站的已知统一资源定位符URL的相关信息,所述已知URL为爬虫能够爬取到的URL,所述已知URL的相关信息包括用于扩展URL的特征信息;根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL;将所述扩展后的URL发送给所述网站的服务器;根据所述服务器返回的结果,确定所述扩展后的URL是否为所述网站隐藏的URL。可选的,若所述已知URL的相关信息包括用于指导搜索引擎爬取网站内容的文件的文件名,则所述根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL包括:将所述文件名添加至所述已知URL中,获得所述扩展后的URL。可选的,若所述已知URL的相关信息包括所述已知URL,则所述根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL包括:根据所述已知URL中特定位置处的特定字符,确定所述网站的开发语言类型;根据确定的开发语言类型所对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。可选的,若所述已知URL的相关信息包括所述已知URL对应的超文本传送协议HTTP请求的响应头,则所述根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL包括:对所述响应头进行解析,获得所述已知URL请求的文件类型以及服务器的基本信息;根据所述文件类型对应的固有目录特征和/或所述服务器的基本信息对应的固有目录,对所述已知URL进行扩展,获得所述扩展后的URL。可选的,所述服务器的基本信息包括以下任意一种或者几种的组合:服务器的类型、服务器的版本、开发语言的类型以及开发语言的版本。可选的,若所述已知URL的相关信息包括所述已知URL的超文本标记语言HTML页面,则所述根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL包括:当所述HTML页面中记载有其他URL时,根据所述其他URL对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL;当所述HTML页面中记载有其他开发语言的语句时,根据其他开发语言的语句对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。可选的,所述服务器返回的结果包括HTTP状态码。另一方面,本专利技术提供了一种确定隐藏的URL的装置,所述装置包括:获取单元,用于获取网站的已知统一资源定位符URL的相关信息,所述已知URL为爬虫能够爬取到的URL,所述已知URL的相关信息包括用于扩展URL的特征信息;扩展单元,用于根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL;发送单元,用于将所述扩展单元获得的所述扩展后的URL发送给所述网站的服务器;确定单元,用于根据所述服务器返回的结果,确定所述扩展后的URL是否为所述网站隐藏的URL。可选的,所述扩展单元包括:添加模块,用于当所述已知URL的相关信息包括用于指导搜索引擎爬取网站内容的文件的文件名时,将所述文件名添加至所述已知URL中,获得所述扩展后的URL。可选的,所述扩展单元包括:确定模块,用于当所述已知URL的相关信息包括所述已知URL时,根据所述已知URL中特定位置处的特定字符,确定所述网站的开发语言类型;第一扩展模块,用于根据所述确定模块确定的开发语言类型所对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。可选的,所述扩展单元包括:解析模块,用于当所述已知URL的相关信息包括所述已知URL对应的超文本传送协议HTTP请求的响应头时,对所述响应头进行解析,获得所述已知URL请求的文件类型以及服务器的基本信息;第二扩展模块,用于根据所述解析模块获得的所述文件类型对应的固有目录特征和/或所述服务器的基本信息对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。可选的,所述服务器的基本信息包括以下任意一种或者几种的组合:服务器的类型、服务器的版本、开发语言的类型以及开发语言的版本。可选的,所述扩展单元包括:第三扩展模块,用于在所述已知URL的相关信息包括所述已知URL的超文本标记语言HTML页面的情况下,当所述HTML页面中记载有其他URL时,根据所述其他URL对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL;第四扩展模块,用于当所述HTML页面中记载有其他开发语言的语句时,根据其他开发语言的语句对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。可选的,所述服务器返回的结果包括HTTP状态码。借由上述技术方案,本专利技术提供的确定隐藏的URL的方法及装置,能够根据已知URL的相关信息中用于扩展URL的特征信息,对该已知URL进行扩展,获得已知URL所属网站可能存在的URL,并通过将扩展后的URL发送给网站服务器进行验证,来进一步确定该扩展后的URL是否为网站隐藏的URL,从而使得搜索引擎可以抓取之前难以抓取到的网页,进而提高了搜索引擎搜索网页的全面性。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种确定隐藏的URL的方法的流程图;图2示出了本专利技术实施例提供的一种确定隐藏的URL的装置的组成框图;图3示出了本专利技术实施例提供的另一种确定隐藏的URL的装置的组成框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。为了确定网站隐藏的URL,本专利技术实施例提供了一种确定隐藏的URL的方法,本文档来自技高网...
确定隐藏的URL的方法及装置

【技术保护点】
一种确定隐藏的URL的方法,其特征在于,所述方法包括:获取网站的已知统一资源定位符URL的相关信息,所述已知URL为爬虫能够爬取到的URL,所述已知URL的相关信息包括用于扩展URL的特征信息;根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL;将所述扩展后的URL发送给所述网站的服务器;根据所述服务器返回的结果,确定所述扩展后的URL是否为所述网站隐藏的URL。

【技术特征摘要】
1.一种确定隐藏的URL的方法,其特征在于,所述方法包括:获取网站的已知统一资源定位符URL的相关信息,所述已知URL为爬虫能够爬取到的URL,所述已知URL的相关信息包括用于扩展URL的特征信息;根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL;将所述扩展后的URL发送给所述网站的服务器;根据所述服务器返回的结果,确定所述扩展后的URL是否为所述网站隐藏的URL。2.根据权利要求1所述的方法,其特征在于,若所述已知URL的相关信息包括用于指导搜索引擎爬取网站内容的文件的文件名,则所述根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL包括:将所述文件名添加至所述已知URL中,获得所述扩展后的URL。3.根据权利要求1所述的方法,其特征在于,若所述已知URL的相关信息包括所述已知URL,则所述根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL包括:根据所述已知URL中特定位置处的特定字符,确定所述网站的开发语言类型;根据确定的开发语言类型所对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。4.根据权利要求1所述的方法,其特征在于,若所述已知URL的相关信息包括所述已知URL对应的超文本传送协议HTTP请求的响应头,则所述根据所述已知URL的相关信息中用于扩展URL的特征信息,对所述已知URL进行扩展,获得扩展后的URL包括:对所述响应头进行解析,获得所述已知URL请求的文件类型以及服务器的基本信息;根据所述文件类型对应的固有目录特征和/或所述服务器的基本信息对应的固有目录特征,对所述已知URL进行扩展,获得所述扩展后的URL。5.根据权利要求4所述的方法,其特征在于,所述服务器的基本信息包括以下任意一种或者几种的组合:服务器的类型、服务器的版本、开...

【专利技术属性】
技术研发人员:王照旗
申请(专利权)人:北京奇虎科技有限公司北京奇安信科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1