本发明专利技术公开了一种可视化网页收录检测方法,该方法包括:判断是否获取到页面的所有统一资源定位符URL,如果没有获取到URL,则结束,否则将获取到的所有URL请求提交到服务器,并等待服务器的响应;服务器获取所述请求后,查询所有URL的结构化信息,其中所述结构化信息包括:是否被收录、最近一次的扫描时间、收录的标题,并返回所述结构化信息;遍历所有的URL,并获取到每个URL在网络浏览器中的绝对位置;根据服务器返回的信息构造成html信息,并将所述html信息显示在相应URL的绝对位置旁边,并修改URL在网络浏览器中显示的颜色;通过网络浏览器显示不同颜色的URL以及相应的html信息。
【技术实现步骤摘要】
本专利技术涉及视频领域,特别是视频信息抓取领域。
技术介绍
抓取系统,主要是信息收录方主动抓取所需的网页信息。在整个流程中,选择收录哪些网页,一方面是系统制定一定的规则,只对符合规则的网页信息进行收录;另一方面,也提供网站提交入口,让网站的所有者,自行提交URL给抓取系统,抓取系统在根据过滤规则和爬虫协议(robots, txt是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。)进行信息抓取。目前评价收录系统是否完善主要有几个方面:1、收录内容是否全面2、收录内容是否快速3、是否遵守爬虫协议和是否智能抓取新的网页及不重复抓取,避免导致源服务器压力过大、带宽等资源浪费在系统的开发阶段、测试阶段、运行阶段以及运行期的不断优化阶段。我们都会涉及到如何判断我们的系统是否达到设计的预期、是否在不断的完善、以及如何帮助相关人员方便的反馈各种问题和信息。目前没有看到可以通过这种可视化的技术来完成检测工作,常用的方式,在网页中找出URL链接,然后在通过人工到收录网页库中去查询。存在如下缺陷:1、非常麻烦,需要人工参与,效率低下;2、不能可视化。
技术实现思路
本专利技术就是为了克服老旧方案的这些局限性,这些需求促使我们设计出了该技术方案,该方案主要但不限于:如何让系统的开发人员、测试人员、网站提供者在打开任何网页时,判断网页中的链接是否已被收录、是否符合收录的规则及查看已收录(或已抓取)的网页的收录的时间及提取的内容等信息,目前还未看到有效的实现和技术方案。本方案提供一种可视化的效果,结合网络浏览器,将网络浏览器中打开网页的链接用各种色块突出的标识出哪些已被收录;哪些是不符合收录规则的;哪些是已扫描的;哪些可能是抓取系统漏掉的。这样就能让开发人员、测试人员、网站提供者等使用者,非常方便的看到一个网页中各个链接的被收录情况、其中主要有下面几种信息可通过这个可视化装置看到:1、如果一个链接被标识出“已收录”,那么可以将鼠标放在链接旁边的色块上,可详细看到该链接被收录的时间、网页的标题信息。2、被标识出“已扫描”,那么可以将鼠标放在链接旁边的色块上,可详细看到该链接被最近一次被扫描的时间。3、被标识出“不符合收录规则”,那么表示,这一类链接所指向网页中的信息,很有可能就不是收录系统想要或被认为不好的内容。如果人工查看这类链接和所指向的网页内容是该被收录的内容,那么可提交该链接给收录系统,便于收录系统的改进和优化。4、被标识出“可能漏掉的”。那么这类链接有助于人工检验和配合改进收录系统。具体的,本专利技术提出了一种,该方法具体包括:S101、判断是否获取到页面的所有统一资源定位符URL,如果没有获取到URL,则结束,否则执行步骤S102;S102、将获取到的所有URL请求提交到服务器,并等待服务器的响应;S103、服务器获取所述请求后,查询所有URL的结构化信息,其中所述结构化信息包括:是否被收录、最近一次的扫描时间、收录的标题,并返回所述结构化信息;S104、遍历所有的URL,并获取到每个URL在网络浏览器中的绝对位置;S105、根据服务器返回的结构化信息构造成html信息,并将所述html信息显示在相应URL的绝对位置旁边,并修改URL在网络浏览器中显示的颜色;S106、通过网络浏览器显示不同颜色的URL以及相应的html信息。根据本专利技术另一个方面,其中在SlOl步骤之前,还包括:抓取系统根据预定的抓取规则将所有抓取过的URL记录在所述服务器上。根据本专利技术另一个方面,其中,步骤S102中进一步包括通过AJAX请求将所述URL提交到所述服务器上。根据本专利技术另一个方面,其中,所述服务器提供查询接口,用于接收AJAX请求信肩、O本专利技术通过分别在网络浏览器端和服务器端编程,让用户(开发人员、测试人员、网站提供者等使用者)在打开一个网页后,只需点击一个书签,就能清楚的看见页面中的各个链接被我们的收录系统收录的情况。避免了繁杂的检查被收录的方法,大大降低了人工成本和提升了使用者的体验。附图说明下面结合附图及具体实施例对本专利技术再作进一步详细的说明:附图1所示为本专利技术所提出的流程图。具体实施例方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。在抓取系统本身已存在(我们的抓取系统对扫描过的链接、已收录的信息都已经记录在服务器)的结构化信息基础上,利用AJAX即“Asynchronous JavaScript and XML”(异步JavaScript和XML),将抓取系统中本身的结构化信息提供给网络浏览器;再利用javascript编程动态的将结构化信息通过html和css展示在网络浏览器中,形成在原网页中显示额外的可视化信息。参见图1,其为本专利技术提出的一种流程图,该方法具体包括:S101、判断是否获取到页面的所有URL,如果没有获取到URL,则结束,否则执行步骤 S102 ;S102、将获取到的所有URL请求提交到服务器,并等待服务器的响应;S103、服务器获取所述请求后,查询所有URL的结构化信息,其中所述结构化信息包括:是否被收录、最近一次的扫描时间、收录的标题,并返回所述结构化信息;S104、遍历所有的URL,并获取到每个URL在网络浏览器中的绝对位置;S105、根据服务器返回的信息构造成html信息,并将所述html信息显示在相应URL的绝对位置旁边,并修改URL在网络浏览器中显示的颜色;S106、通过网络浏览器显示不同颜色的URL以及相应的html信息。其中,在SlOl步骤之前,还包括:抓取系统根据预定的抓取规则将所有抓取过的URL记录在所述服务器上。其中,步骤S102中,是通过AJAX请求将所述URL提交到所述服务器上的。其中,所述服务器提供查询接口,用于接受http请求。下面给出本专利技术的一个具体实施方式,在检测土豆网首页中链接被抓取系统的收录情况,具体包括:1、为网络浏览器添加一个书签。网址填写为指定的一段javascript代码。2、在网络浏览器中打开土豆网。3、点击步骤I添加的书签(点击后,下面为网络浏览器和服务器之间的交互)a)网络浏览器执行书签中的javascriptb)网络浏览器从抓取系统服务器上下载一个javascript文件并加载到网络浏览器中c)执行这个javascript文件(这个文件是专门写的一些程序功能)1.首先获取当前页面(土豆首页)中所有的URL链接i1.将所有的URL链接通过AJAX请求,提交到抓取系统服务器ii1.等待服务器返回信息d)服务器接收到AJAX请求,查询所有URL链接扫描时间、是否收录、收录信息等结构化信息;并返回给AJAX的请求端。e)继续执行c)步的javascript文件1.获取到服务器返回的结构化信息。i1.循环遍历所有的URL。获取每个URL的绝对位置,使用javascript构造出html代码,再利用网络浏览器本身对html和css的动态渲染。将服务器上返回的每个URL结构化信息展示在网络浏览器中。4、短暂的等待后,页面中的本文档来自技高网...
【技术保护点】
一种可视化网页收录检测方法,该方法具体包括:S101、判断是否获取到页面的所有统一资源定位符URL,如果没有获取到URL,则结束,否则执行步骤S102;S102、将获取到的所有URL请求提交到服务器,并等待服务器的响应;S103、所述服务器获取所述请求后,查询所有URL的结构化信息,其中所述结构化信息包括:所述URL是否被收录、最近一次的扫描时间、收录的标题,并返回所述结构化信息;S104、遍历所有的URL,并获取到每个URL在网络浏览器中的绝对位置;S105、根据服务器返回的所述结构化信息构造成html信息,并将所述html信息显示在相应URL的绝对位置旁边,并修改URL在网络浏览器中显示的颜色;S106、通过网络浏览器显示不同颜色的URL以及相应的html信息。
【技术特征摘要】
1.一种可视化网页收录检测方法,该方法具体包括: 5101、判断是否获取到页面的所有统一资源定位符URL,如果没有获取到URL,则结束,否则执行步骤S102 ; 5102、将获取到的所有URL请求提交到服务器,并等待服务器的响应; 5103、所述服务器获取所述请求后,查询所有URL的结构化信息,其中所述结构化信息包括:所述URL是否被收录、最近一次的扫描时间、收录的标题,并返回所述结构化信息; 5104、遍历所有的URL,并获取到每个URL在网络浏览器中的绝对位置; 5105、根据服务器返回的所述...
【专利技术属性】
技术研发人员:刘云剑,姚健,潘柏宇,卢述奇,黄冬,
申请(专利权)人:合一网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。