【技术实现步骤摘要】
本专利技术涉及视频领域,特别是视频信息抓取领域。
技术介绍
抓取系统,主要是信息收录方主动抓取所需的网页信息。在整个流程中,选择收录哪些网页,一方面是系统制定一定的规则,只对符合规则的网页信息进行收录;另一方面,也提供网站提交入口,让网站的所有者,自行提交URL给抓取系统,抓取系统在根据过滤规则和爬虫协议(robots, txt是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。)进行信息抓取。目前评价收录系统是否完善主要有几个方面:1、收录内容是否全面2、收录内容是否快速3、是否遵守爬虫协议和是否智能抓取新的网页及不重复抓取,避免导致源服务器压力过大、带宽等资源浪费在系统的开发阶段、测试阶段、运行阶段以及运行期的不断优化阶段。我们都会涉及到如何判断我们的系统是否达到设计的预期、是否在不断的完善、以及如何帮助相关人员方便的反馈各种问题和信息。目前没有看到可以通过这种可视化的技术来完成检测工作,常用的方式,在网页中找出URL链接,然后在通过人 ...
【技术保护点】
一种可视化网页收录检测方法,该方法具体包括:S101、判断是否获取到页面的所有统一资源定位符URL,如果没有获取到URL,则结束,否则执行步骤S102;S102、将获取到的所有URL请求提交到服务器,并等待服务器的响应;S103、所述服务器获取所述请求后,查询所有URL的结构化信息,其中所述结构化信息包括:所述URL是否被收录、最近一次的扫描时间、收录的标题,并返回所述结构化信息;S104、遍历所有的URL,并获取到每个URL在网络浏览器中的绝对位置;S105、根据服务器返回的所述结构化信息构造成html信息,并将所述html信息显示在相应URL的绝对位置旁边,并修改URL ...
【技术特征摘要】
1.一种可视化网页收录检测方法,该方法具体包括: 5101、判断是否获取到页面的所有统一资源定位符URL,如果没有获取到URL,则结束,否则执行步骤S102 ; 5102、将获取到的所有URL请求提交到服务器,并等待服务器的响应; 5103、所述服务器获取所述请求后,查询所有URL的结构化信息,其中所述结构化信息包括:所述URL是否被收录、最近一次的扫描时间、收录的标题,并返回所述结构化信息; 5104、遍历所有的URL,并获取到每个URL在网络浏览器中的绝对位置; 5105、根据服务器返回的所述...
【专利技术属性】
技术研发人员:刘云剑,姚健,潘柏宇,卢述奇,黄冬,
申请(专利权)人:合一网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。