【技术实现步骤摘要】
本专利技术涉及网络视频信息获取领域,尤其是涉及一种网页信息获取系统及方法。
技术介绍
目前网页信息的获取技术主要集中在全网网页信息的获取和垂直网页信息的获取。普通的网页搜索引擎,如谷歌公司的谷歌搜索(www. google, com)和百度公司的百度搜索(WWW. baidu. com),这类网页搜索,它的信息主要是从每个下载页面中按照一定的条件抽取文字等重要信息,但是这种抽取可以允许不太准确的信息(比如在一个视频播放页中,它不会太重视导演是谁,视频的时长是多久。再如电视节目预告页面中,它可以 不重视一个节目是7:00开始还是7:30开始),垂直类获取就必须要求准确的信息。所以通用的全网网页信息获取信息的准确性无法达到要求。目前的网页获取系统,主要是在解决如何获取到系统需要获取的网页,而对本身页面中的信息的准确性无法达到视频垂直领域的要求;视频垂直领域对信息的更新频率要求,普通的网页获取页无法准确的控制其更新的频率。垂直网页信息的获取目前没有看到一套结构清楚,各项功能独立,容易控制重复下载和更新频率通用的系统及其方法。
技术实现思路
为解决上述问题,本专利技术提供了一种网页 ...
【技术保护点】
一种网页信息获取系统,其特征在于该系统包括以下的模块:任务投递器,用于将种子所在的统一资源定位符(即:Uniform/Universal?Resource?Locator,以下简称:URL)或任务解析器解析出的子URL并封装成下载任务,将任务投递到任务队列,并记录投递成功与否的日志;任务队列,用于存取任务,接收任务投递器投递的任务,还用于等待任务执行器获取任务,当任务执行器发送请求获取任务时,任务队列将任务返回给任务执行器;包括任务解析器的任务执行器,用于执行任务队列中的任务,其从任务队列获取下载任务;通过任务类型获取到对应的任务解析器,下载网页源代码,调用任务解析器对网页 ...
【技术特征摘要】
1.一种网页信息获取系统,其特征在于该系统包括以下的模块 任务投递器,用于将种子所在的统一资源定位符(即Uniform/Universal ResourceLocator,以下简称URL)或任务解析器解析出的子URL并封装成下载任务,将任务投递到任务队列,并记录投递成功与否的日志; 任务队列,用于存取任务,接收任务投递器投递的任务,还用于等待任务执行器获取任务,当任务执行器发送请求获取任务时,任务队列将任务返回给任务执行器; 包括任务解析器的任务执行器,用于执行任务队列中的任务,其从任务队列获取下载任务;通过任务类型获取到对应的任务解析器,下载网页源代码,调用任务解析器对网页源代码进行解析,并返回解析到的数据,该数据包括一个URL集合和一个视频信息集合; 以及存储设备,用于保存解析器解析到的数据。2.如权利要求I所述的系统,其特征在于 任务投递器将由任务执行器解析出的子URL封装为一个任务投递到任务队列。3.如权利要求I所述的系统,其特征在于 所述URL集合包括O到η个URL信息以及每个URL的相关信息,其中包括了子URL信息以及相关信息,该视频信息集合包括O到η个视频信息数据,所述相关信息包括标题、图片、高清标识以及是否是优先任务,所述视频信息包括播放次数、主演、评论、时长、视频简介。4.如权利要求I所述的系统,其特征在于 任务投递器、任务执行器与任务队列之间,都是通过超文本传输协议(即=Hype TextTransport Potocol,以下简称HTTP)进行交互,而任务执行器通过数据库规定的协议或写文件的方式与存储设备进行交互。5.如权利要求I所述的系统,其特征在于 所述系统的任务投递器用于将URL、与URL对应的相关信息封装成一个json格式的字符串投递到任务队列中。6.如权利要求I所述的系统,其特征在于 所述任务类型指的是任务中的URL的具体类型,具体类型包括播放页、列表页、搜索结果页或者是未指定特殊类型的页面,相对应的解析器为播放页的解析器、列表页的解析器、搜索结果页的解析器、以及通用的解析器进行解析。7.如权利要求I所述的系统,其特征在于 在每一个任务投递到任务队列时,进入之前首先要检查这个任务中的URL,是否已投递过,没有投递过的话,进入队列,并记录这个URL的投递时间;如果投递过,那么检查上次投递的时间与当前时间的间隔,这...
【专利技术属性】
技术研发人员:刘云剑,姚健,潘柏宇,卢述奇,
申请(专利权)人:合一网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。