招投标相关网页爬取任务调度方法及系统技术方案

技术编号:20944464 阅读:43 留言:0更新日期:2019-04-24 02:23
本发明专利技术涉及网络信息获取领域,具体涉及一种招投标相关网页爬取任务调度方法及系统,该系统包括:用户终端、总服务器和多台子服务器;所述用户终端用于用户关注、购买和查看对应企业网站上爬取的信息;所述总服务器用于获取企业网站日均访问人数、日访问时间记录信息、企业信息更新时间信息以及用户查看信息规律表,然后根据获取的所有信息生成分配模型,并根据生成的分配模型分配子服务器进行信息爬取。本方案适用于分别针对不同用户进行其关注信息的爬取。

Task Scheduling Method and System for Web Page Crawling Related to Bidding

The invention relates to the field of network information acquisition, in particular to a bidding-related web crawling task scheduling method and system, which includes: user terminals, total servers and multiple sub-servers; the user terminals are used for users to pay attention to, purchase and view information crawled on corresponding enterprise websites; and the total servers are used to obtain the average number of daily visits and daily visits to enterprise websites. Question time record information, enterprise information update time information and user view information regularity table, then generate allocation model according to all information obtained, and allocate sub-server to crawl information according to the generated allocation model. This scheme is suitable for different users to crawl their concerned information.

【技术实现步骤摘要】
招投标相关网页爬取任务调度方法及系统
本专利技术涉及网络信息获取领域,具体涉及一种招投标相关网页爬取任务调度方法及系统。
技术介绍
网络爬虫(又称网页蜘蛛)为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。通俗的讲,也就是通过源码解析来获得想要的内容。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索。但是,不管是传统爬虫还是聚焦爬虫,当需要访问的站点或网页数量较多时,单个机器或单个数据中心中蜘蛛的获取信息的能力将非常有限。这个时候就会需要使用到多个机器或多个数据中心的蜘蛛,来对大量的站点及网页进行爬取。现有使用多个机器或多个数据中心的蜘蛛时,蜘蛛任务本文档来自技高网...

【技术保护点】
1.招投标相关网页爬取任务调度方法,其特征在于:包括如下步骤:S1:用户注册登录并输入用户输入信息集,信息集包括关注企业名称和内容;S2:根据用户输入的企业名称寻找对应企业网站日均访问人数、日访问时间记录信息以及企业信息更新时间信息;S3:记录用户每天登录系统和查看信息的时间,生成用户查看信息规律表,用户查看信息规律表包括:每日登录时间规律、查看内容、查看每一个企业内容对应时间以及查看企业内容的先后排序;S4:根据用户查看信息规律表、企业网站日均访问人数、日访问时间记录信息和企业信息更新时间信息生成分配模型,然后根据分配模型分配不同的子服务器进行信息爬取;其中,根据用户查看信息规律对每日登陆时...

【技术特征摘要】
1.招投标相关网页爬取任务调度方法,其特征在于:包括如下步骤:S1:用户注册登录并输入用户输入信息集,信息集包括关注企业名称和内容;S2:根据用户输入的企业名称寻找对应企业网站日均访问人数、日访问时间记录信息以及企业信息更新时间信息;S3:记录用户每天登录系统和查看信息的时间,生成用户查看信息规律表,用户查看信息规律表包括:每日登录时间规律、查看内容、查看每一个企业内容对应时间以及查看企业内容的先后排序;S4:根据用户查看信息规律表、企业网站日均访问人数、日访问时间记录信息和企业信息更新时间信息生成分配模型,然后根据分配模型分配不同的子服务器进行信息爬取;其中,根据用户查看信息规律对每日登陆时间早的用户关注的企业名称和内容对应的企业网站信息优先进行爬取,同时还按照用户查看企业内容的先后排序对对应企业信息进行爬取。2.根据权利要求1所述的招投标相关网页爬取任务调度方法,其特征在于:在步骤S3中,每日登录时间规律包括用户每天首次登录系统时间规律、用户每天二次登录系统时间规律和用户每天第三次登录系统时间规律;在步骤S5中,生成分配模型时,对同一用户关注的所有企业网站进行三种类型的划分,第一种类型为企业网站每天更新信息时间在用户每天首次登录系统时间前,该企业网站信息爬取时间便是该企业网站每天更新信息时间到用户每天首次登录系统时间期间;第二种类型为企业网站每天更新信息时间在用户每天首次登录系统时间和用户每天二次登录系统时间之间,该企业网站信息爬取时间便是该企业网站每天更新信息时间到用户每天二次登录系统时间期间;第三种类型为企业网站每天更新信息时间在用户每天二次登录系统时间和用户每天第三次登录系统时间之间,该企业网站信息爬取时间便是该企业网站每天更新信息时间到用户每天第三次登录系统时间期间。3.根据权利要求2所...

【专利技术属性】
技术研发人员:杨敏
申请(专利权)人:贵阳高新数通信息有限公司
类型:发明
国别省市:贵州,52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1