一种基于新闻列表实时抓取方法技术

技术编号：20221841 阅读：209 留言：0更新日期：2019-01-28 20:19

一种基于新闻列表实时抓取方法，包括以下步骤，输入新闻列表页地址；读取、访问网页数据；获取地址列表；分别在数据库和缓存中进行存储；从缓存中读取地址，通过数据库判断子地址数量；抓取网站地址中的内文本内容；将抓取的文本内容进行存储，通过在原有爬虫技术的基础上加入缓存技术，可以避免网站列表的重复抓取，也可以在较短的时间内获取最新的新闻列表数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于新闻列表实时抓取方法
本专利技术涉及一种基于新闻列表实时抓取方法。
技术介绍
网络爬虫是一种自动搜集互联网信息的程序。通过网络爬虫不仅能够为搜索引擎采集网络信息，而且可以作为定向信息采集器，定向采集某些网站下的特定信息。目前，传统意义上的爬虫无法保证数据的实时抓取，在抓取时，会产生重复抓取，延长搜索时间，降低了数据检索的效率。
技术实现思路
针对以上不足，本专利技术所要解决的技术问题是提供一种基于新闻列表的实时抓取方法，用于提高网页的检索效率。为解决以上技术问题，本专利技术采用的技术方案是，一种基于新闻列表实时抓取方法，包括以下步骤，（1）输入新闻列表页地址；（2）读取、访问网页数据；（3）获取地址列表；（4）分别在数据库和缓存中进行存储；（5）从缓存中读取地址，通过数据库判断子地址数量；（6）抓取网站地址中的内文本内容；（7）将抓取的文本内容进行存储。在采用以上技术方案的同时，本专利技术还进一步采用或者组合采用了以下技术方案。步骤（6）中对网站地址抓取完成后，将抓取的网站地址标记地址状态为已抓取，返回步骤（4）。当步骤（5）中输出的地址数量为0时，返回步骤（2）；当步骤（5）中输出的地址数量不为0时，进行步骤（6）。该抓取方法还包括数据更新方法和数据查询方法。数据查询方法包括以下步骤，数据查询方法包括以下步骤，1）从缓存中取数据；2）请求路由到对应的内存队列，并交给队列进行处理；3）判断能否从缓存中取到数据；4）若不能取到数据，则从数据库中查询；5）判断数据库中是否存在该数据；6）若存在数据，则创建强制刷新缓存请求，并加入列队中；7）内存列队对数据进...

【技术保护点】
1.一种基于新闻列表实时抓取方法，其特征在于，包括以下步骤，（1）输入新闻列表页地址；（2）读取、访问网页数据；（3）获取地址列表；（4）分别在数据库和缓存中进行存储；（5）从缓存中读取地址，通过数据库判断子地址数量；（6）抓取网站地址中的内文本内容；（7）将抓取的文本内容进行存储。

【技术特征摘要】
1.一种基于新闻列表实时抓取方法，其特征在于，包括以下步骤，（1）输入新闻列表页地址；（2）读取、访问网页数据；（3）获取地址列表；（4）分别在数据库和缓存中进行存储；（5）从缓存中读取地址，通过数据库判断子地址数量；（6）抓取网站地址中的内文本内容；（7）将抓取的文本内容进行存储。2.根据权利要求1所述的一种基于新闻列表实时抓取方法，其特征在于，步骤（6）中对网站地址抓取完成后，将抓取的网站地址标记地址状态为已抓取，返回步骤（4）。3.根据权利要求1所述的一种基于新闻列表实时抓取方法，其特征在于，当步骤（5）中输出的地址数量为0时，返回步骤（2）；当步骤（5）中输出的地址数量不为0时，进行步骤（6）。4.根据权利要求1所述的一种基于新闻列表实时抓取方法，其特征在于，该抓取方法还包括数据更新方法...

【专利技术属性】
技术研发人员：贝超，
申请(专利权)人：中译语通科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人