一种文章实时智能抓取系统和方法技术方案

技术编号：7287463 阅读：309 留言：0更新日期：2012-04-22 01:42

一种文章实时智能抓取系统，包括实时抓取模块、网页抽取系统、文档近似排重模块、文档自动分类模块和文章发布模块。所述实时抓取模块还包括线上运行的7个模块：任务提取模块、任务解析模块、任务抓取时间范围检验模块、任务抓取时间间隔检验模块、任务调度模块、任务下载模块、任务抓取频率调整模块；还包括线下运行的3个模块：任务抓取时间范围发现模块、任务抓取时间间隔发现模块、免费代理收集和验证模块。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网技术中抓取技术、web挖掘技术、信息抽取技术、自然语言处理
；可以应用于需要大规模精准、实时地抓取文章的门户网站、搜索引擎网站等互联网领域。
技术介绍
互联网门户类网站每天都有大量的文章转载需求，并且对文章的质量要求很高。现有很多抓取系统可以满足这个需求，但是它们都困扰于下面三个问题1)采用机器自动生成抽取包装器技术的抓取系统可以大量抓取文章，但是无法做到文章的精准抽取，抓取文章的可用性低；2)采用人工生成抽取包装器技术的抓取系统文章抽取结果精准，但是要对互联网上千个网站进行抽取包装器的生成和更新维护工作，普通垂直爬虫无法很好担负这一工作，只能依赖大量的人力参与；3)安全、高效的实时抓取技术。在要求高实时性抓取的时候，需要对抓取网站服务器频繁的发起链接和下载请求，这将会给对方服务器造成很大的压力，进而会导致对方采用封禁策略如拒绝访问等来保证服务器正常工作，这将导致抓取失败。同时高实时的抓取需求，非常耗费网络、服务器等硬件资源，导致成本上升。以下为本专利技术所涉及的一些关键技术及技术术语解释。抽取包装器网页信息抽取是信息抽取中的一类，网页信息抽取的包装器生成技术目前发展成为一个较为独立的领域。包装器是由一系列抽取规则以及应用这些规则的计算机代码组成的，专门从特定信息源中抽取需要的信息并返回结果的程序；基于同站学习和自动规则生成的文章自动抽取算法本专利技术包含的一个包装器自动生成算法，可以精准智能的从网页中抽取出文章信息；同站学习按网站为单位，收集一个网站足够量的网页，一起进行机器统计学习，进而从中生成需要的规则；爬虫(或者抓取...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：吴华鹏，曾明，厉锟，陈大伟，
申请(专利权)人：凤凰在线北京信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人