【技术实现步骤摘要】
基于Python的非结构化数据实时爬取系统以及其使用方法
本专利技术涉及网络大数据
,尤其涉及一种基于Python的非结构化数据实时爬取系统以及其使用方法。
技术介绍
随着互联网的飞速发展,其已经渗透到人们生活的方方面面,从精神层次的信息获取到物质需求都能通过互联网实现。随着信息大爆炸式的发展,数以亿计的网站不断涌现,搜索引擎收录的网页数量也在急剧增长。互联网上丰富的信息给人们带来极大的便利,通过互联网,人们可以高效快捷的获取各式各样的信息。但是,信息的大爆炸,同时也给用户带来了信息过载的问题,如何能够快速的从海量信息中选择自己所需要的,是一个越来越迫切的问题。Python是一种跨平台的计算机程序设计语言。是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发,如今,已被逐渐广泛应用于系统管理任务的处理和Web编程。
技术实现思路
本专利技术的目的是为了 ...
【技术保护点】
1.一种基于Python的非结构化数据实时爬取系统,其特征在于,包括:爬虫集群、暂存数据库、数据迁移模块和目标数据库;/n爬虫集群,包括多个针对不同爬取对象设置的网络爬虫,各网络爬虫用于从对应的爬取对象实时爬取非结构化数据;/n暂存数据库,与爬虫集群连接,用于存储各网络爬虫实时爬取的数据;/n数据迁移模块,分别连接暂存数据库和目标数据库;/n数据迁移模块,用于对暂存数据库中存储的数据进行分块整理,并用于将整理后的数据迁移到目标数据库进行存储。/n
【技术特征摘要】
1.一种基于Python的非结构化数据实时爬取系统,其特征在于,包括:爬虫集群、暂存数据库、数据迁移模块和目标数据库;
爬虫集群,包括多个针对不同爬取对象设置的网络爬虫,各网络爬虫用于从对应的爬取对象实时爬取非结构化数据;
暂存数据库,与爬虫集群连接,用于存储各网络爬虫实时爬取的数据;
数据迁移模块,分别连接暂存数据库和目标数据库;
数据迁移模块,用于对暂存数据库中存储的数据进行分块整理,并用于将整理后的数据迁移到目标数据库进行存储。
2.根据权利要求1所述的基于Python的非结构化数据实时爬取系统,其特征在于,数据迁移模块中预设有缓存区域,数据迁移模块用于根据时序信息从暂存数据库中提取非结构数据并存储到缓存区域,数据迁移模块用于对缓存区域中的非结构数据进行特征提取和标注,并根据标注结果将缓存区域中的数据迁移到目标数据库中进行存储。
3.根据权利要求2所述的基于Python的非结构化数据实时爬取系统,其特征在于,数据迁移模块对缓存区域的数据进行标注后,根据标注信息在目标数据库中选择标签对应的子库存储标注后的数据;当任一个标注后的数据在目标数据库中没有标签匹配的子库时,数据迁移模块通知目标数据库根据该数据标注结果建立对应标签的子库,并将该数据发送到该子库进行存储。
4.根据权利要求1所述的基于Python的非结构化数据实时爬取系统,其特征在于,还包括数据检索模块,其分别连接目标数据库和暂存数据...
【专利技术属性】
技术研发人员:官鲁卫,陈霞,
申请(专利权)人:广西美立方工程咨询有限公司,
类型:发明
国别省市:广西;45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。