基于Python的非结构化数据实时爬取系统以及其使用方法技术方案

技术编号：26171324 阅读：35 留言：0更新日期：2020-10-31 13:43

本发明专利技术公开了一种基于Python的非结构化数据实时爬取系统，包括：爬虫集群、暂存数据库、数据迁移模块和目标数据库；数据迁移模块，用于对暂存数据库中存储的数据进行分块整理，并用于将整理后的数据迁移到目标数据库进行存储。本发明专利技术中，数据迁移模块对暂存数据库中的非结构数据进行整理，并将整理后的数据迁移到目标数据库存储。如此，避免了暂存数据库和目标数据库对相同数据的冗余存储。同时，通过暂存数据库的存储过渡，降低了数据迁移模块的数据整理压力，有理由保证目标数据库中的数据逻辑完整度，从而进一步保证通过目标数据库检索信息的效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于Python的非结构化数据实时爬取系统以及其使用方法
本专利技术涉及网络大数据
，尤其涉及一种基于Python的非结构化数据实时爬取系统以及其使用方法。
技术介绍
随着互联网的飞速发展，其已经渗透到人们生活的方方面面，从精神层次的信息获取到物质需求都能通过互联网实现。随着信息大爆炸式的发展，数以亿计的网站不断涌现，搜索引擎收录的网页数量也在急剧增长。互联网上丰富的信息给人们带来极大的便利，通过互联网，人们可以高效快捷的获取各式各样的信息。但是，信息的大爆炸，同时也给用户带来了信息过载的问题，如何能够快速的从海量信息中选择自己所需要的，是一个越来越迫切的问题。Python是一种跨平台的计算机程序设计语言。是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越多被用于独立的、大型项目的开发，如今，已被逐渐广泛应用于系统管理任务的处理和Web编程。
技术实现思路
本专利技术的目的是为了...

【技术保护点】
1.一种基于Python的非结构化数据实时爬取系统，其特征在于，包括：爬虫集群、暂存数据库、数据迁移模块和目标数据库；/n爬虫集群，包括多个针对不同爬取对象设置的网络爬虫，各网络爬虫用于从对应的爬取对象实时爬取非结构化数据；/n暂存数据库，与爬虫集群连接，用于存储各网络爬虫实时爬取的数据；/n数据迁移模块，分别连接暂存数据库和目标数据库；/n数据迁移模块，用于对暂存数据库中存储的数据进行分块整理，并用于将整理后的数据迁移到目标数据库进行存储。/n

【技术特征摘要】
1.一种基于Python的非结构化数据实时爬取系统，其特征在于，包括：爬虫集群、暂存数据库、数据迁移模块和目标数据库；
爬虫集群，包括多个针对不同爬取对象设置的网络爬虫，各网络爬虫用于从对应的爬取对象实时爬取非结构化数据；
暂存数据库，与爬虫集群连接，用于存储各网络爬虫实时爬取的数据；
数据迁移模块，分别连接暂存数据库和目标数据库；
数据迁移模块，用于对暂存数据库中存储的数据进行分块整理，并用于将整理后的数据迁移到目标数据库进行存储。

2.根据权利要求1所述的基于Python的非结构化数据实时爬取系统，其特征在于，数据迁移模块中预设有缓存区域，数据迁移模块用于根据时序信息从暂存数据库中提取非结构数据并存储到缓存区域，数据迁移模块用于对缓存区域中的非结构数据进行特征提取和标注，并根据标注结果将缓存区域中的数据迁移到目标数据库中进行存储。

3.根据权利要求2所述的基于Python的非结构化数据实时爬取系统，其特征在于，数据迁移模块对缓存区域的数据进行标注后，根据标注信息在目标数据库中选择标签对应的子库存储标注后的数据；当任一个标注后的数据在目标数据库中没有标签匹配的子库时，数据迁移模块通知目标数据库根据该数据标注结果建立对应标签的子库，并将该数据发送到该子库进行存储。

4.根据权利要求1所述的基于Python的非结构化数据实时爬取系统，其特征在于，还包括数据检索模块，其分别连接目标数据库和暂存数据...

【专利技术属性】
技术研发人员：官鲁卫，陈霞，
申请(专利权)人：广西美立方工程咨询有限公司，
类型：发明
国别省市：广西;45

全部详细技术资料下载我是这个专利的主人