一种天文学数据筛选与下载的爬虫软件制造技术

技术编号：21399164 阅读：67 留言：0更新日期：2019-06-19 07:02

本发明专利技术公开了一种天文学数据筛选与下载的爬虫软件，软件包括：NOAA网站的模拟HTTP请求与解析模块、Solar Monitor网站的模拟HTTP请求与解析模块、NOAA网站与Solar Monitor网站数据匹配模块及JSOC网站下载链接获取模块，上述各模块是通过Python的一个库requests构建，其中，requests是使用Apache2 licensed许可证的HTTP库，用Python编写且支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动响应内容的编码，支持国际化的URL和POST数据自动编码，还在Python内置模块的基础上进行了高度的封装，使得Python进行网络请求时，实现requests完成浏览器可有的任何操作。本发明专利技术使JSOC网站数据采集周期大大算短，使网站中现有的所有数据都能够被采集、使用，使利用此网站的科研工作者能更快的获得期望的数据集。

全部详细技术资料下载

【技术实现步骤摘要】
一种天文学数据筛选与下载的爬虫软件
本专利技术涉及天文学数据筛选与下载的爬虫软件，属于计算机数据采集

技术介绍
宇宙学在近期从一个几个人一个组就能独立做的领域，变成一个大数据、大组织的领域。大部分的宇宙学项目，比如：针对宇宙微波背景的Planck、十年内要启动的欧洲ESO的Euclid、美国NASA的WFIRST、美国NSF的LSST，大都是千人级的大组织。未来的数据量也将变得非常庞大，比如LSST每晚的观测数据量是15TB。目前天文学界尚无法处理这大数据，所以天文学越来越多需要计算机领域帮助。就现有技术而言，JSOC网站上的数据采集工作需要人力去查找、比对、下载，耗时耗力。为此，需要研发一款新的适应的软件来解决。
技术实现思路
本专利技术是针对现有技术存在的不足，提供一种天文学数据筛选与下载的爬虫软件，可以解决现有技术中存在的效率低下问题，同时提供一种天文学数据自动化下载的可用流程，满足实际使用要求。为解决上述问题，本专利技术所采取的技术方案如下：一种天文学数据筛选与下载的爬虫软件，所述软件包括：NOAA网站的模拟HTTP请求与解析模块、SolarMonitor网站的模拟HTTP请求与解析模块、NOAA网站与SolarMonitor网站数据匹配模块及JSOC网站下载链接获取模块，上述各模块是通过Python的一个库requests构建，其中，requests是使用Apache2licensed许可证的HTTP库，用Python编写且支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动响应内容的编码，支持国际化的URL和...

【技术保护点】
1.一种天文学数据筛选与下载的爬虫软件，其特征在于：软件包括：NOAA网站的模拟HTTP请求与解析模块、Solar Monitor网站的模拟HTTP请求与解析模块、NOAA网站与Solar Monitor网站数据匹配模块及JSOC网站下载链接获取模块，上述各模块是通过Python的一个库requests构建，其中，requests是使用Apache2licensed许可证的HTTP库，用Python编写且支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动响应内容的编码，支持国际化的URL和POST数据自动编码，还在Python内置模块的基础上进行了高度的封装，使得Python进行网络请求时，实现requests完成浏览器可有的任何操作。

【技术特征摘要】
1.一种天文学数据筛选与下载的爬虫软件，其特征在于：软件包括：NOAA网站的模拟HTTP请求与解析模块、SolarMonitor网站的模拟HTTP请求与解析模块、NOAA网站与SolarMonitor网站数据匹配模块及JSOC网站下载链接获取模块，上述各模块是通过Python的一个库requests构建，其中，requests是使用Apache2licensed许可证的HTTP库，用Python编写且支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动响应内容的编码，支持国际化的URL和POST数据自动编码，还在Python内置模块的基础上进行了高度的封装，使得Python进行网络请求时，实现requests完成浏览器可有的任何操作。2.根据权利要求1所述的天文学数据筛选与下载的爬虫软件，其特征在于：所述的NOAA网站的模拟HTTP请求与解析模块为：可以对NOAA网站发送HTTP请求并得到NOAA网站1975年1月1日至2017年12月31日间的每天太阳活动的时间、等级数据，可将NOAA网站指定网页筛选后的特定数据项保存到磁盘。3.根据权利要求1所述的天文学数据筛选与下载的爬虫软件，其特征在于：所述SolarMonitor网站的模拟HTTP请求与解析模块为：可以循环遍历2010年1月1日至2018年10月1日间的SolarMonitor网站记录的每天的太阳活动记录的时间信息、经纬度信息以及等级信息，可以将筛选后的SolarMonito...

【专利技术属性】
技术研发人员：王新硕，郑艳芳，李雪宝，
申请(专利权)人：江苏科技大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人