【技术实现步骤摘要】
基于网络爬虫技术的中文文献数据自动化获取方法
本专利技术为基于网络爬虫技术的中文文献数据自动化获取方法,属于网络爬虫
技术介绍
2014年,我国首次将“大数据”写入政府工作报告,我们迎来了真正意义上的“中国大数据元年”。作为信息技术高度发达的时代背景下的产物,大数据相比与传统数据来说,往往具有数据规模大、流转速度快,数据类型多,价值密度低的特点。因此,大数据对人们获取数据的能力同样提出了更高的要求,传统工具和方法已经无法让人类在可承受的时间范围内获取研究需要的数据。为解决数据爆炸式增长带来的技术难题,网络爬虫技术应运而生。我们可以发现,数据的获取虽然繁琐,但由于其常常具有一定的规范步骤,本质上是一系列重复性单一操作的集合,因此,非常适合机器自动完成。为解决中文科学文献数据的获取难题,本专利技术设计了一种基于网络爬虫技术的中文文献数据自动化获取方法。
技术实现思路
本专利技术为了弥补现有技术的缺陷,提供了一种简单高效的基于爬虫技术实现文献数据自动化获取的方法。本专利 ...
【技术保护点】
1.基于网络爬虫技术的中文文献数据自动化获取方法,其特征在于,包括如下步骤:/n(1-1)运行程序后,浏览器按要求打开指定的文章搜索页面,并按照所限定的文献检索要求在指定对话框内输入关键词、选择指定的下拉列表、成功检索到目标文献信息并按次序点击第一篇文章的链接、将爬取目标页面成功打开;/n(1-2)在爬取目标页面中,通过调用所需要的网页元素的Xpath路径表达式,定位所需要爬取的数据信息,并去除可能导致报错的标点符号;/n(1-3)将定位的数据依次以Json文件的形式保存到本地,并以文献题目为文件命名;/n(1-4)关闭浏览器的文章搜索页面及爬取目标页面,并重新打开文章搜索 ...
【技术特征摘要】 【专利技术属性】
1.基于网络爬虫技术的中文文献数据自动化获取方法,其特征在于,包括如下步骤:
(1-1)运行程序后,浏览器按要求打开指定的文章搜索页面,并按照所限定的文献检索要求在指定对话框内输入关键词、选择指定的下拉列表、成功检索到目标文献信息并按次序点击第一篇文章的链接、将爬取目标页面成功打开;
(1-2)在爬取目标页面中,通过调用所需要的网页元素的Xpath路径表达式,定位所需要爬取的数据信息,并去除可能导致报错的标点符号;
(1-3)将定位的数据依次以Json文件的形式保存到本地,并以文献题目为文件命名;
(1-4)关闭浏览器的文章搜索页面及爬取目标页面,并重新打开文章搜索页面,按照所限定的文献检索要求在指定对话框内输入关键词、选择指定的下拉列表、成功检索到目标文献信息并按次序点击第二篇文章的链接、将爬取目标页面成功打开,并完成(1-2)和(1-3);
(1-5)重复步骤(1-4),直到完成所有的目标文献数据爬取任务。
2.根据权利1所述的基于网络爬虫技术的中文文献数据自动化获取方法,其特征在于,包括如下模块:
网页分析模块,用于对给定网页进行网页结构分析与自动化操作,其基本流程是:
(2-1)对于每一个程序脚本,一个网络请求会被创建并且发送给浏览器的驱动;
技术研发人员:赵子鸣,李本继,陈清华,李小萌,
申请(专利权)人:北京师范大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。