一种数据抓取方法及装置制造方法及图纸

技术编号:34202246 阅读:60 留言:0更新日期:2022-07-20 10:58
本公开提供一种数据抓取方法及装置,涉及网络应用技术领域,能够解决目前的数据抓取方法效率较低且容易出错的问题。具体技术方案为:配置爬虫模板并获取待访问的网站信息,爬虫模块用于设置目标数据库的数据库结构;根据待访问的网站信息加载对应的目标网站页面;获取用户对目标网站页面的选取操作,并根据选取操作确定目标位置;根据目标位置获取目标网站页面中相应内容的文档结构,并根据文档结构生成XPath表达式;调用爬虫程序,并将爬虫程序根据XPath表达式爬取的所述目标网站页面的目标数据存储在目标数据库中。本发明专利技术用于进行数据抓取。抓取。抓取。

【技术实现步骤摘要】
一种数据抓取方法及装置


[0001]本公开涉及网络应用
,尤其涉及一种数据抓取方法及装置。

技术介绍

[0002]网络爬虫是一种自动提取网页内容的程序,它按照一定的规则抓取互联网信息。网络爬虫一般从一个或若干个初始网页的URL(Uniform Resource Locator,统一资源定位符)开始,获得初始网页上的内容,并继续抽取满足规则的新的URL,将其放入队列,周而复始,直到完成满足系统设定的一定条件时停止。
[0003]现有技术中,掌握了XPath语法的技术人员,结合已有的工作经验,解读页面文档结构,编写XPath表达式,爬虫程序用XPath表达式解析页面,将数据入库。但这种方法爬虫配置工作量大,要求配置人员必须了解XPath语法以及html技术且易出错。

技术实现思路

[0004]本公开实施例提供一种数据抓取方法及装置,能够解决目前的数据抓取方法效率较低且容易出错的问题。所述技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种数据抓取方法,该方法包括:
[0006]配置爬虫模板并本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据抓取方法,其特征在于,所述方法包括:配置爬虫模板并获取待访问的网站信息,所述爬虫模块用于设置目标数据库的数据库结构;根据所述待访问的网站信息加载对应的目标网站页面;获取用户对所述目标网站页面的选取操作,并根据所述选取操作确定目标位置;根据所述目标位置获取所述目标网站页面中相应内容的文档结构,并根据所述文档结构生成XPath表达式;调用爬虫程序,并将所述爬虫程序根据所述XPath表达式爬取的所述目标网站页面的目标数据存储在所述目标数据库中。2.根据权利要求1所述的方法,其特征在于,所述根据所述待访问的网站信息加载对应的目标网站页面,包括:将所述待访问的网站信息发送给代理服务器,以便所述代理服务器将所述待访问的网站信息发送给目标服务器;接收所述代理服务器发送的目标网站页面,所述目标网站页面为所述目标服务器反馈给所述代理服务器的。3.根据权利要求1所述的方法,其特征在于,所述根据所述目标位置获取所述目标网站页面中相应内容的文档结构,并根据所述文档结构生成XPath表达式,包括:根据所述目标位置获取所述目标网站页面中相应内容;根据所述目标网站页面中相应内容,使用递归方法,查找所述目标网站页面中相应内容的节点顺序;根据所述节点顺序得到所述目标网站页面中相应内容的文档结构;根据所述文档结构生成XPath表达式。4.根据权利要求1所述的方法,其特征在于,在所述调用爬虫程序,并将所述爬虫程序根据所述XPath表达式爬取的所述目标网站页面的目标数据存储在所述目标数据库中之后,所述方法还包括:检测所述目标数据和预设结果是否一致,若所述目标数据与预设结果不一致,则检测是否配置正则表达式;若没有配置正则表达式,则获取用户对所述XPath表达式的调整操作,得到调整后的XPath表达式;采用调整后的XPath表达式爬取所述目标网站页面的数据,直至所述目标数据和预设结果一致。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:检测所述目标数据和预设结果是否一致,若所述目标数据与预设结果不一致,则配置正则表达式,并采用所述正则表达式对所述XP...

【专利技术属性】
技术研发人员:李治斌陈龙许宗怡
申请(专利权)人:陕西西部资信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1