基于chrome自动解析html执行下载方法和装置制造方法及图纸

技术编号:30444271 阅读:11 留言:0更新日期:2021-10-24 18:34
本申请涉及一种基于chrome自动解析html执行下载方法和装置,该方法包括,首先将包含下载操作信息的预设xpath路径数据传入至selenium中;通过selenium自动打开浏览器,并基于xpath路径数据自动控制鼠标和键盘,使相关服务器返回需要的数据;通过预设pandas框架和预设xpath对下载的数据进行提取解析处理,得到处理后的数据;再通过预设mysql将处理后的数据进行存储。如此,业务人员可以通过预先设置,实现自动打开浏览器,并自动控制鼠标和键盘,和数据自动下载,并且下载完的数据,自动进行解析处理和保存,节省人力和时间时间,提高工作效率,降低业务数据下载的错误率。降低业务数据下载的错误率。降低业务数据下载的错误率。

【技术实现步骤摘要】
基于chrome自动解析html执行下载方法和装置


[0001]本申请涉及互联网
,尤其涉及一种基于chrome自动解析html执行下载方法和装置。

技术介绍

[0002]目前在人工智能,大数据,云计算蓬勃发展下,大部分企业实现数字化转型,各种业务均大部分已线上化,电子化,数字化,而大部分业务人员并不懂IT技术,而基于网页的所展示的数据也并不能完全支撑到业务的个性化需求,而且也无法长久保存查看。
[0003]所以需要业务人员每天疲于各种网页系统下,做复制粘贴重复性劳动工作,工作量大、重复率高、而且还容易出错,虽然有的网页提供了自动下载的功能,但业务人员任然需要每天定时去下载,每天需耗费大量的人力和时间。

技术实现思路

[0004]本申请提供一种基于chrome自动解析html执行下载方法、装置,以解决现有技术中,业务人员需要手动在浏览器上下载个性化的业务数据,工作量大、重复率高、而且还容易出错的问题。
[0005]本申请的上述目的是通过以下技术方案实现的:
[0006]第一方面,本申请实施例提供一种基于chrome自动解析html执行下载方法,包括:
[0007]将包含下载操作信息的预设xpath路径数据传入至selenium中;
[0008]通过selenium自动打开浏览器,并基于所述xpath路径数据自动控制鼠标和键盘操作,以使所需要的数据可以被服务器正常返回,得到下载数据;
[0009]通过预设pandas框架和预设xpath对所述下载数据进行提取解析,得到处理后的数据;
[0010]通过预设mysql框架将所述处理后的数据进行存储。
[0011]可选的,还包括:
[0012]通过预设apscheduler框架对任务进行控制调度。
[0013]可选的,所述通过预设pandas框架和预设xpath对所述下载数据进行提取解析,得到处理后的数据,包括:
[0014]通过xpath对所述下载数据进行提取,得到提取数据;
[0015]通过预设pandas和io框架对提取数据进行运算操作,以及数据的清洗、去重和再加工;其中,所述运算操作包括归并、再成形和筛选。
[0016]第二方面,本申请实施例还提供一种基于chrome自动解析html执行下载装置,其特征在于,包括:
[0017]Selenium自动化执行框架、基于数据处理的pandas框架和基于数据持久化存储的mysql框架;
[0018]所述Selenium自动化执行框架用于接收用户上传的xpath路径数据,并基于所述
xpath路径数据自动打开浏览器并控制鼠标和键盘操作,自动进行文件下载,并对下载的文件进行数据提取,得到提取数据;
[0019]所述基于数据处理的pandas框架用于对提取数据进行运算操作,以及数据的清洗、去重和再加工,得到处理后的数据;其中,所述运算操作包括归并、再成形和筛选;
[0020]所述mysql框架用于将所述得到处理后的数据进行存储。
[0021]可选的,还包括:基于apscheduler的任务调度框架;
[0022]所述基于apscheduler的任务调度框架用于对任务进行控制调度。
[0023]可选的,还包括:基于pyinstaller程序的打包框架;
[0024]所述基于pyinstaller程序的打包框架用于将python开发测试程序打包为windows可执行程序。
[0025]本申请的实施例提供的技术方案可以包括以下有益效果:
[0026]本申请的实施例提供的技术方案中,首先将包含下载操作信息的预设xpath路径数据传入至selenium中;通过selenium自动打开浏览器,并基于所述xpath路径数据自动控制鼠标和键盘操作,以使所需要的数据可以被服务器正常返回,得到下载数据;通过预设pandas框架和预设xpath对所述下载数据进行提取解析,得到下载文件数据流;通过预设mysql框架将所述文件数据流进行存储。如此,相关业务人员可以通过selenium自动打开浏览器,并且由selenium自动控制鼠标和键盘,从而实现数据自动下载,并且下载完的数据,可以自动进行解析处理,保存至mysql框架中,从而节省人力节省时间,降低业务数据下载的错误率。
[0027]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0028]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0029]图1为本申请实施例提供的一种基于chrome自动解析html执行下载方法的流程示意图;
[0030]图2为本申请另一实施例提供的一种基于chrome自动解析html执行下载方法的流程示意图;
[0031]图3为本申请实施例提供的一种基于chrome自动解析html执行下载装置的结构示意图。
具体实施方式
[0032]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0033]为了解决上述问题,本申请提供一种基于chrome自动解析html执行下载方法和装置,以解决现有技术中,业务人员需要手动在浏览器上下载个性化的业务数据,工作量大、
重复率高、而且还容易出错的问题。具体实现方案通过以下实施例进行详细说明。
[0034]目前在人工智能,大数据,云计算蓬勃发展下,大部分企业实现数字化转型,各种业务均大部分已线上化,电子化,数字化。而原始网页并不一定满足单个业务员的需求,以及原始网页的数据不能查看历史数据或只能查看一定时间内的数据,所以业务人员需要每天打开浏览器,利用鼠标不停的翻页,复制粘贴保存等操作,工作量、重复性高而且错误率高,效率低。
[0035]本专利技术的方法和装置不仅可以自动打开浏览器,自动解析网页数据,自动执行下载,而且可以永久持久化将数据保存到数据库,提供给业务做历史数据分析查看。
[0036]实施例
[0037]参照图1,图1为本申请实施例提供的一种基于chrome自动解析html执行下载方法的流程示意图,如图1所示,该方法至少包括以下步骤:
[0038]S101、将包含下载操作信息的预设xpath路径数据传入至selenium中。
[0039]具体的,HTML的全称为超文本标记语言,是一种标记语言。它包括一系列标签。通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。可扩展标记语言路径语言(Xml Path Language,xpath)是XML路径语言,它可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于chrome自动解析html执行下载方法,其特征在于,包括:将包含下载操作信息的预设xpath路径数据传入至selenium中;通过selenium自动打开浏览器,并基于所述xpath路径数据自动控制鼠标和键盘操作,以使所需要的数据可以被服务器正常返回,得到下载数据;通过预设pandas框架和预设xpath对所述下载数据进行提取解析,得到处理后的数据;通过预设mysql框架将所述处理后的数据进行存储。2.根据权利要求1所述的基于chrome自动解析html执行下载方法,其特征在于,还包括:通过预设apscheduler框架对任务进行控制调度。3.根据权利要求1所述的基于chrome自动解析html执行下载方法,其特征在于,所述通过预设pandas框架和预设xpath对所述下载数据进行提取解析,得到处理后的数据,包括:通过xpath对所述下载数据进行提取,得到提取数据;通过预设pandas和io框架对提取数据进行运算操作,以及数据的清洗、去重和再加工;其中,所述运算操作包括归并、再成形和筛选。4.一种基于chrome自动解析html执行下载装置,...

【专利技术属性】
技术研发人员:陈昙周壮
申请(专利权)人:上海中通吉网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1