数据解析方法、装置及存储介质制造方法及图纸

技术编号:23149023 阅读:46 留言:0更新日期:2020-01-18 13:27
本发明专利技术涉及数据采集技术,提出了一种数据解析方法、电子装置及存储介质。该方法包括:利用预先配置的网络数据获取脚本从预设网址获取网络数据,对获取的所述网络数据进行预处理,并将预处理后的网络数据作为待解析数据保存到指定的网络数据文件中;从所述网络数据文件中收集待解析数据,对每个网络数据文件对应的每笔待解析数据分别添加不同的数据标识,将添加标识后的数据进行缓存;将缓存成功的待解析数据均匀分配到缓存空间的各个缓存分区;解析所述缓存分区中的待解析数据,利用预设模板校验解析后的数据,若解析后的数据通过校验,则将解析后的数据保存到数据库中。利用本发明专利技术,实现了审核存入数据库前的数据,提升数据存入数据库的效率。

Data analysis method, device and storage medium

【技术实现步骤摘要】
数据解析方法、装置及存储介质
本专利技术涉及数据采集
,尤其涉及一种数据解析方法、装置及存储介质。
技术介绍
随着网络的迅速发展,万维网作为大量信息的载体,已经成为数据分析领域的一个重要数据来源,现有技术中,通常是利用数据获取程序或者脚本从万维网自动获取数据。目前,业界在采用这类数据获取程序或者脚本获取数据后,往往需要提醒相关人员创建数据库表来保存数据。这种人工提醒创建表的方式需要大量的人为干预,无法保证数据存储的实时性,同时,人工方式容易出错且需要花费大量的人工时间。
技术实现思路
本专利技术提供一种数据解析方法、装置及存储介质,其主要目的是审核存入数据库前的数据,提升数据存入数据库的效率。为实现上述目的,本专利技术提供一种数据解析方法,该方法包括以下步骤:获取步骤:分别利用预先配置的网络数据获取脚本实时或者定时从预设网址获取网络数据,对获取的所述网络数据进行预处理,并将预处理后的网络数据作为待解析数据保存到指定的网络数据文件中;缓存步骤:实时或者定时从所述网络数据文件中收集待解析数据本文档来自技高网...

【技术保护点】
1.一种数据解析方法,应用于电子装置,其特征在于,所述方法包括:/n获取步骤:分别利用预先配置的网络数据获取脚本实时或者定时从预设网址获取网络数据,对获取的所述网络数据进行预处理,并将预处理后的网络数据作为待解析数据保存到指定的网络数据文件中;/n缓存步骤:实时或者定时从所述网络数据文件中收集待解析数据,对收集到的每个网络数据文件对应的每笔待解析数据分别添加不同的数据标识,将添加标识后的数据进行缓存;/n分配步骤:将缓存成功的待解析数据均匀分配到缓存空间的各个缓存分区;及/n匹配步骤:根据所述各个缓存分区的标识从小到大的顺序解析对应的待解析数据,利用预设模板校验解析后的数据,若解析后的数据通过...

【技术特征摘要】
1.一种数据解析方法,应用于电子装置,其特征在于,所述方法包括:
获取步骤:分别利用预先配置的网络数据获取脚本实时或者定时从预设网址获取网络数据,对获取的所述网络数据进行预处理,并将预处理后的网络数据作为待解析数据保存到指定的网络数据文件中;
缓存步骤:实时或者定时从所述网络数据文件中收集待解析数据,对收集到的每个网络数据文件对应的每笔待解析数据分别添加不同的数据标识,将添加标识后的数据进行缓存;
分配步骤:将缓存成功的待解析数据均匀分配到缓存空间的各个缓存分区;及
匹配步骤:根据所述各个缓存分区的标识从小到大的顺序解析对应的待解析数据,利用预设模板校验解析后的数据,若解析后的数据通过预设模板的校验,则将解析后的数据保存到数据库中。


2.如权利要求1所述的数据解析方法,其特征在于,该方法还包括:若解析后的数据未通过预设模板的校验,则发送预设格式的附带修改建议的警示信息给预设客户端,在接收到所述预设客户端响应所述警示信息提交的创建模板请求后,重新解析所述缓存分区中的待解析数据,根据解析后的数据创建新的模板,并将新模板与原模板的差异部分写入到日志文件中。


3.如权利要求1所述的数据解析方法,其特征在于,所述预处理包括:删除所述网络数据中的特殊标点字符,将数字、字母的全角转换为半角,去除所述网络数据中的双引号,将所述网络数据中的日期格式转换为预设格式,删除所述网络数据中的重复数据。


4.如权利要求1所述的数据解析方法,其特征在于,若所述缓存分区中的待解析数据的数量大于或者等于第一预设数量,则根据预先确定的分区建立规则新建缓存分区;及
若所述缓存分区中的待解析数据的数量小于或者等于第二预设数量,则根据预先确定的分区注销规则注销相应数量的缓存分区。


5.如权利要求4所述的数据解析方法,其特征在于,所述分区建立规则包括根据预先确定的第一差值速度与新建分区数量的映射关系,确定当前的第一差值速度对应的新建分区数量;及
所述分区注销规则包括根据预先确定的第二差值速度与注销分区数量的映射关系,确定当前的第二差值速度对应的注销分区数量。
<...

【专利技术属性】
技术研发人员:陈万慧苏雪婷杨鑫
申请(专利权)人:平安城市建设科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1