数据采集方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26790874 阅读:16 留言:0更新日期:2020-12-22 17:06
本发明专利技术实施例涉及一种大数据领域,揭露了一种数据采集方法,包括:获取原始数据集,对所述原始数据集进行预处理操作,生成标准数据集,并将所述标准数据集存入预设数据库中;根据所述预设数据库中的数据表,构建对应的数据采集模型;根据待采集数据的字段集以及采集时间戳,配置所述数据采集模型的目标数据采集模型;基于所述目标数据采集模型,在所述采集时间戳的时间内向所述预设数据库中采集所述待采集数据对应的标准数据,得到目标数据集。本发明专利技术还提出一种数据采集装置、电子设备以及计算机可读存储介质。本发明专利技术可以提高数据采集的效率。

【技术实现步骤摘要】
数据采集方法、装置、电子设备及存储介质
本专利技术涉及大数据领域,尤其涉及一种数据采集方法、装置、电子设备及计算机可读存储介质。
技术介绍
随着大数据的日益发展,数据采集成为一个必不可少的流程。目前常用的数据采集方法通常是基于数据库语言的数据采集工具进行数据采集,但通过数据采集工具对数据进行采集时,需要配置筛选条件获取相应数据,容易带来数据库语言会被包装很多层的问题,从而在进行数据采集时,会先拉取所有数据,再一层一层的进行数据筛选,造成数据采集的效率极低。
技术实现思路
本专利技术提供一种数据采集方法、装置、电子设备及计算机可读存储介质,其主要目的在于避免在数据采集时造成系统资源浪费的问题,提高数据采集的效率。为实现上述目的,本专利技术提供的一种数据采集方法,包括:获取原始数据集,对所述原始数据集进行预处理操作,生成标准数据集,并将所述标准数据集存入预设数据库中;根据所述预设数据库中的数据表,构建对应的数据采集模型;获取待采集数据的字段集,计算所述字段集与所述数据采集模型中字段的匹配值,选取所述匹配值大于预设阈值的数据采集模型;获取所述待采集数据的采集时间戳,将所述采集时间戳填充至选取的所述数据采集模型中,得到目标数据采集模型;基于所述目标数据采集模型,在所述采集时间戳时间内从所述预设数据库中采集所述待采集数据对应的标准数据,得到目标数据集。可选地,所述对所述原始数据集进行预处理操作,生成标准数据集,包括:对所述原始数据集进行去重操作,并检测去重后的所述原始数据集中是否存在数据缺失值;若不存在数据缺失值,则将去重后的所述原始数据集作为标准数据集;若存在数据缺失值,则对所述数据缺失值进行填充,得到标准数据集。可选地,所述对所述数据缺失值进行填充,包括:利用下述方法对所述数据缺失值进行填充:其中,L(θ)表示填充的数据缺失值,xi表示第i个数据缺失值,θ表示填充的数据缺失值对应的概率参数,n表示去重后的所述原始数据集的数量,p(xi|θ)表示填充的数据缺失值概率。可选地,所述根据所述预设数据库中的数据表,构建对应的数据采集模型,包括:获取所述预设数据库中所有的数据表,对相同类型的所述数据表进行聚类,得到一个或多个初始数据表集;创建所述初始数据表集的数据表矩阵;计算所述数据表矩阵中每个初始数据表的期望值;将期望值相同的初始数据表作为数据采集模型。可选地,所述计算所述数据表矩阵中每个初始数据表的期望值,包括:利用下述方法计算所述数据表矩阵中每个初始数据表的期望值:其中,Ci表示数据表矩阵中第i个初始数据表的期望值,Ei表示数据表矩阵中第i个初始数据表的特征向量,表示数据表矩阵中第i个初始数据表的特征向量协方差,trace()表示空间滤波函数。可选地,所述计算所述字段集与所述数据采集模型中字段的匹配值,包括:获取所述字段集与所述数据采集模型中字段的相同字段,并对所述相同字段进行标识,得到目标字段集;汇总所述字段集中每个字段的字段长度得到第一字段长度、汇总所述数据采集模型中每个字段的字段长度得到第二字段长度,以及汇总所述目标字段集中每个字段的的字段长度第三字段长度值;计算所述第三字段长度值与所述第一字段长度值的占比,得到第一占比,及计算所述第三字段长度值与所述第二字段长度值的占比,得到第二占比;根据所述第一占比和第二占比,计算所述字段集与所述数据采集模型中字段的匹配值。可选地,所述将所述采集时间戳填充至选取的所述数据采集模型中,得到目标数据采集模型,包括:在选取的所述数据采集模型中创建对象接收脚本,利用所述对象接收脚本接收所述待生成报表的时间戳,得到数据采集对象;将所述数据采集对象传输至选取的所述数据采集模型的SQL配置语句中,得到目标数据采集模型。为了解决上述问题,本专利技术还提供一种数据采集装置,所述装置包括:预处理模块,用于获取原始数据集,对所述原始数据集进行预处理操作,生成标准数据集,并将所述标准数据集存入预设数据库中;构建模块,用于根据所述预设数据库中的数据表,构建对应的数据采集模型;计算模块,用于获取待采集数据的字段集,计算所述字段集与所述数据采集模型中字段的匹配值,选取所述匹配值大于预设阈值的数据采集模型;填充模块,用于获取所述待采集数据的采集时间戳,将所述采集时间戳填充至选取的所述数据采集模型中,得到目标数据采集模型;采集模块,用于基于所述目标数据采集模型,在所述采集时间戳时间内向所述预设数据库中采集所述待采集数据对应的标准数据,得到目标数据集。为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以实现上述所述的数据采集方法。为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的数据采集方法。本专利技术实施例首先对获取的原始数据集进行预处理操作,生成标准数据集,并将所述标准数据集存入预设数据库中,保证了得到的标准数据集中数据的准确性的同时又可以支持批量数据的录入;其次,本专利技术实施例根据所述预设数据库中的数据表,构建对应的数据采集模型,避免了后续数据采集时需要进行筛选条件的配置,提高数据采集的效率;进一步地,本专利技术实施例根据待采集数据的字段集以及采集时间戳,配置所述数据采集模型的目标数据采集模型,以向所述预设数据库中采集所述待采集数据对应的标准数据,得到目标数据集。因此,本专利技术提出的一种数据采集方法、装置、电子设备以及存储介质可以提高数据采集的效率。附图说明图1为本专利技术一实施例提供的数据采集方法的流程示意图;图2为图1提供的数据采集方法其中一个步骤的详细流程示意图;图3为图1提供的数据采集方法另外一个步骤的详细流程示意图;图4为本专利技术一实施例提供的数据采集装置的模块示意图;图5为本专利技术一实施例提供的实现数据采集方法的电子设备的内部结构示意图;本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本申请实施例提供一种数据采集方法。所述数据采集方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述数据采集方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。参照图本文档来自技高网...

【技术保护点】
1.一种数据采集方法,其特征在于,所述方法包括:/n获取原始数据集,对所述原始数据集进行预处理操作,生成标准数据集,并将所述标准数据集存入预设数据库中;/n根据所述预设数据库中的数据表,构建对应的数据采集模型;/n获取待采集数据的字段集,计算所述字段集与所述数据采集模型中字段的匹配值,选取所述匹配值大于预设阈值的数据采集模型;/n获取所述待采集数据的采集时间戳,将所述采集时间戳填充至选取的所述数据采集模型中,得到目标数据采集模型;/n基于所述目标数据采集模型,在所述采集时间戳时间内从所述预设数据库中采集所述待采集数据对应的标准数据,得到目标数据集。/n

【技术特征摘要】
1.一种数据采集方法,其特征在于,所述方法包括:
获取原始数据集,对所述原始数据集进行预处理操作,生成标准数据集,并将所述标准数据集存入预设数据库中;
根据所述预设数据库中的数据表,构建对应的数据采集模型;
获取待采集数据的字段集,计算所述字段集与所述数据采集模型中字段的匹配值,选取所述匹配值大于预设阈值的数据采集模型;
获取所述待采集数据的采集时间戳,将所述采集时间戳填充至选取的所述数据采集模型中,得到目标数据采集模型;
基于所述目标数据采集模型,在所述采集时间戳时间内从所述预设数据库中采集所述待采集数据对应的标准数据,得到目标数据集。


2.如权利要求1所述的数据采集方法,其特征在于,所述对所述原始数据集进行预处理操作,生成标准数据集,包括:
对所述原始数据集进行去重操作,并检测去重后的所述原始数据集中是否存在数据缺失值;
若不存在数据缺失值,则将去重后的所述原始数据集作为标准数据集;
若存在数据缺失值,则对所述数据缺失值进行填充,得到标准数据集。


3.如权利要求2所述的数据采集方法,其特征在于,所述对所述数据缺失值进行填充,包括:
利用下述方法对所述数据缺失值进行填充:



其中,L(θ)表示填充的数据缺失值,xi表示第i个数据缺失值,θ表示填充的数据缺失值对应的概率参数,n表示去重后的所述原始数据集的数量,p(xi|θ)表示填充的数据缺失值概率。


4.如权利要求1所述的数据采集方法,其特征在于,所述根据所述预设数据库中的数据表,构建对应的数据采集模型,包括:
获取所述预设数据库中所有的数据表,对相同类型的所述数据表进行聚类,得到一个或多个初始数据表集;
创建所述初始数据表集的数据表矩阵;
计算所述数据表矩阵中每个初始数据表的期望值;
将期望值相同的初始数据表作为数据采集模型。


5.如权利要求4所述的数据采集方法,其特征在于,所述计算所述数据表矩阵中每个初始数据表的期望值,包括:
利用下述方法计算所述数据表矩阵中每个初始数据表的期望值:



其中,Ci表示数据表矩阵中第i个初始数据表的期望值,Ei表示数据表矩阵中第i个初始数据表的特征向量,表示数据表矩阵中第i个初始数据表的特征向量协方差,trace()表示空间滤波函数。


6.如权利要求1所述的数据采...

【专利技术属性】
技术研发人员:熊志国张冕
申请(专利权)人:招商局金融科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1