【技术实现步骤摘要】
数据采集方法、装置、电子设备及存储介质
本专利技术涉及大数据领域,尤其涉及一种数据采集方法、装置、电子设备及计算机可读存储介质。
技术介绍
随着大数据的日益发展,数据采集成为一个必不可少的流程。目前常用的数据采集方法通常是基于数据库语言的数据采集工具进行数据采集,但通过数据采集工具对数据进行采集时,需要配置筛选条件获取相应数据,容易带来数据库语言会被包装很多层的问题,从而在进行数据采集时,会先拉取所有数据,再一层一层的进行数据筛选,造成数据采集的效率极低。
技术实现思路
本专利技术提供一种数据采集方法、装置、电子设备及计算机可读存储介质,其主要目的在于避免在数据采集时造成系统资源浪费的问题,提高数据采集的效率。为实现上述目的,本专利技术提供的一种数据采集方法,包括:获取原始数据集,对所述原始数据集进行预处理操作,生成标准数据集,并将所述标准数据集存入预设数据库中;根据所述预设数据库中的数据表,构建对应的数据采集模型;获取待采集数据的字段集,计算所述字段集与所述数据采集模型中字段的匹配值,选取所述匹配值大于预设阈值的数据采集模型;获取所述待采集数据的采集时间戳,将所述采集时间戳填充至选取的所述数据采集模型中,得到目标数据采集模型;基于所述目标数据采集模型,在所述采集时间戳时间内从所述预设数据库中采集所述待采集数据对应的标准数据,得到目标数据集。可选地,所述对所述原始数据集进行预处理操作,生成标准数据集,包括:对所述原始数据集进行去重操作 ...
【技术保护点】
1.一种数据采集方法,其特征在于,所述方法包括:/n获取原始数据集,对所述原始数据集进行预处理操作,生成标准数据集,并将所述标准数据集存入预设数据库中;/n根据所述预设数据库中的数据表,构建对应的数据采集模型;/n获取待采集数据的字段集,计算所述字段集与所述数据采集模型中字段的匹配值,选取所述匹配值大于预设阈值的数据采集模型;/n获取所述待采集数据的采集时间戳,将所述采集时间戳填充至选取的所述数据采集模型中,得到目标数据采集模型;/n基于所述目标数据采集模型,在所述采集时间戳时间内从所述预设数据库中采集所述待采集数据对应的标准数据,得到目标数据集。/n
【技术特征摘要】
1.一种数据采集方法,其特征在于,所述方法包括:
获取原始数据集,对所述原始数据集进行预处理操作,生成标准数据集,并将所述标准数据集存入预设数据库中;
根据所述预设数据库中的数据表,构建对应的数据采集模型;
获取待采集数据的字段集,计算所述字段集与所述数据采集模型中字段的匹配值,选取所述匹配值大于预设阈值的数据采集模型;
获取所述待采集数据的采集时间戳,将所述采集时间戳填充至选取的所述数据采集模型中,得到目标数据采集模型;
基于所述目标数据采集模型,在所述采集时间戳时间内从所述预设数据库中采集所述待采集数据对应的标准数据,得到目标数据集。
2.如权利要求1所述的数据采集方法,其特征在于,所述对所述原始数据集进行预处理操作,生成标准数据集,包括:
对所述原始数据集进行去重操作,并检测去重后的所述原始数据集中是否存在数据缺失值;
若不存在数据缺失值,则将去重后的所述原始数据集作为标准数据集;
若存在数据缺失值,则对所述数据缺失值进行填充,得到标准数据集。
3.如权利要求2所述的数据采集方法,其特征在于,所述对所述数据缺失值进行填充,包括:
利用下述方法对所述数据缺失值进行填充:
其中,L(θ)表示填充的数据缺失值,xi表示第i个数据缺失值,θ表示填充的数据缺失值对应的概率参数,n表示去重后的所述原始数据集的数量,p(xi|θ)表示填充的数据缺失值概率。
4.如权利要求1所述的数据采集方法,其特征在于,所述根据所述预设数据库中的数据表,构建对应的数据采集模型,包括:
获取所述预设数据库中所有的数据表,对相同类型的所述数据表进行聚类,得到一个或多个初始数据表集;
创建所述初始数据表集的数据表矩阵;
计算所述数据表矩阵中每个初始数据表的期望值;
将期望值相同的初始数据表作为数据采集模型。
5.如权利要求4所述的数据采集方法,其特征在于,所述计算所述数据表矩阵中每个初始数据表的期望值,包括:
利用下述方法计算所述数据表矩阵中每个初始数据表的期望值:
其中,Ci表示数据表矩阵中第i个初始数据表的期望值,Ei表示数据表矩阵中第i个初始数据表的特征向量,表示数据表矩阵中第i个初始数据表的特征向量协方差,trace()表示空间滤波函数。
6.如权利要求1所述的数据采...
【专利技术属性】
技术研发人员:熊志国,张冕,
申请(专利权)人:招商局金融科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。