大数据初始化方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24995738 阅读:28 留言:0更新日期:2020-07-24 17:58
本发明专利技术提供一种大数据初始化方法、装置、电子设备及存储介质。该方法能够将导入到分布式文件系统中的历史数据集映射成数据表集,提高了数据的容错性,进一步根据所述历史数据集,对所述数据表集中的数据进行缺失值检测,得到标准数据表集,保证了数据准确性和完整性,再通过预设的关联度依存关系对所述标准数据表集中的数据进行数据分析,得到数据的关键字段集,并将所述关键字段集随机分布到所述标准数据表集中,生成随机落地数据表集,提高了数据处理的速度,进一步将所述随机落地数据表集中的随机落地数据表按预设条件进行合并,得到初始化数据表集,实现了对大数据的初始化。

【技术实现步骤摘要】
大数据初始化方法、装置、电子设备及存储介质
本专利技术涉及数据处理
,尤其涉及一种大数据初始化方法、装置、电子设备及存储介质。
技术介绍
目前,大数据已经应用到各种应用系统中,且各种应用系统也在根据大数据系统进行升级转换。例如:对于系统架构升级,在开发技术上仅需要将数据处理模块替换成大数据的处理技术即可,但是对于历史数据,则需要做相应的转换处理。在进行大数据升级时,通常需要执行系统重构,而历史数据则需要按照新规则进行初始化,生成符合新系统规则的数据,只是简单的进行语句堆积会带来严重的性能问题,也无法完成初始化。
技术实现思路
鉴于以上内容,有必要提供一种大数据初始化方法、装置、电子设备及存储介质,能够实现对大数据的快速初始化,且保证了数据的准确性和完整性,同时提升了数据的容错性。一种大数据初始化方法,所述方法包括:从预先构建的数据库中获取历史数据集,并将所述历史数据集导入到分布式文件系统中;将导入后的所述历史数据集映射成数据表集;根据所述历史数据集,对所述数据表集中的数据进行缺失本文档来自技高网...

【技术保护点】
1.一种大数据初始化方法,其特征在于,所述方法包括:/n从预先构建的数据库中获取历史数据集,并将所述历史数据集导入到分布式文件系统中;/n将导入后的所述历史数据集映射成数据表集;/n根据所述历史数据集,对所述数据表集中的数据进行缺失值检测,得到标准数据表集;/n通过预设的关联度依存关系对所述标准数据表集中的数据进行数据分析,得到数据的关键字段集;/n将所述关键字段集随机分布到所述标准数据表集中,生成随机落地数据表集;/n将所述随机落地数据表集中的随机落地数据表按预设条件进行合并,得到初始化数据表集。/n

【技术特征摘要】
1.一种大数据初始化方法,其特征在于,所述方法包括:
从预先构建的数据库中获取历史数据集,并将所述历史数据集导入到分布式文件系统中;
将导入后的所述历史数据集映射成数据表集;
根据所述历史数据集,对所述数据表集中的数据进行缺失值检测,得到标准数据表集;
通过预设的关联度依存关系对所述标准数据表集中的数据进行数据分析,得到数据的关键字段集;
将所述关键字段集随机分布到所述标准数据表集中,生成随机落地数据表集;
将所述随机落地数据表集中的随机落地数据表按预设条件进行合并,得到初始化数据表集。


2.如权利要求1所述的大数据初始化方法,其特征在于,所述将所述历史数据集导入到分布式文件系统中,包括:
获取所述数据库所在服务器的IP地址及SID号;
根据所述IP地址及所述SID号登录所述数据库;
从所述数据库中获取所述历史数据集在所述分布式文件系统上的绝对路径;
根据所述绝对路径将所述历史数据集导入到所述分布式文件系统中。


3.如权利要求1所述的大数据初始化方法,其特征在于,所述将所述历史数据集导入到分布式文件系统中,包括:
获取所述历史数据集中数据的属性信息;
根据所述属性信息确定所述历史数据集中数据的优先级;
根据所述优先级将所述历史数据集导入到分布式文件系统中。


4.如权利要求2所述的大数据初始化方法,其特征在于,所述将导入后的所述历史数据集映射成数据表集包括:
利用配置工具将所述历史数据集映射为数据表;
根据所述历史数据集在所述分布式文件系统上的绝对路径检验所述历史数据集是否加载到所述数据表中;
当所述历史数据集加载到所述数据表中时,利用所述数据表中的数据构建所述数据表集。


5.如权利要求1所述的大数据初始化方法,其特征在于,所述根据所述历史数据集,对所述数据表集中的数据进行缺失值检测,得到标准数据表集包括:
采用missmapfunction函数对所述数据表集中的数据进行缺失值检测;
当检测到所述数据表集中没有缺失值时,将所述数据表集确定为所述标准数据表集;或者
当检测到所述数据表集中有缺失值时,采用...

【专利技术属性】
技术研发人员:李广翔
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1