当前位置: 首页 > 专利查询>深圳大学专利>正文

跨数据中心的数据分析方法、装置、设备及存储介质制造方法及图纸

技术编号:26172860 阅读:54 留言:0更新日期:2020-10-31 13:52
本申请适用于数据处理技术领域,提供了一种跨数据中心的数据分析方法、装置、设备及存储介质,所述数据中心内存储有数据子集,所述方法包括:根据各个数据中心内的数据子集,对应生成所述各个数据中心的数据模型;从各个所述数据模型中,随机选择第一预设数量的初始数据块,生成每个所述数据中心对应的第一数据块集合;依次从每个所述第一数据块集合中,选择目标数据块,生成第二预设数量的目标数据集合;根据所有所述目标数据集合训练目标学习器,并根据所述目标学习器对大数据集中的数据进行分析。采用上述方法,可以快速且高效地对大规模的跨数据中心的数据进行分析。

Data analysis methods, devices, equipment and storage media across data centers

【技术实现步骤摘要】
跨数据中心的数据分析方法、装置、设备及存储介质
本申请属于数据处理
,尤其涉及一种跨数据中心的数据分析方法、装置、设备及存储介质。
技术介绍
随着数据规模的不断增长,单一数据中心存储的方式已不再适合存储数据。因此,很多公司会在多个地区建设数据中心以存储各地的用户数据。然而在对存储在各个数据中心的数据进行分析时,若只对单一数据中心的数据进行分析来度量整个大数据,其对单一数据中心进行模型训练得到的模型,对于整体大数据的分类准确率很低。若对所有数据中心的数据进行训练,则需要将大数据进行汇聚并进行模型训练,其数据汇聚的时间长,且模型训练所需的时间也非常长。因此,现有技术在对大规模的跨数据中心的数据进行分析时,存在耗时较长、效率较低的问题。
技术实现思路
本申请实施例提供了一种跨数据中心的数据分析方法、装置、设备及存储介质,可以解决现有技术在对大规模的跨数据中心的数据进行分析时,耗时较长、效率较低的问题。第一方面,本申请实施例提供了一种跨数据中心的数据分析方法,所述数据中心内存储有数据子集,所述方法包括:根据各个本文档来自技高网...

【技术保护点】
1.一种跨数据中心的数据分析方法,其特征在于,所述数据中心内存储有数据子集,所述方法包括:/n根据各个数据中心内的数据子集,对应生成所述各个数据中心的数据模型;/n从各个所述数据模型中,随机选择第一预设数量的初始数据块,生成每个所述数据中心对应的第一数据块集合;/n依次从每个所述第一数据块集合中,选择目标数据块,生成第二预设数量的目标数据集合;/n根据所有所述目标数据集合训练目标学习器,并根据所述目标学习器对大数据集中的数据进行分析。/n

【技术特征摘要】
1.一种跨数据中心的数据分析方法,其特征在于,所述数据中心内存储有数据子集,所述方法包括:
根据各个数据中心内的数据子集,对应生成所述各个数据中心的数据模型;
从各个所述数据模型中,随机选择第一预设数量的初始数据块,生成每个所述数据中心对应的第一数据块集合;
依次从每个所述第一数据块集合中,选择目标数据块,生成第二预设数量的目标数据集合;
根据所有所述目标数据集合训练目标学习器,并根据所述目标学习器对大数据集中的数据进行分析。


2.如权利要求1任一所述的跨数据中心的数据分析方法,其特征在于,所述各个数据中心存储的数据子集之间没有重叠;
所述依次从每个所述第一数据块集合中,选择目标数据块,生成第二预设数量的目标数据集合,包括:
获取每个所述第一数据块集合中,各个所述初始数据块的排序号;所述初始数据块随机分布在所述第一数据块集合中,以使得每个所述初始数据块随机对应所述排序号,所述排序号的个数与所述第一预设数量相等;
依次将每个所述第一数据块集合中,具有相同所述排序号的初始数据块作为目标数据块进行汇聚,生成所述第二预设数量的目标数据集合;其中,所述第一预设数量与第二预设数量相等。


3.如权利要求1所述的跨数据中心的数据分析方法,其特征在于,所述各个数据中心存储的数据子集之间没有重叠;
所述依次从每个所述第一数据块集合中,选择目标数据块,生成第二预设数量的目标数据集合,包括:
依次从每个所述第一数据块集合中,随机选择至少一个初始数据块作为目标数据块;
每次汇聚每个所述第一数据块集合中的目标数据块,作为目标数据集合,直到生成所述第二预设数量的目标数据集合。


4.如权利要求1所述的跨数据中心的数据分析方法,其特征在于,所述大数据集中的每个所述数据子集中的部份或者全部数据分散存储于多个数据中心;
所述从各个所述数据模型中,随机选择第一预设数量的初始数据块,生成每个所述数据中心对应的第一数据块集合,包括:
根据预设规则,在每个所述数据模型中重复i-1次,每次随机获取第一数据块集合,所述i为数据中心的个数;
对应将所述第一数据块集合依次复制到其余所述数据中心,生成当前所述各个数据中心对应的复制子集;其中,每个所述复制子集包括原有所述数据子集包含的原有第一数据块集合,以及从其余所述数据中心随机获取的复制第一数据块集合;
针对任意所述复制子集,从所述复制子集对应的所述原有第一数据块集合,以及各个所述复制第一数据块集合中,随机选择第一预设数...

【专利技术属性】
技术研发人员:龙浩吴胤旭黄哲学
申请(专利权)人:深圳大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1