当前位置: 首页 > 专利查询>深圳大学专利>正文

跨数据中心的数据分析方法、装置、设备及存储介质制造方法及图纸

技术编号:26172860 阅读:47 留言:0更新日期:2020-10-31 13:52
本申请适用于数据处理技术领域,提供了一种跨数据中心的数据分析方法、装置、设备及存储介质,所述数据中心内存储有数据子集,所述方法包括:根据各个数据中心内的数据子集,对应生成所述各个数据中心的数据模型;从各个所述数据模型中,随机选择第一预设数量的初始数据块,生成每个所述数据中心对应的第一数据块集合;依次从每个所述第一数据块集合中,选择目标数据块,生成第二预设数量的目标数据集合;根据所有所述目标数据集合训练目标学习器,并根据所述目标学习器对大数据集中的数据进行分析。采用上述方法,可以快速且高效地对大规模的跨数据中心的数据进行分析。

Data analysis methods, devices, equipment and storage media across data centers

【技术实现步骤摘要】
跨数据中心的数据分析方法、装置、设备及存储介质
本申请属于数据处理
,尤其涉及一种跨数据中心的数据分析方法、装置、设备及存储介质。
技术介绍
随着数据规模的不断增长,单一数据中心存储的方式已不再适合存储数据。因此,很多公司会在多个地区建设数据中心以存储各地的用户数据。然而在对存储在各个数据中心的数据进行分析时,若只对单一数据中心的数据进行分析来度量整个大数据,其对单一数据中心进行模型训练得到的模型,对于整体大数据的分类准确率很低。若对所有数据中心的数据进行训练,则需要将大数据进行汇聚并进行模型训练,其数据汇聚的时间长,且模型训练所需的时间也非常长。因此,现有技术在对大规模的跨数据中心的数据进行分析时,存在耗时较长、效率较低的问题。
技术实现思路
本申请实施例提供了一种跨数据中心的数据分析方法、装置、设备及存储介质,可以解决现有技术在对大规模的跨数据中心的数据进行分析时,耗时较长、效率较低的问题。第一方面,本申请实施例提供了一种跨数据中心的数据分析方法,所述数据中心内存储有数据子集,所述方法包括:根据各个数据中心内的数据子集,对应生成所述各个数据中心的数据模型;从各个所述数据模型中,随机选择第一预设数量的初始数据块,生成每个所述数据中心对应的第一数据块集合;依次从每个所述第一数据块集合中,选择目标数据块,生成第二预设数量的目标数据集合;根据所有所述目标数据集合训练目标学习器,并根据所述目标学习器对大数据集中的数据进行分析。第二方面,本申请实施例提供了一种跨数据中心的数据分析装置,所述数据中心内存储有数据子集,所述装置包括:第一生成模块,用于根据各个数据中心内的数据子集,对应生成所述各个数据中心的数据模型;第二生成模块,用于从各个所述数据模型中,随机选择第一预设数量的初始数据块,生成每个所述数据中心对应的第一数据块集合;第三生成模块,用于依次从每个所述第一数据块集合中,选择目标数据块,生成第二预设数量的目标数据集合;分析模块,用于根据所有所述目标数据集合训练目标学习器,并根据所述目标学习器对大数据集中的数据进行分析。第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面任一项所述的跨数据中心的数据分析方法。第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的跨数据中心的数据分析方法。第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的跨数据中心的数据分析方法。本申请实施例与现有技术相比存在的有益效果是:通过大数据随机划分模型,对各个数据中心内的数据子集进行处理,生成数据模型;并在各个数据模型中随机选择初始数据块,对应生成第一数据块集合;之后从每个第一数据块集合中选择目标数据块,生成目标数据集合;对目标数据集合训练得到的目标学习器,即可认为是根据大数据集的数据进行训练得到的目标学习器。目标学习器对大数据中的数据进行分析时的分析准确率也满足要求,且因数据处理的量减少,数据处理的时间也相对减少,进而可实现高效对大数据进行准确分析的效果。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请一实施例提供的跨数据中心的数据分析方法的一种实现流程示意图;图2是本申请另一实施例提供的跨数据中心的数据分析方法的一种实现流程示意图;图3是本申请再一实施例提供的跨数据中心的数据分析方法的一种实现流程示意图;图4是本申请一实施例提供的跨数据中心的数据分析方法中应用场景示意图;图5是本申请一实施例提供的跨数据中心的数据分析方法中,对单独数据中心训练得到分类模型的分类准确率以及处理时长,与改进后训练得到的分类模型的分类准确率以及处理时长的比较示意图;图6是本申请另一实施例提供的跨数据中心的数据分析方法中,对单独数据中心训练得到分类模型的分类准确率以及处理时长,与改进后训练得到的分类模型的分类准确率以及处理时长的比较示意图;图7是本申请再一实施例提供的跨数据中心的数据分析方法中,对单独数据中心训练得到分类模型的分类准确率以及处理时长,与改进后训练得到的分类模型的分类准确率以及处理时长的比较示意图;图8是本申请再一实施例提供的跨数据中心的数据分析方法中应用场景示意图;图9是本申请一实施例提供的跨数据中心的数据分析方法中对数据中心内不同数据类别分布的状态下,训练得到分类模型的分类准确率以及处理时长;图10是本申请实施例提供的跨数据中心的数据分析装置的一种结构示意图;图11是本申请实施例提供的终端设备的结构示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。本申请实施例提供的跨数据中心的数据分析方法可以应用于平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobilepersonalcomputer,UMPC)、上网本、个人数字助理(personaldigitalassistant,PDA)等终端设备上,本申请实施例对终端设备的具体类型不作任何限制。参照图1,图1示出了本申请实施例提供的跨数据中心的数据分析方法的实现流程图,详述如下:所述数据中心内存储有数据子集,所述方法包括:S101、根据各个数据中心内的数据子集,对应生成所述各个数据中心的数据模型。在应用中,上述数据中心用于存储数据子集中心的数据。对于大数据,其包含多个数据子集,每个数据子集均包含至少一个数据块,每个数据块均包含数据。其中,上述每个数据子集均可单独存储于一个数据中心,数据中心的数据没有重本文档来自技高网...

【技术保护点】
1.一种跨数据中心的数据分析方法,其特征在于,所述数据中心内存储有数据子集,所述方法包括:/n根据各个数据中心内的数据子集,对应生成所述各个数据中心的数据模型;/n从各个所述数据模型中,随机选择第一预设数量的初始数据块,生成每个所述数据中心对应的第一数据块集合;/n依次从每个所述第一数据块集合中,选择目标数据块,生成第二预设数量的目标数据集合;/n根据所有所述目标数据集合训练目标学习器,并根据所述目标学习器对大数据集中的数据进行分析。/n

【技术特征摘要】
1.一种跨数据中心的数据分析方法,其特征在于,所述数据中心内存储有数据子集,所述方法包括:
根据各个数据中心内的数据子集,对应生成所述各个数据中心的数据模型;
从各个所述数据模型中,随机选择第一预设数量的初始数据块,生成每个所述数据中心对应的第一数据块集合;
依次从每个所述第一数据块集合中,选择目标数据块,生成第二预设数量的目标数据集合;
根据所有所述目标数据集合训练目标学习器,并根据所述目标学习器对大数据集中的数据进行分析。


2.如权利要求1任一所述的跨数据中心的数据分析方法,其特征在于,所述各个数据中心存储的数据子集之间没有重叠;
所述依次从每个所述第一数据块集合中,选择目标数据块,生成第二预设数量的目标数据集合,包括:
获取每个所述第一数据块集合中,各个所述初始数据块的排序号;所述初始数据块随机分布在所述第一数据块集合中,以使得每个所述初始数据块随机对应所述排序号,所述排序号的个数与所述第一预设数量相等;
依次将每个所述第一数据块集合中,具有相同所述排序号的初始数据块作为目标数据块进行汇聚,生成所述第二预设数量的目标数据集合;其中,所述第一预设数量与第二预设数量相等。


3.如权利要求1所述的跨数据中心的数据分析方法,其特征在于,所述各个数据中心存储的数据子集之间没有重叠;
所述依次从每个所述第一数据块集合中,选择目标数据块,生成第二预设数量的目标数据集合,包括:
依次从每个所述第一数据块集合中,随机选择至少一个初始数据块作为目标数据块;
每次汇聚每个所述第一数据块集合中的目标数据块,作为目标数据集合,直到生成所述第二预设数量的目标数据集合。


4.如权利要求1所述的跨数据中心的数据分析方法,其特征在于,所述大数据集中的每个所述数据子集中的部份或者全部数据分散存储于多个数据中心;
所述从各个所述数据模型中,随机选择第一预设数量的初始数据块,生成每个所述数据中心对应的第一数据块集合,包括:
根据预设规则,在每个所述数据模型中重复i-1次,每次随机获取第一数据块集合,所述i为数据中心的个数;
对应将所述第一数据块集合依次复制到其余所述数据中心,生成当前所述各个数据中心对应的复制子集;其中,每个所述复制子集包括原有所述数据子集包含的原有第一数据块集合,以及从其余所述数据中心随机获取的复制第一数据块集合;
针对任意所述复制子集,从所述复制子集对应的所述原有第一数据块集合,以及各个所述复制第一数据块集合中,随机选择第一预设数...

【专利技术属性】
技术研发人员:龙浩吴胤旭黄哲学
申请(专利权)人:深圳大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1