数据聚合处理方法、装置、设备及存储介质制造方法及图纸

技术编号：24517594 阅读：14 留言：0更新日期：2020-06-17 06:47

本申请公开了一种数据聚合处理方法、装置、设备及存储介质，该方法包括：通过获取待聚合处理的原始数据，并将原始数据划分为至少一个第一数据集合；确定至少一个第一数据集合中的每一个第一数据集合是否具有对应的历史聚合记录；若至少一个第一数据集合中存在至少一个具有历史聚合记录的第二数据集合，获取每一个第二数据集合对应的历史聚合结果，得到至少一个第一聚合结果；对每一个不具有历史聚合记录的第三数据集合进行聚合处理，得到至少一个第二聚合结果；根据至少一个第一聚合结果和至少一个第二聚合结果，确定原始数据的第三聚合结果。有利于提高数据聚合结果的复用性，提高数据聚合的聚合效率，和减少数据聚合的资源消耗。

全部详细技术资料下载

【技术实现步骤摘要】
数据聚合处理方法、装置、设备及存储介质
本申请涉及数据处理领域，尤其是一种数据聚合处理方法、装置、设备及存储介质。
技术介绍
随着互联网技术的迅速发展，引发了数据呈现爆炸式增长态势，数据已成为一种重要的战略资源，相应的数据处理技术和数据处理服务也得以迅速发展。相关技术中，在利用大数据提供决策支持时，使用大规模的计算资源和复杂的计算逻辑，进行海量数据的聚合处理工作。然而，大规模的计算资源需要消耗很高的运行成本和维护成本，数据聚合工作成本消耗高；同时使用大规模的计算资源和复杂的计算逻辑进行数据聚合处理，存在运算效率低、专业性要求高的问题。
技术实现思路
本申请实施例提供一种数据聚合处理方法、装置、设备及存储介质，用于解决现有数据聚合方法存在的运算资源消耗高、运算效率低的问题。第一方面，本申请提供了一种数据聚合处理方法，包括：获取待聚合处理的原始数据，并将所述原始数据划分为至少一个第一数据集合；确定所述至少一个第一数据集合中的每一个第一数据集合是否具有对应的历史聚合记录；若所述至少一个第一数据集合中存在至少一个具有历史聚合记录的第二数据集合，获取每一个所述第二数据集合对应的历史聚合结果，得到至少一个第一聚合结果；对每一个不具有历史聚合记录的第三数据集合进行聚合处理，得到至少一个第二聚合结果；根据所述至少一个第一聚合结果和所述至少一个第二聚合结果，确定所述原始数据的第三聚合结果，并根据所述第三聚合结果确定所述原始数据的数据标签。>将待聚合处理的原始数据划分为至少一个第一数据集合，分别确定每一个第一数据集合的数据聚合结果，有利于有效提高数据聚合的聚合效率；确定具有历史聚合记录的第二数据集合，并不对已被聚合处理过的第二数据集合再次进行聚合处理，而是直接获取第二数据集合的历史聚合结果，有利于提高数据聚合结果的复用性，有利于降低数据聚合的资源消耗，和提高数据聚合的处理效率。进一步地，将所述原始数据划分为至少一个第一数据集合，包括：建立与所述原始数据对应的第一计划树，所述第一计划树中包括至少一个第一连接节点和至少一个第一聚合节点，所述第一计划树的一个叶节点构成一个所述第一聚合节点，一个所述第一聚合节点所表征的数据构成一个所述第一数据集合。建立与原始数据对应的第一计划树，有利于提高数据聚合结果的复用性，提高数据聚合运算的开发效率。进一步地，建立与所述原始数据对应的第一计划树，包括：获取用户指定的对所述原始数据进行分批次聚合处理中的每一次聚合处理的数据量度，构成所述至少一个第一数据集合中的每一个第一数据集合的数据量度阈值；根据每一个所述第一数据集合的所述数据量度阈值，确定所述第一计划树的节点层数和所述至少一个第一聚合节点；根据所述节点层数和所述至少一个第一聚合节点，建立所述第一计划树。根据获取的用户指定的单次数据聚合处理的数据量度，确定原始数据对应的第一计划树，单次数据聚合处理的数据量度满足用户的数据处理要求，有利于提高数据聚合处理的处理效率。进一步地，确定所述至少一个第一数据集合中的每一个第一数据集合是否具有对应的历史聚合记录，包括：根据预设的文件路径，确定是否存在与所述至少一个第一聚合节点中的每一个第一聚合节点对应的文件记录；确定存在所述文件记录的第一聚合节点具有对应的历史聚合记录，得到所述第一计划树的至少一个具有历史聚合记录的第二聚合节点，一个所述第二聚合节点所表征的数据构成一个所述第二数据集合。在第一计划树中确定具有聚合记录文件的第二聚合节点，并确定第二聚合节点所表征的数据已被聚合处理过，运算逻辑简单，专业要求低，有利于降低数据聚合的成本消耗。进一步地，对每一个不具有历史聚合记录的第三数据集合进行聚合处理，得到至少一个第二聚合结果，包括：根据所述第一计划树的至少一个第二聚合节点，对所述第一计划树进行剪枝处理，得到第二计划树；根据所述第二计划树，对所述至少一个第三数据集合中的每一个第三数据集合进行聚合处理，得到至少一个第二聚合结果。根据第一计划树中的每一个第二聚合节点，对第一计划树进行剪枝处理，在高效利用数据聚合结果的基础上，有效减少了数据聚合的重复性工作，降低了数据聚合的资源消耗，有利于提高数据聚合的聚合效率。进一步地，根据所述第一计划树中的至少一个第二聚合节点，对所述第一计划树进行剪枝处理，得到第二计划树，包括：根据每一个所述第二聚合节点对应的文件记录和根据所述第一计划树的所述至少一个第一连接节点，在所述文件记录中确定与每一个所述第二聚合节点对应的最高层次的第一连接节点，得到所述至少一个第二聚合节点对应的至少一个第二连接节点；在所述第一计划树中，删除所述至少一个第二连接节点中的每一个第二连接节点对应的子节点分枝，得到所述第二计划树。在预设的文件路径中，确定存在聚合记录文件的第二聚合节点的最高层第一连接节点，并把高层第一连接节点对应的子节点分枝进行删除处理，得到第二计划树，第二计划树中的所有聚合节点所表征的数据均为未聚合处理过的数据，聚合运算消耗减小，运算效率得以提升。第二方面，本申请提供一种数据聚合处理装置，包括：第一处理单元，用于获取待聚合处理的原始数据，并将所述原始数据划分为至少一个第一数据集合；第二处理单元，用于确定所述至少一个第一数据集合中的每一个第一数据集合是否具有对应的历史聚合记录；第三处理单元，用于若所述至少一个第一数据集合中存在至少一个具有历史聚合记录的第二数据集合，获取每一个所述第二数据集合对应的历史聚合结果，得到至少一个第一聚合结果；第四处理单元，用于对每一个不具有历史聚合记录的第三数据集合进行聚合处理，得到至少一个第二聚合结果；第五处理单元，用于根据所述至少一个第一聚合结果和所述至少一个第二聚合结果，确定所述原始数据的第三聚合结果，并根据所述第三聚合结果确定所述原始数据的数据标签。进一步地，第一处理单元，包括：第一处理子单元，用于建立与所述原始数据对应的第一计划树，所述第一计划树中包括至少一个第一连接节点和至少一个第一聚合节点，所述第一计划树的一个叶节点构成一个所述第一聚合节点，一个所述第一聚合节点所表征的数据构成一个所述第一数据集合。进一步地，第一处理子单元，包括：第一处理模块，用于获取用户指定的对所述原始数据进行分批次聚合处理中的每一次聚合处理的数据量度，构成所述至少一个第一数据集合中的每一个第一数据集合的数据量度阈值；第二处理模块，用于根据每一个所述第一数据集合的所述数据量度阈值，确定所述第一计划树的节点层数和所述至少一个第一聚合节点；第三处理模块，用于根据所述节点层数和所述至少一个第一聚合节点，建立所述第一计划树。进一步地，第二处理单元，包括：第二处理子单元，用于根据预设的文件路径，确定是否存在与所述至少一个第一聚合节点中的每一个第一聚合节点对应的文件记录；第本文档来自技高网...

【技术保护点】
1.一种数据聚合处理方法，其特征在于，包括：/n获取待聚合处理的原始数据，并将所述原始数据划分为至少一个第一数据集合；/n确定所述至少一个第一数据集合中的每一个第一数据集合是否具有对应的历史聚合记录；/n若所述至少一个第一数据集合中存在至少一个具有历史聚合记录的第二数据集合，获取每一个所述第二数据集合对应的历史聚合结果，得到至少一个第一聚合结果；/n对每一个不具有历史聚合记录的第三数据集合进行聚合处理，得到至少一个第二聚合结果；/n根据所述至少一个第一聚合结果和所述至少一个第二聚合结果，确定所述原始数据的第三聚合结果，并根据所述第三聚合结果确定所述原始数据的数据标签。/n

【技术特征摘要】
1.一种数据聚合处理方法，其特征在于，包括：
获取待聚合处理的原始数据，并将所述原始数据划分为至少一个第一数据集合；
确定所述至少一个第一数据集合中的每一个第一数据集合是否具有对应的历史聚合记录；
若所述至少一个第一数据集合中存在至少一个具有历史聚合记录的第二数据集合，获取每一个所述第二数据集合对应的历史聚合结果，得到至少一个第一聚合结果；
对每一个不具有历史聚合记录的第三数据集合进行聚合处理，得到至少一个第二聚合结果；
根据所述至少一个第一聚合结果和所述至少一个第二聚合结果，确定所述原始数据的第三聚合结果，并根据所述第三聚合结果确定所述原始数据的数据标签。

2.根据权利要求1所述的方法，其特征在于，将所述原始数据划分为至少一个第一数据集合，包括：
建立与所述原始数据对应的第一计划树，所述第一计划树中包括至少一个第一连接节点和至少一个第一聚合节点，所述第一计划树的一个叶节点构成一个所述第一聚合节点，一个所述第一聚合节点所表征的数据构成一个所述第一数据集合。

3.根据权利要求2所述的方法，其特征在于，建立与所述原始数据对应的第一计划树，包括：
获取用户指定的对所述原始数据进行分批次聚合处理中的每一次聚合处理的数据量度，构成所述至少一个第一数据集合中的每一个第一数据集合的数据量度阈值；
根据每一个所述第一数据集合的所述数据量度阈值，确定所述第一计划树的节点层数和所述至少一个第一聚合节点；
根据所述节点层数和所述至少一个第一聚合节点，建立所述第一计划树。

4.根据权利要求2所述的方法，其特征在于，确定所述至少一个第一数据集合中的每一个第一数据集合是否具有对应的历史聚合记录，包括：
根据预设的文件路径，确定是否存在与所述至少一个第一聚合节点中的每一个第一聚合节点对应的文件记录；
确定存在所述文件记录的第一聚合节点具有对应的历史聚合记录，得到所述第一计划树的至少一个具有历史聚合记录的第二聚合节点，一个所述第二聚合节点所表征的数据构成一个所述第二数据集合。

5.根据权利要求4所述的方法，其特征在于，对每一个不具有历史聚合记录的第三数据集合进行聚合处理，得到至少一个第二聚合结果，包括：
根据所述第一计划树的至少一个第二聚合节点，对所述第一计划树进行剪枝处理，得到第二计划树；
根据所述第二计划树，对所述至少一个第三数据集合中的每一个第三数据集合进行聚合处理，得到至少一个第二聚合结果。

6.根据权利要求5所述的方法，其特征在于，根据所述第一计划树中的至少一个第二聚合节点，对所述第一计划树进行剪枝处理，得到第二计划树，包括：
根据每一个所述第二聚合节点对应的文件记录和根据所述第一计划树的所述至少一个第一连接节点，在所述文件记录中确定与每一个所述第二聚合节点对应的最高层次的第一连接节点，得到所述至少一个第二聚合节点对应的至少一个第二连接节点；
在所述第一计划树中，删除所述至少一个第二连接节点中的每一个第二连接节点对应的子节点分枝，得到所述第二计划树。

7.一种数据聚合处理装置，其特征在于，包括：
第一处理单元，用于获取待聚合处理的原始数据，并将所述原始数据划分为至少一个第一数据集合；
第二处理单元，用于确定所述至少一个第一数据集合中的每一个第一数据集合是否具有对应的历...

【专利技术属性】
技术研发人员：李岩岩，段建国，熊辉，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人