分布式大数据的清理方法技术

技术编号：28504304 阅读：19 留言：0更新日期：2021-05-19 22:54

本申请提供了一种分布式大数据的清理方法，包括：终端获取分布式大数据的数据存储时间，将存储时间大于时间阈值的数据确定为待清理数据；终端对待清理数据的第一清理数据执行关联操作，该关联操作具体包括：查找清理数据的关联数据的数量α，终端确定数量α大于数量阈值，将该第一清理数据保留，若确定数量α小于数量阈值，将该第一清理数据清理。本申请提供的技术方案具有降低成本的优点。供的技术方案具有降低成本的优点。供的技术方案具有降低成本的优点。

全部详细技术资料下载

【技术实现步骤摘要】
分布式大数据的清理方法

[0001]本申请涉及大数据领域，具体涉及一种分布式大数据的清理方法。

技术介绍

[0002]大数据（big data），IT行业术语，是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
[0003]现有的大数据的存储量大，占用了过多的存储资源，提高了成本。

技术实现思路

[0004]本专利技术的目的在于提供分布式大数据的清理法，该技术方案能够对大数据进行分类清理，减少存储资源，降低成本。
[0005]第一方面，提供一种分布式大数据的清理方法，终端获取分布式大数据的数据存储时间，将存储时间大于时间阈值的数据确定为待清理数据；终端对待清理数据的第一清理数据执行关联操作，该关联操作具体包括：查找清理数据的关联数据的数量α，终端确定数量α大于数量阈值，将该第一清理数据保留，若确定数量α小于数量阈值，将该第一清理数据清理。
[0006]本申请提供的方法终端获取分布式大数据的数据存储时间，将存储时间大于时间阈值的数据确定为待清理数据；终端对待清理数据的第一清理数据执行关联操作，该关联操作具体包括：查找清理数据的关联数据的数量α，终端确定数量α大于数量阈值，将该第一清理数据保留，若确定数量α小于数量阈值，将该第一清理数据清理。此方案能够依据其关联数据的数量α来确定该第一清理数据是否有用，进而确定该第一清理数据是否被清理或保留。
附图说明/>[0007]为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0008]图1为本专利技术一种终端的硬件结构示意图。
[0009]图2为本专利技术提供的分布式大数据的清理方法的流程示意图。
具体实施方式
[0010]下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完
整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。
[0011]在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
[0012]下面结合本申请实施例中的附图对本申请实施例进行描述。
[0013]本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/“，表示前后关联对象是一种“或”的关系。
[0014]本申请实施例中出现的“多个”是指两个或两个以上。本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。本申请实施例中出现的“连接”是指直接连接或者间接连接等各种连接方式，以实现设备间的通信，本申请实施例对此不做任何限定。
[0015]本申请中的“| |”表示绝对值。
[0016]图1是本申请实施例提供的终端的硬件框图，包括处理器、存储器、摄像头和显示屏。多个如图1所示的终端可以组成分布式大数据系统。
[0017]参阅图2，图2提供了一种分布式大数据的清理方法，该方法可以应用在分布式大数据系统中的终端内，该终端可以为如图1所示的结构，如图2所示，该方法可以包括如下步骤：步骤S201、终端获取分布式大数据的数据存储时间，将存储时间大于时间阈值的数据确定为待清理数据；步骤S202、终端对待清理数据的第一清理数据执行关联操作，该关联操作具体包括：查找清理数据的关联数据的数量α，步骤S203、终端确定数量α大于数量阈值，将该第一清理数据保留，若确定数量α小于数量阈值，将该第一清理数据清理。
[0018]本申请提供的方法终端获取分布式大数据的数据存储时间，将存储时间大于时间阈值的数据确定为待清理数据；终端对待清理数据的第一清理数据执行关联操作，该关联操作具体包括：查找清理数据的关联数据的数量α，终端确定数量α大于数量阈值，将该第一清理数据保留，若确定数量α小于数量阈值，将该第一清理数据清理。此方案能够依据其关联数据的数量α来确定该第一清理数据是否有用，进而确定该第一清理数据是否被清理或保留。
[0019]举例来说，本申请以图片数据为例，对于分布式大数据，若该分布式大数据中与该图片数据关联图片的数量越多，则其需要保留的可能性就越大，因为对于图片来说具有一定的关联性，例如旅游的图片，在北京的照相的图片，第一清理数据对应的第一图片若存在数量很多的关联图片，那么则确定该第一图片需要被保存，反之，若该第一图片仅仅是一个孤立的图片，那么其被保留的价值则不大，这样就需要将其删除的可能性就很大，而对于分
布式大数据若与第一图片关联的不部分图片均被删除了，那么查找与第一图片的关联数据的数量α肯定会很小，因此就能够通过该数量来实现对清理数据的判断。
[0020]可选的，若该第一清理数据为图片，查找清理数据的关联数据的数量α具体可以包括：确定清理数据的第一图片，对第一图片进行识别确定是否具有人物，若具有人物，将该人物从第一图片中删除得到第一背景图片，将第一背景图片进行分类识别得到第一背景图片对应的地标信息，依据该地标信息确定该第一背景图片的第一地址，从分布式大数据存储的图片中查询与该第一地址匹配的图片，将图片的数量确定为α。
[0021]上述删除人物得到背景图片可以采用现有的方式来得到，上述分类识别的方式可以采用现有的方式，例如百度AI识别、谷歌识别等等。
[0022]还是以旅游的图片为例，以北京为例，其在旅游时获取的第一图片，比如在三里屯拍摄的第一图片，那么对人物去除以后，直接比对背景，若分布式大数据存储的图片中具有多张三里屯地址的图片，则将第一图片保留，相反，则清理（删除）。
[0023]需要说明的是，上述从分布式大数据存储的图片中查询与该第一地址匹配的图片具体可以包括：对该人物进行人脸识别确定该人物的身份，依据该身份确定该人物的常驻城市，若该常驻城市包含该第一地址，则确定与该第一地址匹配的图片为与第一地址匹配的图片，若该常驻城市不包含该第一地址，则确定该第一地址对应的第一城市，确定与该第一城市匹配的图片为与第一地址匹配的图片。
[0024]此种方案是对于在北京的人，若用城市来匹配则太大，因此降低范围，确定具体地址信息，但是对于旅游的人来说，就需要扩大到城市，例如从深圳本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种分布式大数据的清理方法，其特征在于，终端获取分布式大数据的数据存储时间，将存储时间大于时间阈值的数据确定为待清理数据；终端对待清理数据的第一清理数据执行关联操作，该关联操作具体包括：查找清理数据的关联数据的数量α，终端确定数量α大于数量阈值，将该第一清理数据保留，若确定数量α小于数量阈值，将该第一清理数据清理。2.根据权利要求1所述的方法，其特征在于，若该第一清理数据为图片，查找清理数据的关联数据的数量α具体包括：确定清理数据的第一图片，对第一图片进行识别确定是否具有人物，若具有人物，将该人物从第一图片中删除得到第一背景图片，将第一背景图片进行分类识别得到第一背景图片对应的地标信息，依据该地标信息确定该第一背景图片的第一地址，从分布式大数据存储的图片中查询与该第一地址匹配的图片，将图片的数量确定为α。3.根据权利要求2所述的方法，其特征在于，所述从分布式大数据存储的图片中查询与该第一地址匹配的图片具体包括：对该人物进行人脸识别确定该人物的身份，依据该身份确定该人物的常驻城市，若该常驻城市包含该第一地址，则确...

【专利技术属性】
技术研发人员：陈卿，徐弘，
申请(专利权)人：深圳市知小兵科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人