【技术实现步骤摘要】
数据处理方法、装置和计算机可读存储介质
本专利技术涉及数据处理领域,特别涉及一种数据处理方法、装置和计算机可读存储介质。
技术介绍
电信行业有大量的由运营商及合作厂商开发的行业应用。在客户使用这些应用时,运营商或厂商可以得到客户的移动DPI(DeepPacketInspection,深度包检测)原始数据。借助于这些行业应用,通过分析每个应用所对应的URL(UniformResourceLocator,统一资源定位符)及相关字段,可以从用户及产品两个角度对应用访问流量、新增用户量、活跃用户、应用访问深度、模块访问频率、应用访问时长、应用使用终端等指标进行分析,为企业客户管理部门进行决策提供参考数据。在进行大数据分析过程中,随着客户数量的增长,需要及时更新最新的DPI数据所对应的分析结果。
技术实现思路
专利技术人认识到,由于DPI数据呈爆炸式的增长,如果每次分析都对所有DPI数据进行清洗、分析,将给数据挖掘及数据分析所需的后台计算带来巨大的负担,导致数据处理的效率较低。本专利技术实施例所要解决的一个技术问题是:如何提高数据处理的效率。根据本专利技术一些实施例的第一个方面,提供一种数据处理方法,包括:根据新数据集中的边界数据将新数据集划分为若干文件块,其中,新数据集中的边界数据为原数据集中的文件块的边界数据;将新数据集中的文件块与原数据集中最相似的文件块进行比较,获得变更的数据;对变更的数据进行数据分析,更新原数据集的数据分析结果。在一些实施例中,根据新数据集中的边界数 ...
【技术保护点】
1.一种数据处理方法,包括:/n根据新数据集中的边界数据将新数据集划分为若干文件块,其中,所述新数据集中的边界数据为原数据集中的文件块的边界数据;/n将新数据集中的文件块与原数据集中最相似的文件块进行比较,获得变更的数据;/n对变更的数据进行数据分析,更新原数据集的数据分析结果。/n
【技术特征摘要】
1.一种数据处理方法,包括:
根据新数据集中的边界数据将新数据集划分为若干文件块,其中,所述新数据集中的边界数据为原数据集中的文件块的边界数据;
将新数据集中的文件块与原数据集中最相似的文件块进行比较,获得变更的数据;
对变更的数据进行数据分析,更新原数据集的数据分析结果。
2.根据权利要求1所述的数据处理方法,其中,所述根据新数据集中的边界数据将新数据集划分为若干文件块包括:
初始化新的文件块,所述新的文件块为空;
将新数据集中未读取的数据逐条读取到所述文件块中,并进行边界数据判断;
响应于读取到所述空文件块中的数据为边界数据,结束所述文件块的数据读取。
3.根据权利要求2所述的数据处理方法,其中,所述进行边界数据判断包括:
判断读取到所述文件块中的数据的指纹是否位于原数据集中的文件块的边界数据的指纹集合中。
4.根据权利要求1所述的数据处理方法,其中,
多个Map任务中的每个Map任务根据新数据集中的边界数据,将新数据集中每个Map任务对应的数据划分为若干文件块;
Reduce任务汇总新数据集中的文件块;
Reduce任务将新数据集中的文件块与原数据集中最相似的文件块进行比较,获得变更的数据;
Reduce任务对变更的数据进行数据分析,获得数据分析结果。
5.根据权利要求1所述的数据处理方法,其中,所述对变更的数据进行数据分析,更新原数据集的数据分析结果包括:
根据变更的数据在新增数据簇和/或原数据簇中的类型,调整原数据簇中的数据,其中,新增数据簇为变更的数据中的新增数据集包括的数据簇,原数据簇为原数据集包括的数据簇。
6.根据权利要求5所述的数据处理方法,其中,所述根据变更的数据在新增数据簇和/或原数据簇中的类型,调整原数据簇中的数据包括:
在变更的数据中的一条删除数据是原数据簇中的核心点,并且所述一条删除数据的邻域内的所有原数据集中的核心点属于同一个原数据簇的情况下,分割所述同一个原数据簇;
从原数据集中删除所述一条删除数据。
7.根据权利要求5所述的数据处理方法,其中,所述根据变更的数据在新增数据簇和/或原数据簇中的类型,调整原数据簇中的数据包括:
根据新增数据集中数据的分布密度,将新增数据集划分为多个新增数据簇;
如果一条新增数据为新增数据簇的离群点,将所述一条新增数据作为离群点添加到原数据簇中;
如果一条新增数据为新增数据簇的核心点,在所述一条新增数据的邻域内的所有原数据集中的核心点属于多个原数据簇的情况下,合并所述多个原数据簇;将所述一条新增数据添加到所述邻域内的所有原数据集中的核心点所属的原数据簇中;
如果一条新增数据为新增数据簇的边界点,将所述一条新增数据归并到所述一条新增数据邻域内距离最近的原数据集中的核心点所在的原数据簇中。
8.根据权利要求7所述的数据处理方法,其中,所述根据新增数据集中数据的分布密度,将新增数据集划分为多个新增数据簇包括:
对于新增数据集中数据的每个维度,根据数据在每个维度上的分布密度,确定每个维度上的一个或多个划分值;
根据所有维度上的划分值,将新数据集划分为多个分区;
对每个分区内的数据进行聚类,生成多个新增数据簇;
将属于不同分区且符合基于密度的合并条件的新增数据簇进行合并。
9.根据权利要求8所述的数据处理方法,其中,所述根据数据在每个维度上的分布密度,确定每个维度上的一个或多个划分值包括:
统计数据在每个维度上每个单位区间的分布数量;
将同一维度上所述分布数量或分布数量的排名低于预设值、并且与相邻单位区间的分布数量的差距大于预设值的单位区间确定为划分区间;
将划分区间中的一个数值确定为划分值。
10.根据权利要求8所述的数据处理方法,其中,所述合并条件包括存在共享边界对象,共享边界对象是指与属于不同分区的每个新增数据簇中至少一个核心点均密度可达的数据。...
【专利技术属性】
技术研发人员:张祎轶,宋淑杰,刘晓佳,严燕青,姜思佳,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。