【技术实现步骤摘要】
一种基于粒度聚类的数据处理方法和装置
[0001]本专利技术涉及大数据领域,更具体地,涉及基于粒度聚类的数据处理方法和装置。
技术介绍
[0002]随着IPTV技术的高速发展,人们在收看IPTV节目时接收到的信息量猛增,对节目内容的选择也提出了更高的要求,目前存在一些基于数据挖掘和机器学习的数据处理方法,但面对不断增长的海量用户行为数据,这些方法处理时间长,处理效率低,如何实现大数据场景下的实时精准推送成为亟待解决的问题。
[0003]为了对海量数据进行处理,需要进行聚类,在传统的K
‑
means聚类方法中,K值对最终结果的影响至关重要,需要先验知识给定合适的K值,凭空估计导致聚类效果很差。随机选取K个样本作为簇的中心,其中心簇的初值敏感,选择不同的初始值可能导致不同的簇划分规则以及收敛速度慢。此外,K
‑
means算法在迭代的过程中使用所有点的均值作为新的中心点,如果簇中存在异常点,将导致均值偏差比较严重。
[0004]中国专利申请“一种基于密度峰值的网格聚类算法”(CN201710502536.7)中提出了一种基于密度峰值的网格聚类算法,然而其中K值无法快速确定且对噪音敏感。
[0005]中国专利申请“一种基于网格的密度峰值聚类方法及系统”(CN201610515319.7)中提出了一种基于网格的密度峰值聚类方法,然而其中无法快速找到合适K值,并且无法预估初始化类簇中心。
[0006]因此,为了在大数据场景下快速去除噪音,提高聚类精度并且大大提高 ...
【技术保护点】
【技术特征摘要】
1.一种基于粒度聚类的数据处理方法,其特征在于,所述方法包括:实时采集用户行为数据作为原始样本集;基于对所述原始样本集进行粗粒度化划分和密度峰值聚类来剔除噪音样本,确定原始样本类簇个数并且预估原始样本类簇中心;基于对所述原始样本集进行细粒度划分以及原始样本类簇中心映射来确定新样本集和新类簇中心;基于所确定的新样本集和新类簇中心来进行聚类;以及基于聚类结果来向与各个类簇相关联的各用户组实时推送相关数据。2.如权利要求1所述的方法,其特征在于,对所述原始样本集进行粗粒度化划分和密度峰值聚类进一步包括:确定经粗粒度化的网格空间中含有原始样本的网格单元的集合;以及确定所述网格单元的集合中的各个网格单元的密度ρ
i
和相对距离δ
i
以进行密度峰值聚类,其中所述密度ρ
i
为所述网格单元中的样本点个数,ρ
i
=|x
3i
|,所述相对距离δ
i
为所述网格单元与其他网格单元的相对距离,其中d
ij
表示网格单元x
3i
和x
3j
的曼哈顿距离,d
ij
=|x
3i(1)
‑
x
3j(1)
|+|x
3i(2)
‑
x
3j(2)
|+
…
+|x
3i(T)
‑
x
3j(T)
|。3.如权利要求2所述的方法,其特征在于,所述密度峰值聚类进一步包括:将所述网格单元的集合中的相对距离δ
i
较大但密度ρ
i
较小的网格单元看作异常网格单元并剔除;选择所述网格单元的集合中的适合的相对距离δ
i
较大且密度ρ
i
较大的网格单元作为中心网格单元;以及确定各个中心网格单元中原始样本点的均值以得到原始样本类簇中心。4.如权利要求1所述的方法,其特征在于,所述原始样本类簇中心映射进一步包括:通过将剔除噪音样本后的原始样本集和所预估的原始样本类簇中心映射至细粒度空间中来确定新样本集和新类簇中心。5.如权利要求1所述的方法,其特征在于,基于所确定的新样本集和新类簇中心来进行聚类进一步包括:根据所述新样本集中每个样本以及所预估的K个新类簇中心进行K
‑
means聚类,使得每个样本至其最近的类簇中心的距离平方和最小。6.一种基于粒度聚类的数据处理装置,其特征在于,所述装置包括:数据采集模块,所述数据采集模块被...
【专利技术属性】
技术研发人员:吕超,张继东,沈志平,李金珅,姜承祥,
申请(专利权)人:天翼智慧家庭科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。