一种基于粒度聚类的数据处理方法和装置制造方法及图纸

技术编号:31609611 阅读:19 留言:0更新日期:2021-12-29 18:37
本发明专利技术提供了一种基于粒度聚类的数据处理方法和装置。装置包括:数据采集模块,所述数据采集模块被配置成实时采集用户行为数据作为原始样本集;粒度处理模块,所述粒度处理模块被配置成:基于对所述原始样本集进行粗粒度化划分和密度峰值聚类来剔除噪音样本,确定原始样本类簇个数并且预估原始样本类簇中心;以及基于对所述原始样本集进行细粒度划分以及原始样本类簇中心映射来确定新样本集和新类簇中心;数据聚类模块,所述数据聚类模块被配置成基于所确定的新样本集和新类簇中心来进行聚类;以及数据推送模块,所述数据推送模块被配置成基于聚类结果来向与各个类簇相关联的各用户组实时推送相关数据。的各用户组实时推送相关数据。的各用户组实时推送相关数据。

【技术实现步骤摘要】
一种基于粒度聚类的数据处理方法和装置


[0001]本专利技术涉及大数据领域,更具体地,涉及基于粒度聚类的数据处理方法和装置。

技术介绍

[0002]随着IPTV技术的高速发展,人们在收看IPTV节目时接收到的信息量猛增,对节目内容的选择也提出了更高的要求,目前存在一些基于数据挖掘和机器学习的数据处理方法,但面对不断增长的海量用户行为数据,这些方法处理时间长,处理效率低,如何实现大数据场景下的实时精准推送成为亟待解决的问题。
[0003]为了对海量数据进行处理,需要进行聚类,在传统的K

means聚类方法中,K值对最终结果的影响至关重要,需要先验知识给定合适的K值,凭空估计导致聚类效果很差。随机选取K个样本作为簇的中心,其中心簇的初值敏感,选择不同的初始值可能导致不同的簇划分规则以及收敛速度慢。此外,K

means算法在迭代的过程中使用所有点的均值作为新的中心点,如果簇中存在异常点,将导致均值偏差比较严重。
[0004]中国专利申请“一种基于密度峰值的网格聚类算法”(CN201710502536.7)中提出了一种基于密度峰值的网格聚类算法,然而其中K值无法快速确定且对噪音敏感。
[0005]中国专利申请“一种基于网格的密度峰值聚类方法及系统”(CN201610515319.7)中提出了一种基于网格的密度峰值聚类方法,然而其中无法快速找到合适K值,并且无法预估初始化类簇中心。
[0006]因此,为了在大数据场景下快速去除噪音,提高聚类精度并且大大提高聚类速度,希望提供一种改进的数据处理方法。

技术实现思路

[0007]提供本
技术实现思路
以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本
技术实现思路
并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
[0008]本专利技术提出了一种基于粒度聚类的数据处理方法和装置。该方法可根据用户行为数据快速生成用户分组标签,并针对不同用户组实时推送感兴趣的内容。相比传统的数据处理方法,大大提高了处理的速度和精度。更具体地,本专利技术的方法首先使用网格划分对原始样本集进行粗粒化,通过密度峰值聚类方式,剔除噪音样本,快速确定K值及预估原始样本类簇中心。接着,对原始样本集进行细粒度化,并将先前预估的类簇中心映射至细粒度空间中,最后,对细粒度化转变的新样本集进行聚类。
[0009]根据本专利技术的一个方面,提供了一种基于粒度聚类的数据处理方法,所述方法包括:
[0010]实时采集用户行为数据作为原始样本集;
[0011]基于对所述原始样本集进行粗粒度化划分和密度峰值聚类来剔除噪音样本,确定原始样本类簇个数并且预估原始样本类簇中心;
[0012]基于对所述原始样本集进行细粒度划分以及原始样本类簇中心映射来确定新样本集和新类簇中心;
[0013]基于所确定的新样本集和新类簇中心来进行聚类;以及
[0014]基于聚类结果来向与各个类簇相关联的各用户组实时推送相关数据。
[0015]根据本专利技术的一个实施例,对所述原始样本集进行粗粒度化划分和密度峰值聚类进一步包括:
[0016]确定经粗粒度化的网格空间中含有原始样本的网格单元的集合;以及
[0017]确定所述网格单元的集合中的各个网格单元的密度ρ
i
和相对距离δ
i
以进行密度峰值聚类,其中所述密度ρ
i
为所述网格单元中的样本点个数,ρ
i
=|x
3i
|,所述相对距离δ
i
为所述网格单元与其他网格单元的相对距离,其中d
ij
表示网格单元x
3i
和x
3j
的曼哈顿距离,d
ij
=|x
3i(1)

x
3j(1)
|+|x
3i(2)

x
3j(2)
|+

+|x
3i(T)

x
3j(T)
|。
[0018]根据本专利技术的进一步实施例,所述密度峰值聚类进一步包括:
[0019]将所述网格单元的集合中的相对距离δ
i
较大但密度ρ
i
较小的网格单元看作异常网格单元并剔除;
[0020]选择所述网格单元的集合中的适合的相对距离δ
i
较大且密度ρ
i
较大的网格单元作为中心网格单元;以及
[0021]确定各个中心网格单元中原始样本点的均值以得到原始样本类簇中心。
[0022]根据本专利技术的进一步实施例,所述原始样本类簇中心映射进一步包括:
[0023]通过将剔除噪音样本后的原始样本集和所预估的原始样本类簇中心映射至细粒度空间中来确定新样本集和新类簇中心。
[0024]根据本专利技术的进一步实施例,基于所确定的新样本集和新类簇中心来进行聚类进一步包括:
[0025]根据所述新样本集中每个样本以及所预估的K个新类簇中心进行K

means聚类,使得每个样本至其最近的类簇中心的距离平方和最小。
[0026]根据本专利技术的另一方面,提供了一种基于粒度聚类的数据处理装置,所述装置包括:
[0027]数据采集模块,所述数据采集模块被配置成实时采集用户行为数据作为原始样本集;
[0028]粒度处理模块,所述粒度处理模块被配置成:
[0029]基于对所述原始样本集进行粗粒度化划分和密度峰值聚类来剔除噪音样本,确定原始样本类簇个数并且预估原始样本类簇中心;以及
[0030]基于对所述原始样本集进行细粒度划分以及原始样本类簇中心映射
[0031]来确定新样本集和新类簇中心;
[0032]数据聚类模块,所述数据聚类模块被配置成基于所确定的新样本集和新类簇中心来进行聚类;以及
[0033]数据推送模块,所述数据推送模块被配置成基于聚类结果来向与各个类簇相关联
的各用户组实时推送相关数据。
[0034]根据本专利技术的一个实施例,对所述原始样本集进行粗粒度化划分和密度峰值聚类进一步包括:
[0035]确定经粗粒度化的网格空间中含有原始样本的网格单元的集合;以及
[0036]确定所述网格单元的集合中的各个网格单元的密度ρ
i
和相对距离δ
i
以进行密度峰值聚类,其中所述密度ρ
i
为所述网格单元中的样本点个数,ρ
i
=|x
3i
|,所述相对距离δ
i
为所述网格单元与其他网格单元的相对距离,其中d
ij
表示网格单元x
3i
和x
3j
的曼哈顿距离,d
ij
=|x
3i(1)

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于粒度聚类的数据处理方法,其特征在于,所述方法包括:实时采集用户行为数据作为原始样本集;基于对所述原始样本集进行粗粒度化划分和密度峰值聚类来剔除噪音样本,确定原始样本类簇个数并且预估原始样本类簇中心;基于对所述原始样本集进行细粒度划分以及原始样本类簇中心映射来确定新样本集和新类簇中心;基于所确定的新样本集和新类簇中心来进行聚类;以及基于聚类结果来向与各个类簇相关联的各用户组实时推送相关数据。2.如权利要求1所述的方法,其特征在于,对所述原始样本集进行粗粒度化划分和密度峰值聚类进一步包括:确定经粗粒度化的网格空间中含有原始样本的网格单元的集合;以及确定所述网格单元的集合中的各个网格单元的密度ρ
i
和相对距离δ
i
以进行密度峰值聚类,其中所述密度ρ
i
为所述网格单元中的样本点个数,ρ
i
=|x
3i
|,所述相对距离δ
i
为所述网格单元与其他网格单元的相对距离,其中d
ij
表示网格单元x
3i
和x
3j
的曼哈顿距离,d
ij
=|x
3i(1)

x
3j(1)
|+|x
3i(2)

x
3j(2)
|+

+|x
3i(T)

x
3j(T)
|。3.如权利要求2所述的方法,其特征在于,所述密度峰值聚类进一步包括:将所述网格单元的集合中的相对距离δ
i
较大但密度ρ
i
较小的网格单元看作异常网格单元并剔除;选择所述网格单元的集合中的适合的相对距离δ
i
较大且密度ρ
i
较大的网格单元作为中心网格单元;以及确定各个中心网格单元中原始样本点的均值以得到原始样本类簇中心。4.如权利要求1所述的方法,其特征在于,所述原始样本类簇中心映射进一步包括:通过将剔除噪音样本后的原始样本集和所预估的原始样本类簇中心映射至细粒度空间中来确定新样本集和新类簇中心。5.如权利要求1所述的方法,其特征在于,基于所确定的新样本集和新类簇中心来进行聚类进一步包括:根据所述新样本集中每个样本以及所预估的K个新类簇中心进行K

means聚类,使得每个样本至其最近的类簇中心的距离平方和最小。6.一种基于粒度聚类的数据处理装置,其特征在于,所述装置包括:数据采集模块,所述数据采集模块被...

【专利技术属性】
技术研发人员:吕超张继东沈志平李金珅姜承祥
申请(专利权)人:天翼智慧家庭科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1