大数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：28130772 阅读：70 留言：0更新日期：2021-04-19 11:52

本发明专利技术涉及数据处理领域，公开了大数据处理方法、装置、计算机设备及存储介质，其方法包括：获取大数据及其聚类结果；计算聚类结果的EPV值，根据EPV值和大数据的数据规模确定大数据的划分个数；根据K

全部详细技术资料下载

【技术实现步骤摘要】
大数据处理方法、装置、计算机设备及存储介质

[0001]本专利技术涉及数据处理领域，尤其涉及一种大数据处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]大数据(bigdata)指的是无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。对于一些大型服务型企业，收集海量用户数据以形成大数据的难度较小，用户数据在一定时间内可形成数量级的增长，但用于处理大数据的计算资源成本高昂，具有较大的增长瓶颈，难以成倍增长。而且，对于一些大数据处理方法，如聚类结果的评价，由于具有较高的时间复杂度(时间复杂度为样本数的平方)，计算资源即使成倍增长，仍不能满足计算需求。

技术实现思路

[0003]基于此，有必要针对上述技术问题，提供一种大数据处理方法、装置、计算机设备及存储介质，以解决大数据进行聚类结果评价时，大量占用计算资源的问题，提高数据处理速度，减少数据出错。
[0004]一种大数据处理方法，包括：
[0005]获取大数据及其聚类结果；
[0006]计算所述聚类结果的EPV值，根据所述EPV值和所述大数据的数据规模确定所述大数据的划分个数；
[0007]根据K
‑
Fold方法和所述聚类结果将所述大数据划分为若干个数据块，所述数据块的个数为所述划分个数；
[0008]计算各个所述数据块的聚类结果的评价数据；
[0009]根据所述数据块的聚类结果的评价数据确定所述大数据的聚类结果的评价数据。
[0010]一种大数据处理装置，...

【技术保护点】

【技术特征摘要】
1.一种大数据处理方法，其特征在于，包括：获取大数据及其聚类结果；计算所述聚类结果的EPV值，根据所述EPV值和所述大数据的数据规模确定所述大数据的划分个数；根据K
‑
Fold方法和所述聚类结果将所述大数据划分为若干个数据块，所述数据块的个数为所述划分个数；计算各个所述数据块的聚类结果的评价数据；根据所述数据块的聚类结果的评价数据确定所述大数据的聚类结果的评价数据。2.如权利要求1所述的大数据处理方法，其特征在于，所述计算所述聚类结果的EPV值，包括：通过EPV计算公式处理所述聚类结果，生成所述EPV值，所述EPV计算公式包括：其中，EPV即为EPV值，用于评价聚类结果的稳定性；为大数据中类别1的数据量，为大数据中类别2的数据量，为大数据中类别k的数据量，k为类别数，m为大数据的特征个数，min指的是取最小值。3.如权利要求1所述的大数据处理方法，其特征在于，所述根据K
‑
Fold方法和所述聚类结果将所述大数据划分为若干个数据块，包括：获取处理所述大数据的内存资源数据；判断所述内存资源数据是否满足所述数据块的计算需求；若所述内存资源数据不满足所述数据块的计算需求，输出提醒信息。4.如权利要求1所述的大数据处理方法，其特征在于，所述划分个数大于或等于2。5.如权利要求1所述的大数据处理方法，其特征在于，当所述划分个数大于2时，所述EPV值大于10。6.如权...

【专利技术属性】
技术研发人员：赵妮，蔡金成，
申请(专利权)人：深圳信息职业技术学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人