大数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:28130772 阅读:70 留言:0更新日期:2021-04-19 11:52
本发明专利技术涉及数据处理领域,公开了大数据处理方法、装置、计算机设备及存储介质,其方法包括:获取大数据及其聚类结果;计算聚类结果的EPV值,根据EPV值和大数据的数据规模确定大数据的划分个数;根据K

【技术实现步骤摘要】
大数据处理方法、装置、计算机设备及存储介质


[0001]本专利技术涉及数据处理领域,尤其涉及一种大数据处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]大数据(bigdata)指的是无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。对于一些大型服务型企业,收集海量用户数据以形成大数据的难度较小,用户数据在一定时间内可形成数量级的增长,但用于处理大数据的计算资源成本高昂,具有较大的增长瓶颈,难以成倍增长。而且,对于一些大数据处理方法,如聚类结果的评价,由于具有较高的时间复杂度(时间复杂度为样本数的平方),计算资源即使成倍增长,仍不能满足计算需求。

技术实现思路

[0003]基于此,有必要针对上述技术问题,提供一种大数据处理方法、装置、计算机设备及存储介质,以解决大数据进行聚类结果评价时,大量占用计算资源的问题,提高数据处理速度,减少数据出错。
[0004]一种大数据处理方法,包括:
[0005]获取大数据及其聚类结果;
[0006]计算所述聚类结果的EPV值,根据所述EPV值和所述大数据的数据规模确定所述大数据的划分个数;
[0007]根据K

Fold方法和所述聚类结果将所述大数据划分为若干个数据块,所述数据块的个数为所述划分个数;
[0008]计算各个所述数据块的聚类结果的评价数据;
[0009]根据所述数据块的聚类结果的评价数据确定所述大数据的聚类结果的评价数据。
[0010]一种大数据处理装置,包括:
[0011]获取模块,用于获取大数据及其聚类结果;
[0012]确定划分个数模块,用于计算所述聚类结果的EPV值,根据所述EPV值和所述大数据的数据规模确定所述大数据的划分个数;
[0013]数据划分模块,用于根据K

Fold方法和所述聚类结果将所述大数据划分为若干个数据块,所述数据块的个数为所述划分个数;
[0014]分块计算模块,用于计算各个所述数据块的聚类结果的评价数据;
[0015]整体聚类评价模块,用于根据所述数据块的聚类结果的评价数据确定所述大数据的聚类结果的评价数据。
[0016]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述大数据处理方法。
[0017]一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述大数据处理方法。
[0018]上述大数据处理方法、装置、计算机设备及存储介质,通过获取大数据及其聚类结果,以获得待评价的数据。计算所述聚类结果的EPV值,根据所述EPV值和所述大数据的数据规模确定所述大数据的划分个数,以确定最佳的划分个数。根据K

Fold方法和所述聚类结果将所述大数据划分为若干个数据块,所述数据块的个数为所述划分个数,以完成大数据的划分,减少数据规模,大幅降低计算量。计算各个所述数据块的聚类结果的评价数据,以完成数据块的评价,评价的数据量大幅降低。根据所述数据块的聚类结果的评价数据确定所述大数据的聚类结果的评价数据,以获得最终的评价结果。本专利技术在大数据进行聚类结果评价时,解决原数据处理方法大量占用计算资源的问题,提高了大数据的处理速度,减少数据处理量,减少数据出错。
附图说明
[0019]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本专利技术一实施例中大数据处理方法的一应用环境示意图;
[0021]图2是本专利技术一实施例中大数据处理方法的一流程示意图;
[0022]图3是本专利技术一实施例中大数据处理装置的一结构示意图;
[0023]图4是本专利技术一实施例中计算机设备的一示意图。
具体实施方式
[0024]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0025]本实施例提供的大数据处理方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0026]在一实施例中,如图2所示,提供一种大数据处理方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
[0027]S10、获取大数据及其聚类结果。
[0028]可理解,大数据指的是具有一定规模的数据集。大数据包含大量的样本。例如,大数据的样本数量可以大于或等于106,。在一些示例中,大数据可以是各种类型的用户数据,如可以是旅游信息网站的旅客数据,新闻应用的读者数据、金融服务的投资者数据、交易平台的买方数据和卖方数据等。一般情况下,每个样本包含若干特征,而且这些特征又可以分为若干个层级。例如,某样本包括基础特征、行为特征和产品特征,其中,基础特征包括年
龄、地址、收入等,行为特征包括健康页面浏览次数、科技页面浏览次数、体育页面浏览次数等,产品特征包括产品购买次数、产品购买频率、产品反馈评价等。样本的特征维度(即特征的个数)可以是数十、数百,甚至更多。在一示例中,样本的特征维度达到300。
[0029]聚类结果指的是采用聚类算法对大数据进行聚类所形成的结果。在此处,聚类算法包括但不限于K

Means聚类算法、凝聚层次聚类算法。聚类结果包括若干个类别,每个类别包括若干样本。
[0030]S20、计算所述聚类结果的EPV值,根据所述EPV值和所述大数据的数据规模确定所述大数据的划分个数。
[0031]可理解地,在一些情况下,大数据的规模过大,评价其聚类结果的难度较高,可以将大数据划分为若干个数据块,分别计算各个数据块的聚类结果的评价数据。划分个数即为数据块的个数。
[0032]EPV值是一种用于评价聚类结果的稳定性的评价指标。EPV值可以指大数据中最小类别的样本数据与特征维度的比值。当EPV值较小时,聚类结果的稳定性较差。而大数据的数据规模可以指样本数量和特征维度。
[0033]在大数据的数据规模较大时,增加划分个数可以减少数据块的数据规模,降低聚类结果的评价难度,但需要保证有足够高的EPV值。
[0034]S30、根据K

Fold方法和所述聚类结果将所述大数据划分为若干个数据块,所述数据块的个数为所述划分个数。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大数据处理方法,其特征在于,包括:获取大数据及其聚类结果;计算所述聚类结果的EPV值,根据所述EPV值和所述大数据的数据规模确定所述大数据的划分个数;根据K

Fold方法和所述聚类结果将所述大数据划分为若干个数据块,所述数据块的个数为所述划分个数;计算各个所述数据块的聚类结果的评价数据;根据所述数据块的聚类结果的评价数据确定所述大数据的聚类结果的评价数据。2.如权利要求1所述的大数据处理方法,其特征在于,所述计算所述聚类结果的EPV值,包括:通过EPV计算公式处理所述聚类结果,生成所述EPV值,所述EPV计算公式包括:其中,EPV即为EPV值,用于评价聚类结果的稳定性;为大数据中类别1的数据量,为大数据中类别2的数据量,为大数据中类别k的数据量,k为类别数,m为大数据的特征个数,min指的是取最小值。3.如权利要求1所述的大数据处理方法,其特征在于,所述根据K

Fold方法和所述聚类结果将所述大数据划分为若干个数据块,包括:获取处理所述大数据的内存资源数据;判断所述内存资源数据是否满足所述数据块的计算需求;若所述内存资源数据不满足所述数据块的计算需求,输出提醒信息。4.如权利要求1所述的大数据处理方法,其特征在于,所述划分个数大于或等于2。5.如权利要求1所述的大数据处理方法,其特征在于,当所述划分个数大于2时,所述EPV值大于10。6.如权...

【专利技术属性】
技术研发人员:赵妮蔡金成
申请(专利权)人:深圳信息职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1