一种减小客户流失风险的大数据聚类算法制造技术

技术编号:18713179 阅读:110 留言:0更新日期:2018-08-21 23:01
本发明专利技术涉及减小客户流失风险的大数据聚类算法,所述方法包括以下步骤:(1)使用公理模糊集理论来选择相关的属性,用其隶属函数和逻辑运算来表达模糊概念;(2)根据计算的隶属度,自动确定减法聚类算法的邻域半径和权重系数;(3)利用减法聚类算法通过选择和更新山峰函数来计算聚类数量和质心。将减法聚类算法和公理模糊集集成为语义驱动的减法聚类方法;(4)使用K‑means算法来计算由语义驱动的减法聚类方法获得的聚类质心的聚类。基于减法聚类算法和公理模糊集的语义驱动的减法聚类方法(SDSCM),提高了减法聚类算法和K‑means的聚类精度,通过使用这种新算法降低了使用公理模糊集(AFS)进行运营管理的不精确的风险。

A large data clustering algorithm to reduce the risk of customer churn

The invention relates to a large data clustering algorithm for reducing the risk of customer churn. The method comprises the following steps: (1) using axiomatic fuzzy set theory to select related attributes and expressing fuzzy concepts with its membership functions and logical operations; (2) automatically determining the neighborhood radius and weight of the subtraction clustering algorithm according to the calculated membership degree Coefficient; (3) Subtractive clustering algorithm is used to calculate the number and centroid of clustering by selecting and updating the peak function. Subtractive clustering algorithm and axiomatic fuzzy set are integrated into Semantic-driven subtractive clustering method; (4) K_means algorithm is used to calculate the clustering centroid obtained by Semantic-driven subtractive clustering method. Semantic-driven subtractive clustering method (SDSCM) based on subtractive clustering algorithm and axiomatic fuzzy sets improves the clustering accuracy of subtractive clustering algorithm and K_means, and reduces the risk of imprecise operation management using axiomatic fuzzy sets (AFS).

【技术实现步骤摘要】
一种减小客户流失风险的大数据聚类算法
本专利技术涉及一种聚类算法,即语义减法聚类算法(SDSCM),尤其涉及一种减小客户流失风险的大数据聚类算法。
技术介绍
当前,随着市场竞争的加剧,客户流失管理成为企业竞争优势的重要手段。目前基于大数据对客户流失预测的算法很多,但都不能对客户流失进行很好地预测,决策者也不能依靠其进行精确的操作管理,缺乏一种可靠的减小客户流失风险的大数据聚类算法。本专利技术提供了一种新的方法来帮助公司更好地降低客户流失风险,从而获得更高的利润。
技术实现思路
为了解决现有技术存在的问题,本专利技术公开一种减小客户流失风险的大数据聚类算法,该算法通过有效地挖掘客户非结构化的社交数据,将电信大数据价值最大化,演绎出一个有效的大数据语义减法聚类算法。具体方案为:一种减小客户流失风险的大数据聚类算法,所述方法包括以下步骤:(1)使用公理模糊集理论来选择相关的属性,用其隶属函数和逻辑运算来表达模糊概念;(2)根据计算的隶属度,自动确定减法聚类算法的邻域半径和权重系数;(3)利用减法聚类算法通过选择和更新山峰函数来计算聚类数量和质心。将减法聚类算法和公理模糊集集成为语义驱动的减法聚类方法;(4)使用K-means算法来计算由语义驱动的减法聚类方法获得的聚类质心的聚类。进一步地,所述聚类算法具体包括如下步骤:步骤1:根据用户给出的模糊概念,用公式(1)计算其隶属度。步骤2:计算μη(xi)的绝对差的和:步骤3:选择最小值作为第一个集群质心,步骤4:计算第一个集群质心与其他数据点之间的欧几里得距离,邻域半径是影响聚类质心范围的这些距离的方差,步骤5:为了避免获得紧密的集群质心,设置权重系数,在自动确定参数后,使用SCM算法来计算聚类质心,步骤6:设l=1并计算xi的山峰函数,步骤7:选择最大的山峰函数,同时,让xi成为第一个质心步骤8:设l=l+1,根据下式更新每个数据向量的山峰函数,步骤9:选择与较大数据相关的数据作为第二质心,重复执行步骤6直到满足:其中ε是一个小于1的正常数。当比值小于ε时,停止迭代,第10步:最后输出集群质心。本专利技术与现有技术相比具有以下优点:基于减法聚类算法和公理模糊集的语义驱动的减法聚类方法(SDSCM),提高了减法聚类算法和K-means的聚类精度,通过使用这种新算法降低了使用公理模糊集(AFS)进行运营管理的不精确的风险。附图说明图1是本专利技术减小客户流失风险的大数据聚类算法的算法流程示意图。具体实施方式下面结合附图对本专利技术公开的减小客户流失风险的大数据聚类算法的具体实施方式做详细说明,而非用以限制本专利技术的范围。本专利技术涉及到以下理论:(1)公理模糊集(AxiomaticFuzzySets,AFS)。AFS理论是一种处理模糊信息的新语义方法,其本质是研究如何把蕴含在训练数据或数据库中的内在规律或模式转化到模糊集及其逻辑运算中。成员函数及其逻辑运算是由原始数据和事实而不是直觉来确定的,模仿人类感知和观察事物继而形成概念并产生逻辑的机理,从更抽象、一般的层面讨论模糊概念及其逻辑运算。AFS理论主要包含AFS代数和AFS结构两部分,AFS代数主要研究概念的逻辑运算,AFS结构则能依据数据的分布信息和模糊概念的语义自动给出模糊概念的隶属函数。(2)减法聚类算法(SubtractiveClusteringMethod,SCM)。减法聚类算法是一种密度聚类的算法。减法聚类将每一个数据点都作为一个潜在的聚类中心,之后减去已完成的聚类中心的作用,再次寻找聚类中心。我们引入减法聚类算法来计算属于无监督学习的聚类质心,并且可以基于原始数据快速确定聚类数量和质心数量。(3)K-means算法。K-means是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。因此,本专利技术用K-means算法来计算群集。注意到,如果K-means中的初始参数值不正确,聚类结果可能不准确。相反,减法聚类算法(SCM)可以根据原始数据生成更精确的输入参数,包括聚类质心和聚类数。因此,本专利技术将减法聚类算法生成的参数传递给K-means算法,以提高K-means算法的精度。K-means的算法从初始化的集群质心开始,然后将数据迭代地分配给最近的簇,重新计算簇的新质心,直到达到终止条件。本专利技术将公理模糊集(AFS)和减法聚类算法(SCM)整合后,形成了新的算法,即语义减法聚类算法(SDSCM)。过程如下:(1)使用公理模糊集(AFS)来选择相关的属性,用其隶属函数和逻辑运算来表达模糊概念。(2)根据计算的隶属度,自动确定减法聚类算法(SCM)的邻域半径和权重系数。(3)利用减法聚类算法通过选择和更新山峰函数来计算聚类数量和质心。将减法聚类算法和公理模糊集集成为语义驱动的减法聚类方法(SemanticDrivenSubtractiveClusteringMethod,SDSCM)。(4)使用K-means算法来计算由语义驱动的减法聚类方法获得的聚类质心的聚类。SDSCM算法的细节如下所示。算法中使用的符号步骤1:根据用户给出的模糊概念,用公式(1)计算其隶属度。第2步:计算μη(xi)的绝对差的和:步骤3:选择最小值作为第一个集群质心。步骤4:计算第一个集群质心与其他数据点之间的欧几里得距离。邻域半径是影响聚类质心范围的这些距离的方差。步骤5:为了避免获得紧密的集群质心,设置权重系数。在自动确定参数后,使用SCM算法来计算聚类质心。步骤6:设l=1并计算xi的山峰函数。步骤7:选择最大的山峰函数。同时,让xi成为第一个质心步骤8:设l=l+1,根据下式更新每个数据向量的山峰函数步骤9:选择与较大数据相关的数据作为第二质心,重复执行步骤6直到满足:其中ε是一个小于1的正常数。当比值小于ε时,停止迭代。第10步:最后输出集群质心。以上所述仅为本专利技术的优选实施例而已,在上述说明书的描述中提到的数值及数值范围并不用于限制本专利技术,只是为本专利技术提供优选的实施方式,并不用于限制本专利技术,对于本领域的技术人员来说,本专利技术可以有各种更改和变化。凡在本专利技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种减小客户流失风险的大数据聚类算法,所述方法包括以下步骤:(1)使用公理模糊集理论来选择相关的属性,用其隶属函数和逻辑运算来表达模糊概念;(2)根据计算的隶属度,自动确定减法聚类算法的邻域半径和权重系数;(3)利用减法聚类算法通过选择和更新山峰函数来计算聚类数量和质心。将减法聚类算法和公理模糊集集成为语义驱动的减法聚类方法;(4)使用K‑means算法来计算由语义驱动的减法聚类方法获得的聚类质心的聚类。

【技术特征摘要】
1.一种减小客户流失风险的大数据聚类算法,所述方法包括以下步骤:(1)使用公理模糊集理论来选择相关的属性,用其隶属函数和逻辑运算来表达模糊概念;(2)根据计算的隶属度,自动确定减法聚类算法的邻域半径和权重系数;(3)利用减法聚类算法通过选择和更新山峰函数来计算聚类数量和质心。将减法聚类算法和公理模糊集集成为语义驱动的减法聚类方法;(4)使用K-means算法来计算由语义驱动的减法聚类方法获得的聚类质心的聚类。2.如权利要求1所述的减小客户流失风险的大数据聚类算法,其特征在于,所述聚类算法具体包括如下步骤:步骤1:根据用户给出的模糊概念,用公式(1)计算其隶属度。步骤...

【专利技术属性】
技术研发人员:李果
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1