【技术实现步骤摘要】
一种基于机器学习进行统计的客户开发分析系统及方法
[0001]本专利技术涉及人工智能和数据处理
,具体涉及一种基于机器学习进行统计的客户开发分析系统及方法。
技术介绍
[0002]随着互联网技术的迅猛发展和普及,带来网络信息爆炸式的增加。在信息“爆炸”时代,大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能发掘具有更强的决策力、洞察发现力和流程优化能力、海量和多样化的客户开发数据资源。传统的客户开发分析系统将海量的客户信息和客户的各类指标存储至数据库中,当需要完成某一项服务时,调取数据库中该客户的信息和该客户的各类指标,将各项指标值进行统计、分析,进而判断该客户是否具有潜在的商业价值;然而随着互联网技术的不断发展和机器学习网络框架不断更迭完善,传统的客户开发分析系统及方法不能灵活处理实时更新的客户数据和客户的各类指标,机器学习算法的引进,将历史海量的数据集进行训练,引入了改进的理想解相似排序技术客观化的描述系统内的客户各项指标的评分,进而赋予重要指标较高权重、赋予次要指标较 ...
【技术保护点】
【技术特征摘要】
1.一种基于机器学习进行统计的客户开发分析系统及方法,所述机器学习进行统计的客户开发分析系统包括数据预处理模块、特征分析模块、评价系统模块、特征选择模块以及数据训练及预测模块,所述数据预处理模块包括对客户信息的搜集、调查、统计,汇总成元组的形式,所述特征分析模块包括对客户的各类指标进行分析,将客户的指标定义为极大型指标、极小型指标、特殊值指标和区间型指标,所述评价系统模块使用了改进的理想解相似排序技术对各客户各指标正向化、标准化作为训练集,利用打分公式对每个客户的各项开发指标进行打分,以找出具有商业价值的客户;所述特征选择模块,利用Pearson相关系数,对各客户间的指标矩阵分析相似度,以找出具有潜在价值的客户,所述数据训练及预测模块,利用机器学习对客户开发指标作为输入进行训练,通过FMC聚类算法,在无监督条件下,将客户进行分类,利用改进的粒子群算法,求解出客户开发系统下最优的分类。2.根据权利要求1所述一种基于机器学习进行统计的客户开发分析系统及方法,其特征在于,所述数据预处理模块包括对客户开发指标的搜集、调查、统计,汇总成元组的形式。3.根据权利要求1所述一种基于机器学习进行统计的客户开发分析系统及方法,其特征在于,所述特征分析模块包括对客户的各类指标进行分析,利用改进的理想解相似排序技术计算每个特征下客户开发影响程度得分;假设有n个客户,记作:C={Client1,Client2,...,Client
n
},其中,C表示客户的集合,Client1表示第一个客户,Client2表示第二个客户,Client
n
表示第n个客户,统计这n个客户如需求、意向、持有资金,期望成本数据,指标不唯一,假设评价指标有m个,对于第i个客户而言,其指标可以用元组来表示:Client
i
=(index
i,1
,index
i,2
,...,index
i,m
),其中,Client
i
表示第i个客户,index
i,1
表示第i个客户第1个指标,index
i,2
表示第i个客户第2个指标,index
i,m
表示第i个客户第m个指标,将客户的指标定义为如下四种指标:(1)极大型指标;(2)极小型指标;(3)特殊值指标;(4)区间型指标。4.根据权利要求3所述一种基于机器学习进行统计的客户开发分析系统及方法,其特征在于,所述特征分析模块为了统一指标型,将上述四种类型的客户指标矩阵正向化,得到正向化指标矩阵I,记作:其中,index
1,1
是第1个客户的第1个正向化指标值,index
1,2
是第1个客户的第2个正向化指标值,index
1,m
的第1个客户是第m个正向化指标值,index
2,1
是第2个客户的第1个正向化指标值,index
2,2
是第2个客户的第2个正向化指标值,index
2,m
是第2个客户的第m个正向化指标值,index
n,1
是第n个客户的第1个正向化指标值,index
n,2
是第n个客户的第2个正向化指标值,index
n,m
是第n个客户的第m个正向化指标值,为了消除不同指标量纲的影响,将正向化矩阵标准化,其标准化公式为:其中,index
i,j
是第i个客户的第j个正向化指标值,index
1,j
是第1个客户的第j个正向化指标值,index
2,j
是第2个客户的第j个正向化指标值,index
n,j
是第n个客户的第j个正向化指标值,满足j∈[1,
m],得到的标准化矩阵记作:其中,表示第1个客户的第1个标准化指标值,表示第1个客户的第2个标准化指标值,表示第1个客户的第m个标准化指标值,表示第2个客户的第1个标准化指标值,表示第2个客户的第2个标准化指标值,表示第2个客户的第m个标准化指标值,表示第n个客户的第1个标准化指标值,表示第n个客户的第2个标准化指标值,表示第n个客户的第m个标准化指标值。5.根据权利要求1所述一种基于机器学习进行统计的客户开发分析系统及方法,其特征在于,所述评价系统模块使用了改进的理想解相似排序技术对各客户各指标正向化、标准化作为训练集,利用打分公式对每个客户进行打分,以找出具有商业价值的客户,具体步骤如下:(1)利用熵权法,计算第j个指标下第i个样本所占的比重,并将其看作相对熵计算中用到的概率,为了得到相对熵计算中用到的概率,计算概率矩阵P,其中P的每一个元素p
i,j
的计算公式如下:且其中,p
i,j
表示标准化指标值占该类总指标值的比重,表示第i个客户的第j个标准化指标值,接着计算每个指标的信息熵和信息效用值,并归一化得到每个指标的熵权;(2)对于第j个指标而言,信息熵计算公式为:(2)对于第j个指标而言,信息熵计算公式为:其中,h
j
表示第j个指标的信息熵,信息熵越大表明第j个指标的信息越少,当p
1,j
=p
2,j
=...=p
n,j
时,信息熵有最大值即h
j
=1,其中,p
1,j
表示标准化指标值占该类总指标值的比重,p
2,j
表示标准化指标值占该类总指标值的比重,p
n,j
表示标准化指标值占该类总指标值的比重;(3)记T
j
表示第j个指标的信息效用值,表达式为:T
j
=1
‑
h
j
,即信息效用值越大,信息就越多;(4)将信息效用值进行归一化,就能够得到每个指标的熵权W
j
:进而对每个指标客观化的打分;(5)计算理想解为(5)计算理想解为其中,为第一个指标熵权后的最大值,为第二个指标熵权后的最大值,为第m个指标熵权后的最大值,
·
为向量间点乘,W1为第一个指标的权值,W2为第二个指标的权值,W
m
为第m个指标的权值;(6)计算非理想解记为:
其中,为第一个指标熵权后的最小值,为第二个指标熵权后的最小值,为第m个指标熵权后的最小值;(7)定义第i个指标与理想解的距离(8)定义第i个指标与非理想解的距离(9)利用TOPSIS打分公式可以计算出第i个指标的分数:6.根据权利要求1所述一种基于机器学习进行统计的客户开发分析系统及方法,其特征在于,所述特征选择模块,利用Pearson相关系数,对各客户间的指标矩阵分析相似度,以找出具有潜在价值的客户,为了求出客户间的相似度,将矩阵向量化排列,记:其中,表示对第1个客户所有评价指标的转置,表示对第2个客户所有评价指标的转置,表示对第a个客户所有评价指标的转置,表示对第b个客户所有评价指标的转置,表示对第n个客户所有评价指标的转置,计算Pearson相关系数得到2个评价指标和间的相似度如下:其中,表示的均值,表示第a个客户第j个指标标准化的值,表示第b个客户第j个指标标准化的值,且a∈[1,n],b∈[1,n]。7.根据权利要求1所述一种基于机器学习进行统计的客户开发分析系统及方法,其特征在于,所述数据...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。