一种基于决策树算法的供电服务满意度影响因素识别方法技术

技术编号：23892347 阅读：28 留言：0更新日期：2020-04-22 06:59

本发明专利技术公开了一种基于决策树算法的供电服务满意度影响因素识别方法，该方法包括导入需要的函数库，通过USDUW函数构建决策树，将算法标记为决策点；构建决策树时，根据给定的样本数据集选择某个特征值作为树的节点，在数据集中，计算出该数据中的信息熵；确定决策树的决策点数量，将决策点概率及损益值标于概率枝上；在决策树选择决策特征时，应选择基尼指数增益值最大的特征，作为该节点分裂条件。本发明专利技术条理清晰，程序严谨，定量、定性分析相结合，利用模糊决策树分析法分析了电力客户的满意度，通过建立规则，可以清楚地知道哪些情况下电力客户对电力服务满意，从而为今后改进服务，提高电力客户满意度提供了条件。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于决策树算法的供电服务满意度影响因素识别方法
本专利技术涉及供电服务满意度评估
，尤其涉及一种基于决策树算法的供电服务满意度影响因素识别方法。
技术介绍
随着互联网、大数据、云计算等信息技术飞速发展，大部分信息已经由纸质载体过渡到电子载体，而在这些信息中，大部分是非结构化或半结构化的文本信息。如何有效管理、挖掘、分析海量非结构化数据中蕴藏的信息，已成为大数据领域的重挑战。在非结构化数据中，文本数据占据重要地位。对于拥有大量文本数据的企业，如何有效的利用这部分数据资源决定着企业将来的发展。在电力行业客服中心的数据中，如何对工单数据进行处理，从而精准的识别工单中客户的诉求，甚至挖掘隐含诉求同时及时的发现新增突增诉求，这对提升服务的质量及客户的满意程度至关重要。传统电力行业供电服务满意度评估体系大多通过理论法与专家法进行构建，体系适用周期存在局限性，需要定期进行体系优化重建，在实际应用过程中大多依赖人为的主观评判原则，不同人员进行评估的结果差异较大，评估工作耗时较长。本专利技术通过建立一种可迭代的决策数据评估模型，基于开放服务满意度评估体系构建了一种理论完善的客户满意度评估方法，通过标准化的算法模型实现评估指数自动计算，大大提高了客户满意度的评估准确性与合理性。
技术实现思路
为克服相关技术中存在的问题，本专利技术实施例提供一种基于决策树算法的供电服务满意度影响因素识别方法，解决了在实际应用过程中大多依赖人为的主观评判原则，不同人员进行评估的结果差异较大，评估工作耗时较长的问题。r>本专利技术实施例提供一种基于决策树算法的供电服务满意度影响因素识别方法，包括以下步骤：导入需要的函数库，通过rpart函数构建决策树，将算法标记为决策点；构建决策树时，根据给定的样本数据集选择某个特征值作为树的节点，在数据集中，计算出该数据中的信息熵；确定决策树的决策点数量，将决策点概率及损益值标于概率枝上；在决策树选择决策特征时，应选择基尼指数增益值最大的特征，作为该节点分裂条件；计算各个决策点的期望值并将其标于该决策点对应的状态结点上；比较各个决策点的期望值，并标于方案枝上，将期望值小的的期望值去掉，得出最后的方案为最佳方案。进一步地，所述作用前的信息熵计算公式为：其中D表示训练数据集，c表示数据类别数，Pi表示类别i样本数量占所有样本的比例，对应数据集D，选择特征A作为决策树判断节点时，在特征A作用后的信息熵的为InIo(D)，作用后的信息熵计算公式如下：其中k表示样本D被分为k个部分。进一步地，信息增益表示数据集D在特征A的作用后，其信息熵减少的值，信息熵差值计算公式如下：Gain(A)＝Info(D)-InfoA(D)，对于决策树节点最合适的特征选择，就是Gain(A)值最大的特征。进一步地，所述基尼指数计算公式如下：其中c表示数据集中类别的数量，Pi表示类别i样本数量占所有样本的比例。进一步地，选取的属性为A时，分裂后的数据集D的基尼指数的计算公式为：基尼指数差值计算公式如下：ΔGini(A)＝Gini(D)-GiniA(D)。进一步地，建立决策树模型后给出该模型的评估值，用于判断模型的优劣，评估指标包括分类准确度、召回率、虚警率和精确度，评估指标基于混淆矩阵(confusionmatrix)进行计算，其中分类准确度的计算公式如下：召回率的计算公式如下：虚警率计算公式如下：精确度计算公式如下：P：正例的样本数量，N：负例的样本数量，TP：正确预测到的正例的数量，FP：把负例预测成正例的数量，FN：把正例预测成负例的数量，TN：正确预测到的负例的数量。进一步地，所述评估方法包括保留法、随机二次抽样、交叉验证和自助法。进一步地，从供电质量、服务质量、公司形象与客户关系四个方面对电力客户满意度指标建立隶属函数体系，设D为数据集，C1(l＝1，2，…，L)为模糊分类，且令DC1为数据集D中类别为C1的模糊子集，则模糊分类的相对频率Pl可定义为：公式中M(D)为模糊集合A的基数(即所有隶属度的总和).在模糊决策树的任一结点上，模糊数据集D关于模糊分类C1(l＝1，2，…，L)的模糊熵FE(D)定义为：设在一个非叶结点上有模糊数据集D和属性集{A1，A2，…，Am}(m为属性数)，且对每个属性Ai(l≤i≤m)有ki个模糊值{Fi1，Fi2，…，Fiki}，故通过属性Ai可把数据集D划分为ki个模糊子集DFij(1≤j≤ki)，则属性Ai相对于数据集D的模糊熵FE(Ai，D)为：属性Ai相对于数据集D的模糊信息增益FG(Ai，D)为：FG(Ai，D)＝FE(D)-FE(Ai，D).，模糊ID3算法每次选择使模糊信息增益最大的属性作为生成模糊决策树的扩展属性，即选取属性Ak0，进一步地，将数据集通过支持向量分离方法进行分类：A、将数据集D作为第一个候选结点，即根结点；B、叶结点生成，当模糊决策树中结点S满足下列条件之一，则把该结点作为叶结点，并用三种叶结点标定方法之一来标定该叶结点；1、某个分类的相对频率大于或等于给定阈值β；2、所有分类的隶属度的总和小于给定阈值γ；3、没有可用的扩展属性时C、扩展属性选择，当前结点S不满足叶结点生成准则，则它是非终端结点，它的扩展属性选择过程为：对每个属性Ai(i＝1，2，…，m)，计算它们的模糊信息增益FD(Ai，D)，选择模糊信息增益最大的属性Amax，使FG(Amax，D)＝Max1≤i≤m(FG(Ai，D))，如果FG(Amax，D)≤0，则把该结点作为叶结点，并用步骤B中三种叶结点确定方法之一来标定本结点，如果信息增益FG(Amax，D)＞0，则把属性Amax作为扩展属性，把数据集D划分为kmax个子集Dj(1≤j≤kmax)，并产生相应的子结点Sj(1≤j≤kmax)，用Sj替换S，Dj替换D，从步骤B开始递归，并重复上述过程进一步地，所述第i个叶节点的置信度计算公式为：本专利技术的实施例提供的技术方案具有以下有益效果：条理清晰，程序严谨，定量、定性分析相结合，利用模糊决策树分析法分析了电力客户的满意度，通过建立规则，可以清楚地知道哪些情况下电力客户对电力服务满意，从而为今后改进服务，提高电力客户满意度提供了条件，决策树法可以简单明了地帮助企业决策层进行分析。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本专利技术的实施例，并与说明书一起用于解释本专利技术的原理。图1是本专利技术实施例中基于决策树算法的供电服务满意度影响因素识别方法的流程图。具体实施方式这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相本文档来自技高网...

【技术保护点】
1.一种基于决策树算法的供电服务满意度影响因素识别方法，其特征在于，包括以下步骤：/n导入需要的函数库，通过rpart函数构建决策树，将算法标记为决策点；/n构建决策树时，根据给定的样本数据集选择某个特征值作为树的节点，在数据集中，计算出该数据中的信息熵；/n确定决策树的决策点数量，将决策点概率及损益值标于概率枝上；/n在决策树选择决策特征时，应选择基尼指数增益值最大的特征，作为该节点分裂条件；/n计算各个决策点的期望值并将其标于该决策点对应的状态结点上；/n比较各个决策点的期望值，并标于方案枝上，将期望值小的的期望值去掉，得出最后的方案为最佳方案。/n

【技术特征摘要】
1.一种基于决策树算法的供电服务满意度影响因素识别方法，其特征在于，包括以下步骤：
导入需要的函数库，通过rpart函数构建决策树，将算法标记为决策点；
构建决策树时，根据给定的样本数据集选择某个特征值作为树的节点，在数据集中，计算出该数据中的信息熵；
确定决策树的决策点数量，将决策点概率及损益值标于概率枝上；
在决策树选择决策特征时，应选择基尼指数增益值最大的特征，作为该节点分裂条件；
计算各个决策点的期望值并将其标于该决策点对应的状态结点上；
比较各个决策点的期望值，并标于方案枝上，将期望值小的的期望值去掉，得出最后的方案为最佳方案。

2.根据权利要求1所述的基于决策树算法的供电服务满意度影响因素识别方法，其特征在于，所述作用前的信息熵计算公式为：其中D表示训练数据集，c表示数据类别数，Pi表示类别i样本数量占所有样本的比例，对应数据集D，选择特征A作为决策树判断节点时，在特征A作用后的信息熵的为Info(D)，作用后的信息熵计算公式如下：其中k表示样本D被分为k个部分。

3.根据权利要求2所述的基于决策树算法的供电服务满意度影响因素识别方法，其特征在于，信息增益表示数据集D在特征A的作用后，其信息熵减少的值，信息熵差值计算公式如下：Gain(A)＝Info(D)-InfoA(D)，对于决策树节点最合适的特征选择，就是Gain(A)值最大的特征。

4.根据权利要求1所述的基于决策树算法的供电服务满意度影响因素识别方法，其特征在于，所述基尼指数计算公式如下：其中c表示数据集中类别的数量，Pi表示类别i样本数量占所有样本的比例。

5.根据权利要求4所述的基于决策树算法的供电服务满意度影响因素识别方法，其特征在于，进一步地，选取的属性为A时，分裂后的数据集D的基尼指数的计算公式为：基尼指数差值计算公式如下：ΔGini(A)＝Gini(D)-GiniA(D)。

6.根据权利要求1所述的基于决策树算法的供电服务满意度影响因素识别方法，其特征在于，还包括，建立决策树模型后给出该模型的评估值，用于判断模型的优劣，评估指标包括分类准确度、召回率、虚警率和精确度，评估指标基于混淆矩阵(confusionmatriX)进行计算，其中分类准确度的计算公式如下：召回率的计算公式如下：虚警率计算公式如下：精确度计算公式如下：P(PositiveSample)：正例的样本数量，N(NegativeSample)：负例的样本数量，TP(TruePositive)：正确预测到的正例的数量，FP(FalsePositive)：把负例预测成正例的数量，FN(FalseNegative)：把正例预测成负例的数量，TN(TrueNegative)：...

【专利技术属性】
技术研发人员：王宗伟，赵郭燚，金鹏，汪丽，冉晶晶，
申请(专利权)人：国家电网有限公司客户服务中心，北京中电普华信息技术有限公司，北京数洋智慧科技有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人