一种基于客服营销场景下的数据挖掘方法及装置制造方法及图纸

技术编号:31170818 阅读:10 留言:0更新日期:2021-12-04 13:33
本发明专利技术公开一种基于客服营销场景下的数据挖掘方法及装置。该方法包括获取客服营销场景下的原始数据中所有与业务逻辑相关或潜在相关的目标字段,对目标字段进行数据预处理、数据降维以及字段间相关性计算,通过决策树分类器构建数据模型,选取最优树算法进行树图输出,抽取树图中显著正向分类的分支和显著负向分类的分支,进行符合业务逻辑的梳理后生成规则;将生成的规则进行整合,梳理和筛选,部署上线同时对每个客户的命中情况进行记录;获取客服营销场景下的新数据,并根据新数据进行数据模型迭代以及规则新增;本发明专利技术得到的基于客服营销场景下的规则更加细化且覆盖多维度,更加客观,简便快捷,可解释性强。可解释性强。可解释性强。

【技术实现步骤摘要】
一种基于客服营销场景下的数据挖掘方法及装置


[0001]本专利技术涉及计算机
,尤其涉及一种基于客服营销场景下的数据挖掘方法及装置。

技术介绍

[0002]当前,在很多面向C端客户的大群体业务行业中,传统业务人员单纯根据经验得到的营销分类规则已无法满足当前成指数级增量的数据及业务升级需要。基于业务人员经验的营销分类规则不具备科学性、合理性、全局性以及时效性等数据化的特点。基于此原因,面向普通消费群体的行业开始了一轮又一轮的产业升级。大数据、云计算、AI技术开始替代人类经验,为业务决策赋能。但与此同时,由于当前AI领域发展尚不完全,人们对于机器分类的信任度也还处于初级水平,因此很多场景的客户会希望有更多可解释性强、人类可理解的现象以及营销分类规则能运用生产。当前大量工业化的机器学习的算法技术,以及深度学习为主的AI算法,这些技术的使用原理和分类聚类过程,以业务人员的知识背景是难以理解的。
[0003]同时,支持向量机(英文:Support Vector Machine,,简称:SVM)、随机森林、XGboost、LightGBM等虽然都是基于决策树算法的扩展算法,但在工业生产中,根据不同的迭代策略,增加训练深度、广度、速度,经过n次迭代后就失去了人类可解释的业务意义,因此会让非AI领域的业务人员产生不安全感,尤其当实际预测准确率不足且达到某些瓶颈的情况下,会失去对机器学习的信任。另一方面,很多机器学习需要一个大体量级别的数据才能获得可靠表现。对于上述客服营销场景下的特定需求,如何在传统业务经验和AI智能决策系统之间找到一种合适的方案,来总结实际生产规则,作为一定的补充手段,成为业内亟待解决的问题。

技术实现思路

[0004]本专利技术的目的在于提供一种基于客服营销场景下的数据挖掘方法及装置,得到的基于客服营销场景下的规则更加细化且覆盖多维度,更加客观,简便快捷,可解释性强。
[0005]第一方面,本专利技术提供一种基于客服营销场景下的数据挖掘方法,包括:获取客服营销场景下的原始数据中所有与业务逻辑相关或潜在相关的目标字段;对所述目标字段进行数据预处理;根据主成分分析法,对数据预处理后的目标字段进行数据降维以及字段间相关性计算;基于数据降维以及字段间相关性计算的结果,通过决策树分类器构建数据模型,并对数据模型进行训练、测试以及调优;根据所述数据模型,选取最优树算法进行树图输出;抽取树图中显著正向分类的分支和显著负向分类的分支,进行符合业务逻辑的梳理后生成规则;
将生成的所述规则进行整合,并根据业务实际逻辑对整合后的规则进行梳理和筛选;将梳理和筛选后的规则部署上线,同时对每个客户的命中情况进行记录,以用于后续数据模型预测结果的追踪;获取客服营销场景下的新数据,并根据所述新数据进行数据模型迭代以及规则新增。
[0006]进一步地,对所述目标字段进行数据预处理包括:剔除极值和异常值,其中,根据目标字段分布情况,将预设分布范围之外的极值和异常值剔除。
[0007]进一步地,对所述目标字段进行数据预处理还包括:处理缺失值,其中,如果目标字段的数据量大于预设范围,将缺失值所属的整条记录全部剔除;如果缺失值为有意义缺失,使用0替代缺失值;如果单一目标字段缺失值大于50%且为无意义缺失,则直接剔除所述目标字段。
[0008]进一步地,所述处理缺失值还包括:如果目标字段为数值型字段,且数据集中在特定区间内或符合特定变化规律,则根据中位数、众数或者平均数计算得到数值填补缺失值。
[0009]进一步地,所述处理缺失值还包括:利用模型测算缺失值得到预测值;利用所述预测值填补缺失值。
[0010]进一步地,对所述目标字段进行数据预处理还包括:根据数据意义进行目标字段的属性转换。
[0011]进一步地,对所述目标字段进行数据预处理还包括:对目标字段进行数据归一化处理。
[0012]进一步地,根据所述数据模型,选取最优树算法进行树图输出的步骤中,输出的树图包括以下输出方案:全维度集合、部分重要性贡献度头部维度集合以及数值型变量维度集合。
[0013]第二方面,本专利技术提供一种基于客服营销场景下的数据挖掘装置,包括:获取单元,用于获取客服营销场景下的原始数据中所有与业务逻辑相关或潜在相关的目标字段;处理单元,用于对所述目标字段进行数据预处理;计算单元,用于根据主成分分析法,对数据预处理后的目标字段进行数据降维以及字段间相关性计算;构建单元,用于基于数据降维以及字段间相关性计算的结果,通过决策树分类器构建数据模型,并对数据模型进行训练、测试以及调优;选取单元,用于根据所述数据模型,选取最优树算法进行树图输出;抽取单元,用于抽取树图中显著正向分类的分支和显著负向分类的分支,进行符合业务逻辑的梳理后生成规则;整合单元,用于将生成的所述规则进行整合,并根据业务实际逻辑对整合后的规则进行梳理和筛选;
上线单元,用于将梳理和筛选后的规则部署上线,同时对每个客户的命中情况进行记录,以用于后续数据模型预测结果的追踪;所述获取单元,还用于获取客服营销场景下的新数据,以根据所述新数据进行数据模型迭代以及规则新增。
[0014]本专利技术的有益效果如下:本专利技术提供一种基于客服营销场景下的数据挖掘方法及装置,相对传统经验型规则或正则匹配的统计规则,本专利技术得到的规则更加细化且覆盖多维度,而经验总结的规则往往是单一维度。本专利技术得到的结果都是基于数据产生的,而非主观判断,因此更加客观。根据需要可以产出很多的规则,也可摘取特定数量的优质规则。本专利技术相对简便快捷,且算法逻辑搭建简单,易复制。无需复杂的特征工程工作,减化多轮模型工作。可解释性强,方案搭建过程始终基于业务实际需要来指导流程走向;同时,对于实际生产中的分类,可以对每条数据匹配相应的规则命中情况从而解释相关分类准则。对分析模型数据量无硬性要求,对数据维度数量要求也相对较宽松。
附图说明
[0015]为了更清楚地说明本专利技术的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0016]图1为本专利技术实施例提供的基于客服营销场景下的数据挖掘方法的流程图;图2为极值和异常值示意图;图3为缺失值示意图;图4为数据意义字段属性转置前示意图;图5为数据意义字段属性转置后示意图;图6为时间型变量转化前示意图;图7为时间型变量转化后示意图;图8为归一化处理示意图;图9为回归分析法示意图;图10为ROC曲线示意图;图11为混淆矩阵示意图;图12为整体数据流向及方案过程示意图;图13为本专利技术实施例提供的基于客服营销场景下的数据挖掘装置的示意图。
具体实施方式
[0017]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术具体实施例及相应的附图对本专利技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于客服营销场景下的数据挖掘方法,其特征在于,包括:获取客服营销场景下的原始数据中所有与业务逻辑相关或潜在相关的目标字段;对所述目标字段进行数据预处理;根据主成分分析法,对数据预处理后的目标字段进行数据降维以及字段间相关性计算;基于数据降维以及字段间相关性计算的结果,通过决策树分类器构建数据模型,并对数据模型进行训练、测试以及调优;根据所述数据模型,选取最优树算法进行树图输出;抽取树图中显著正向分类的分支和显著负向分类的分支,进行符合业务逻辑的梳理后生成规则;将生成的所述规则进行整合,并根据业务实际逻辑对整合后的规则进行梳理和筛选;将梳理和筛选后的规则部署上线,同时对每个客户的命中情况进行记录,以用于后续数据模型预测结果的追踪;获取客服营销场景下的新数据,以根据所述新数据进行数据模型迭代以及规则新增。2.如权利要求1所述的方法,其特征在于,对所述目标字段进行数据预处理包括:剔除极值和异常值,其中,根据目标字段分布情况,将预设分布范围之外的极值和异常值剔除。3.如权利要求2所述的方法,其特征在于,对所述目标字段进行数据预处理还包括:处理缺失值,其中,如果目标字段的数据量大于预设范围,将缺失值所属的整条记录全部剔除;如果缺失值为有意义缺失,使用0替代缺失值;如果单一目标字段缺失值大于50%且为无意义缺失,则直接剔除所述目标字段。4.如权利要求3所述的方法,其特征在于,所述处理缺失值还包括:如果目标字段为数值型字段,且数据集中在特定区间内或符合特定变化规律,则根据中位数、众数或者平均数计算得到数值填补缺失值。5.如权利要求4所述的方法,其特征...

【专利技术属性】
技术研发人员:邬默昝云飞纪传俊徐红陈运文纪达麒
申请(专利权)人:达而观科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1