本发明专利技术公开了一种基于数据挖掘的模型智能优化的方法、存储介质及设备,该基于数据挖掘的模型智能优化的方法包括:根据机器学习理论构建k最邻近分类模型,将数据化运营实践场景产生的历史数据输入到k最邻近分类模型中进行分类,得到分类数据集合;通过评价指标对分类结果进行再分类,得到精细分类数据集合;通过朴素贝叶斯分类法构建分类预测模型,将分类数据集合和精细分类数据集合输入到分类预测模型中,预测出历史数据属于对应分类以及评价指标的概率,以概率最高的分类和评价指标作为历史数据的分类结果。通过本发明专利技术基于数据挖掘的模型智能优化的方法能够提高预测值对数据划分分类和指标的准确度,为数据挖掘提供正确指导。指导。指导。
【技术实现步骤摘要】
基于数据挖掘的模型智能优化的方法、存储介质及设备
[0001]本专利技术涉及大数据挖掘
,具体地,涉及一种基于数据挖掘的模型智能优化的方法、存储介质及设备。
技术介绍
[0002]数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。神经网络(Neural Network)是通过数学算法来模仿人脑思维的,它是数据挖掘中机器学习的典型代表。神经网络是人脑的抽象计算模型,人脑中有数以百亿个神经元(人脑处理信息的微单元),这些神经元之间相互连接,使得人的大脑产生精密的逻辑思维。通过神经网络构建的神经模型的评价指标和评价体系是建模过程中的一个重要环节,不同类型的项目、不同类型的模型有各自的评价指标和体系。
[0003]在数据化运营实践场景中,大量的模型属于二元变量的分类模型,比如:预测用户是否响应运营活动、预测用户是否会流失、预测用户是否在最近1个月内会购买某产品等;且二元变量的分类模型相比于其他类型的模型来说有更多的评价维度和评价指标,也更为繁杂。
技术实现思路
[0004]针对现有技术中存在的问题,本专利技术提供了一种基于数据挖掘的模型智能优化的方法、存储介质及设备,能够提高预测值对数据划分分类和指标的准确度。
[0005]为实现上述技术目的,本专利技术采用如下技术方案:一种基于数据挖掘的模型智能优化的方法,具体包括如下步骤:
[0006]步骤1、根据机器学习理论构建k最邻近分类模型,将数据化运营实践场景产生的历史数据输入到k最邻近分类模型中进行分类,得到分类数据集合;
[0007]步骤2、通过评价指标对步骤1的分类结果进行再分类,得到精细分类数据集合;
[0008]步骤3、通过朴素贝叶斯分类法构建分类预测模型,将步骤1的分类数据集合和步骤2得到的精细分类数据集合输入到分类预测模型中,预测出历史数据属于对应分类以及评价指标的概率,以概率最高的分类和评价指标作为历史数据的分类结果。
[0009]进一步地,所述k最邻近分类模型的构建过程为:
[0010][0011]其中,x
i
表示第i个历史数据,k表示与未确定类别样本距离最近的样本数,w
i
表示第i个历史数据的权值,w
i
=1/d(x,x
i
)2,d(x,x
i
)表示样本x与近邻样本x
i
的距离。
[0012]进一步地,所述机器学习理论包括:TP、TN、FP、FN,所述TP表示模型预测正确的,并且实际上也是正确的观察对象的数量;所述TN表示模型预测错误的,并且实际上也是错误的观察对象的数量;所述FP表示指模型预测正确的,但是实际上是错误的观察对象的数量;
所述FN表示模型预测错误的,但是实际上正确的观察对象的数量。
[0013]进一步地,所述评价指标包括:正确率、错误率、灵敏性、特效性、精度、假正率、负元正确率、正元错误率。
[0014]进一步地,所述分类预测模型的构建过程为:
[0015][0016]其中,X为历史数据中关于分类或评价指标的描述,C
i
为历史数据中第i个类别或评价指标,P(X)为X的先验概率,P(C
i
)为C
i
的先验概率,P(X|C
i
)为X是C
i
的概率,P(C
i
|X)为C
i
属于X的后验概率。
[0017]进一步地,本专利技术还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序使计算机执行所述的基于数据挖掘的模型智能优化的方法。
[0018]进一步地,本专利技术还提供了一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现所述的基于数据挖掘的模型智能优化的方法。
[0019]与现有技术相比,本专利技术具有如下有益效果:本专利技术基于数据挖掘的模型智能优化的方法通过k最邻近分类模型将数据化运营实践场景产生的历史数据进行分类,并通过评价指标对分类的结果进行再分类,最后通过分类预测模型预测出历史数据属于对应分类以及评价指标的概率,以概率最高的分类和评价指标作为历史数据的分类结果。通过本专利技术基于数据挖掘的模型智能优化的方法能够提高预测值对数据划分分类和指标的准确度,为数据挖掘提供正确指导。
附图说明
[0020]图1为本专利技术基于数据挖掘的模型智能优化的方法的流程图;
[0021]图2为本专利技术中评价指标的分类示意图。
具体实施方式
[0022]下面将结合本申请的附图,对本申请中的技术方案进行清楚、完整的描述,显然,所描述仅仅是本申请一部分,而不是全部。基于本申请中的具体实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0023]如图1为本专利技术基于数据挖掘的模型智能优化的方法的流程图,该基于数据挖掘的模型智能优化的方法具体包括如下步骤:
[0024]步骤1、根据机器学习理论构建k最邻近分类模型,将数据化运营实践场景产生的历史数据输入到k最邻近分类模型中进行分类,得到分类数据集合,通过k最邻近分类模型来减小历史数据分类过程中噪声的影响。本专利技术中数据化运营实践场景可以为:预测用户是否响应运营活动、预测用户是否会流失、预测用户是否在最近1个月内会购买某产品等,属于二元变量的数据分类。
[0025]本专利技术中k最邻近分类模型的构建过程为:
[0026][0027]其中,x
i
表示第i个历史数据,k表示与未确定类别样本距离最近的样本数,w
i
表示第i个历史数据的权值,w
i
=1/d(x,x
i
)2,d(x,x
i
)表示样本x与近邻样本x
i
的距离。
[0028]本专利技术中机器学习理论包括:TP、TN、FP、FN,所述TP表示模型预测正确的,并且实际上也是正确的观察对象的数量;所述TN表示模型预测错误的,并且实际上也是错误的观察对象的数量;所述FP表示指模型预测正确的,但是实际上是错误的观察对象的数量;所述FN表示模型预测错误的,但是实际上正确的观察对象的数量。
[0029]步骤2、通过评价指标对步骤1的分类结果进行再分类,得到精细分类数据集合;如图2,本专利技术中评价指标包括:正确率、错误率、灵敏性、特效性、精度、假正率、负元正确率、正元错误率。
[0030]本专利技术中正确率是指模型能正确预测、识别1和0的对象数量与预测对象总数的比值
[0031]本专利技术中错误率是指模型错误预测、错误识别1和0观察对象的数量与预测对象总数的比值,也即1减去正确率的差,
[0032]本专利技术中本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于数据挖掘的模型智能优化的方法,其特征在于,具体包括如下步骤:步骤1、根据机器学习理论构建k最邻近分类模型,将数据化运营实践场景产生的历史数据输入到k最邻近分类模型中进行分类,得到分类数据集合;步骤2、通过评价指标对步骤1的分类结果进行再分类,得到精细分类数据集合;步骤3、通过朴素贝叶斯分类法构建分类预测模型,将步骤1的分类数据集合和步骤2得到的精细分类数据集合输入到分类预测模型中,预测出历史数据属于对应分类以及评价指标的概率,以概率最高的分类和评价指标作为历史数据的分类结果。2.根据权利要求1所述的一种基于数据挖掘的模型智能优化的方法,其特征在于,所述k最邻近分类模型的构建过程为:其中,x
i
表示第i个历史数据,k表示与未确定类别样本距离最近的样本数,w
i
表示第i个历史数据的权值,w
i
=1/d(x,x
i
)2,d(x,x
i
)表示样本x与近邻样本x
i
的距离。3.根据权利要求1所述的一种基于数据挖掘的模型智能优化的方法,其特征在于,所述机器学习理论包括:TP、TN、FP、FN,所述TP表示模型预测正确的,并且实际上也是正确的观察对象的数量;所述TN表示模型预测错误的,并且实际上也是错误的观察对象的数量;所述...
【专利技术属性】
技术研发人员:王健,李正伟,徐茹,周健东,胡晶晶,
申请(专利权)人:中通服网盈科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。