基于局部加权C4.5算法的冲击地压危险等级预测方法技术

技术编号:18445294 阅读:18 留言:0更新日期:2018-07-14 10:32
本发明专利技术提供一种基于局部加权C4.5算法的冲击地压危险等级预测方法,涉及冲击地压预测技术领域。该方法首先采用MDLP方法对样本数据中的连续属性数据进行离散化,再采用局部加权方法选择训练集并计算样本权重,利用样本权重计算各属性的信息增益率,根据信息增益率选择样本属性作为C4.5决策树的根节点及其它各分支节点的分裂属性,最后采用样本权重代替样本个数对建立的决策树进行悲观剪枝,实现对预测区域冲击地压危险等级的预测。本发明专利技术提供的基于局部加权C4.5算法的冲击地压危险等级预测方法,克服了ID3算法中采用信息增益选择节点分裂属性时偏向选择取值较多属性的不足,避免了过拟合问题,模型的预测准确性较高。

Prediction method of rockburst risk grade based on locally weighted C4.5 algorithm

The invention provides a rock burst risk grade prediction method based on locally weighted C4.5 algorithm, which relates to the prediction technology field of rock burst. In this method, the MDLP method is used to discretize the continuous attribute data in the sample data, and then the local weighting method is used to select the training set and calculate the weight of the sample. The information gain rate of each attribute is calculated by using the weight of the sample. The sample attribute is selected as the root node of the C4.5 decision tree and the other branches according to the information gain rate. In the end, we use the sample weight instead of the sample number to carry on the pessimistic pruning of the decision tree, and realize the prediction of the risk grade of the prediction area. The method based on the local weighted C4.5 algorithm is used to predict the risk grade of rockburst risk, which overcomes the shortage of more attributes when selecting the split attribute of the node in the ID3 algorithm, and avoids the overfitting problem, and the prediction accuracy of the model is high.

【技术实现步骤摘要】
基于局部加权C4.5算法的冲击地压危险等级预测方法
本专利技术涉及冲击地压预测
,尤其涉及一种基于局部加权C4.5算法的冲击地压危险等级预测方法。
技术介绍
冲击地压是矿山井巷和采场周围煤岩体由于变形能的释放而产生的以突然、急剧、猛烈的破坏为特征的动力现象,是影响煤矿安全生产的重大灾害之一,世界上几乎所有国家都不同程度地受到冲击地压的威胁,近些年发达国家出于能源结构调整和安全考虑陆续关闭了冲击地压矿井,我国成为冲击地压主要受害国及进行冲击地压防治的主要国家。对冲击地压进行预测、评价是在对冲击地压发生机理研究的基础上对冲击地压进行防治的一个关键步骤,但是由于对冲击地压的机理没有完全认识清楚,尤其是对深部冲击地压发生机理的研究尚处在起步阶段,增加了冲击地压预测的难度。目前对冲击地压进行预测的方法主要有岩石力学方法和地球物理方法,其中岩石力学方法有钻屑法、采动应力检测法等,地球物理方法有地音监测、微震监测、电磁辐射监测等方法;此外随着人工智能的发展,出现了一些采用智能算法进行冲击地压预测的方法,如:神经网络方法、Bayes判别分析法、支持向量机等,上述方法在进行冲击地压危险等级预测中取得了大量研究成果,但是也存在一些问题,如神经网络一般需要的样本量较多,而用于冲击地压预测的样本量较少,Bayes方法需要数据间具有较高的独立性,而现实中的冲击地压采样数据很难满足独立性要求,且上述方法没有考虑模型的过拟合问题等。
技术实现思路
针对现有技术的缺陷,本专利技术提供一种基于局部加权C4.5算法的冲击地压危险等级预测方法,实现对矿山井巷和采场周围煤岩体的冲击地压危险等级的预测。基于局部加权C4.5算法的冲击地压危险等级预测方法,包括以下步骤:步骤1、采集已知类别的冲击地压数据作为样本数据,设采集的样本数据集为T,样本的类别集合为C,k′为样本类别总数,样本的数量为N;步骤2、对已知类别的样本数据中的连续属性数据采用最小化描述准则(MDLP,theMinimumDescriptionLengthPrinciple)进行离散化,具体方法为:步骤2.1:将待离散化的一组连续属性值及其相应类别根据连续属性值从小到大的顺序进行排序;步骤2.2:根据排序后的连续属性值所对应的类别的差异,选择连续属性值作为分界点,构成分界点集;如果不同类别所对应的属性值相同,则选择最小的类别所对应的属性值作为分界点;步骤2.3:计算分界点集合中所有分界点的信息增益,选择信息增益最小的分界点,并判断该分界点是否符合最小描述准则,如果符合,则保留该分界点;否则,去掉该分界点;所述分界点的信息增益的计算公式如下所示:Gain(a)=H(C)-H(C|a)其中,a为分界点集中的一个分界点,H(C)为类别信息熵,H(C|a)为分界点a将类别集合C划分为两个子集后的信息熵;设amin是信息增益最小的分界点,其将类别集合C划分为两个子集C1和C2,判断amin是否符合最小描述准则的计算公式如下所示:Gain(amin)>log2(N-1)/N+log2(3k′-2)-[k'H(C)-k′1H(C1)-k′2H(C2)]其中,k′1、k′2分别为子集C1和C2中所包括的类别数量;步骤2.4:判断步骤2.3中的分界点将原数据集所划分的两个区间序列中是否还有其它分界点,如果有,则各区间序列中的分界点重新组成相应的分界点集合并返回步骤2.3,根据区间序列中样本的数量及相应类别集合继续判断各区间序列是否保留相应分界点,否则执行步骤2.5;步骤2.5:根据最终选择的分界点集合,对连续属性数据进行区间序列划分,如果最终没有分界点符合最小描述准则,则该属性中所有连续属性数据划分为一个区间序列,否则由分界点将连续属性数据划分为不同的区间序列,得到连续属性数据的离散化结果;步骤2.6:判断样本数据集中的连续属性是否均进行了离散化,如果是,则执行步骤3,否则,重复步骤2.1-步骤2.5,将样本数据集的所有连续属性进行离散化;步骤3、采集待预测区域的冲击地压属性数据,并将其中的连续属性数据与步骤2中相应属性数据进行比较,根据比较结果确定待预测区域冲击地压属性数据中连续属性数据所在的区间序列,从而将待预测区域冲击地压属性数据中的连续属性数据离散化;步骤4、采用K近邻算法从步骤2中生成的离散化数据集中查找与待预测样本相邻的k个样本,由k个样本构成C4.5决策树的训练集,并计算训练集中样本的权重;所述训练集中样本的权重根据如下公式进行计算:其中,ωi为训练集中第i个与待预测样本相邻的样本的权重,i=1、2、…、k,di为待预测样本到第i个样本数据xi的距离,该距离采用样本的属性数据,并根据距离公式进行计算,dmax为待预测样本到训练集中所有样本的距离的最大值;步骤5:根据训练集中样本数据的权重计算训练集中所有属性的信息增益率,在根节点和其它各分支节点的生成过程中,选择各次迭代过程中信息增益率最大的属性作为C4.5决策树中根节点和其它各分支节点的分裂属性;所述计算训练集中属性的信息增益率的具体方法为:设V为训练集中的一个属性,vj为属性V中第j个属性取值,j=1、2、…、m,m为训练集中样本数据的属性V的互不重合的属性取值个数,训练集中样本数据所对应的类别集合为C′={c1、c2、…、cn},其中,ci′为第i′个类别,i′=1,2,…,n,n为训练集中样本数据所对应类别的总数,计算训练集中属性的信息增益率的具体方法为:计算训练集中样本数据的类别信息熵,如下式所示:其中,为训练集中样本类别为ci′的样本的权重和,ωC′为训练集中所有类别的样本的权重和,p(ci′)为训练集中类别为ci′的样本的权重和与所有类别的样本的权重和ωC′的比值;计算训练集中样本数据的类别条件熵,如下式所示:其中,为属性取值为vj的样本的权重和,ωV为属性V中所有样本的权重和,表示属性取值为vj的样本中属于ci′类的样本权重之和,p(vj)为训练集中属性取值为vj的样本的权重和与所有样本的权重和的比值,p(ci′|vj)为属性取值为vj的样本中类别为ci′的样本的权重和与所有属性取值为vj的样本的权重和的比值;计算训练集中样本数据的属性V的信息增益,如下式所示:I(C′,V)=I(C′)-I(C′|V)计算训练集中样本数据的属性V的信息熵,如下式所示:计算训练集中样本数据的属性V的信息增益率,如下式所示:gain_radio(V)=I(C′,V)/I(V);步骤6:根据分裂属性建立决策树,然后采用悲观剪枝法对决策树进行剪枝,剪枝过程中使用样本权重代替样本个数计算分支节点及相应叶子节点的错误率;最后由生成的决策树对待预测区域的潜在冲击地压危险等级进行预测。由上述技术方案可知,本专利技术的有益效果在于:本专利技术提供的基于局部加权C4.5算法的冲击地压危险等级预测方法,采用的最小化描述准则MDLP方法对样本数据中的连续属性数据进行的离散化能够较好地处理连续属性数据,局部加权的方法可以根据离散化后的样本到待预测样本的距离选择训练集并对训练集中的样本赋予不同权值,采用的C4.5算法利用样本权重计算信息增益率来选择节点分裂属性,克服了ID3算法中采用信息增益选择节点分裂属性时偏向选择取值较多属性的不足,并采用样本权重代替样本个数本文档来自技高网...

【技术保护点】
1.一种基于局部加权C4.5算法的冲击地压危险等级预测方法,其特征在于:包括以下步骤:步骤1、采集已知类别的冲击地压数据作为样本数据,设采集的样本数据集为T,样本的类别集合为C,k′为样本类别总数,样本的数量为N;步骤2、对已知类别的样本数据中的连续属性数据采用最小化描述准则(MDLP,the Minimum Description Length Principle)进行离散化;步骤3、采集待预测区域的冲击地压属性数据,并将其中的连续属性数据与步骤2中相应属性数据进行比较,根据比较结果确定待预测区域冲击地压属性数据中连续属性数据所在的区间序列,从而将待预测区域冲击地压属性数据中的连续属性数据离散化;步骤4、采用K近邻算法从步骤2中生成的离散化数据集中查找与待预测样本相邻的k个样本,由k个样本构成C4.5决策树的训练集,并计算训练集中样本的权重;步骤5:根据训练集中样本数据的权重计算训练集中所有属性的信息增益率,在根节点和其它各分支节点的生成过程中,选择各次迭代过程中信息增益率最大的属性作为C4.5决策树中根节点和其它各分支节点的分裂属性;步骤6:根据分裂属性建立决策树,然后采用悲观剪枝法对决策树进行剪枝,剪枝过程中使用样本权重代替样本个数计算分支节点及相应叶子节点的错误率;最后由生成的决策树对待预测区域的潜在冲击地压危险等级进行预测。...

【技术特征摘要】
1.一种基于局部加权C4.5算法的冲击地压危险等级预测方法,其特征在于:包括以下步骤:步骤1、采集已知类别的冲击地压数据作为样本数据,设采集的样本数据集为T,样本的类别集合为C,k′为样本类别总数,样本的数量为N;步骤2、对已知类别的样本数据中的连续属性数据采用最小化描述准则(MDLP,theMinimumDescriptionLengthPrinciple)进行离散化;步骤3、采集待预测区域的冲击地压属性数据,并将其中的连续属性数据与步骤2中相应属性数据进行比较,根据比较结果确定待预测区域冲击地压属性数据中连续属性数据所在的区间序列,从而将待预测区域冲击地压属性数据中的连续属性数据离散化;步骤4、采用K近邻算法从步骤2中生成的离散化数据集中查找与待预测样本相邻的k个样本,由k个样本构成C4.5决策树的训练集,并计算训练集中样本的权重;步骤5:根据训练集中样本数据的权重计算训练集中所有属性的信息增益率,在根节点和其它各分支节点的生成过程中,选择各次迭代过程中信息增益率最大的属性作为C4.5决策树中根节点和其它各分支节点的分裂属性;步骤6:根据分裂属性建立决策树,然后采用悲观剪枝法对决策树进行剪枝,剪枝过程中使用样本权重代替样本个数计算分支节点及相应叶子节点的错误率;最后由生成的决策树对待预测区域的潜在冲击地压危险等级进行预测。2.根据权利要求1所述的基于局部加权C4.5算法的冲击地压危险等级预测方法,其特征在于:步骤2所述进行离散化的具体方法为:步骤2.1:将待离散化的一组连续属性值及其相应类别根据连续属性值从小到大的顺序进行排序;步骤2.2:根据排序后的连续属性值所对应的类别的差异,选择连续属性值作为分界点,构成分界点集;如果不同类别所对应的属性值相同,则选择最小的类别所对应的属性值作为分界点;步骤2.3:计算分界点集合中所有分界点的信息增益,选择信息增益最小的分界点,并判断该分界点是否符合最小描述准则,如果符合,则保留该分界点;否则,去掉该分界点;所述分界点的信息增益的计算公式如下所示:Gain(a)=H(C)-H(C|a)其中,a为分界点集中的一个分界点,H(C)为类别信息熵,H(C|a)为分界点a将类别集合C划分为两个子集后的信息熵;设amin是信息增益最小的分界点,其将类别集合C划分为两个子集C1和C2,判断amin是否符合最小描述准则的计算公式如下所示:Gain(amin)>log2(N-1)/N+log2(3k′-2)-[k'H(C)-k′1H(C1)-k′2H(C2)]其中,k′1、k′2分别为子集C1和C2中所包括的类别数量;步骤2.4:判断步骤2.3中的分界点将原数据集所划分的两个区间序列中是...

【专利技术属性】
技术研发人员:王彦彬彭连会何满辉
申请(专利权)人:辽宁工程技术大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1