基于聚类分层抽样补偿逻辑回归的失衡数据预测方法技术

技术编号:10529253 阅读:189 留言:0更新日期:2014-10-15 11:10
基于聚类分层抽样补偿逻辑回归的失衡数据预测方法,属于失衡数据预测领域。为了解决传统预测模型预测失衡数据的效果不好的问题。它包括如下步骤:步骤一:采用k-means算法对待预测的样本集进行聚类,获取K个类的数据;步骤二:对获取K个类的数据进行分层抽样,抽取n个数据;步骤三:对分层样本的逻辑回归模型的参数进行最大似然估计,获取分层样本逻辑回归模型的参数估计式,确定分层样本逻辑回归模型;步骤四:将抽取的n个数据输入至分层样本逻辑回归模型中,确定待预测的样本集是否是失衡数据集。它应用于需预测失衡数据的生物、医学、工程、计算等领域。

【技术实现步骤摘要】
【专利摘要】,属于失衡数据预测领域。为了解决传统预测模型预测失衡数据的效果不好的问题。它包括如下步骤:步骤一:采用k-means算法对待预测的样本集进行聚类,获取K个类的数据;步骤二:对获取K个类的数据进行分层抽样,抽取n个数据;步骤三:对分层样本的逻辑回归模型的参数进行最大似然估计,获取分层样本逻辑回归模型的参数估计式,确定分层样本逻辑回归模型;步骤四:将抽取的n个数据输入至分层样本逻辑回归模型中,确定待预测的样本集是否是失衡数据集。它应用于需预测失衡数据的生物、医学、工程、计算等领域。【专利说明】
本专利技术属于失衡数据预测领域。
技术介绍
众所周知,决策必须依赖于预测。预测是对未来做出的估计和推断,为了达到这一 目的,往往要对现实世界(或称研究对象)进行模仿或抽象,这一过程称之为建模。因此, 一个"好"的模型不仅能表达现实而且应该能通过现实数据准确的反映现实的发展规律。因 此,预测模型是一种以数量化表述为特征的预见或预言。 面向失衡数据集的预测问题是自然科学领域的难点问题,并在生物、医学、工程、 计算等诸多领域具有重要的实际应用价值。事实证明,在数据类别失衡的情况下直接采用 传统预测模型都不能达到令人接受的预测效果。 现采用的分层抽样技术主要包括面向网络流数据的分层采样方法、用于IT系统 应用考评拓展平台的数据分层抽样方法和面向高属性维数据的分层抽样的采样方法。以上 三种分层抽样方法均面向特定领域的实际数据,并根据数据本身特性人为制定相应的分层 策略指导数据分层抽样。 而现有的逻辑回归预测技术,多应用在采用利用罚逻辑回归(PLR)模型根据质量 筛分植物胚的方法、通过逻辑回归算法预测有机化学品生物降解性的方法和基于多元逻辑 回归检测ICU患者记录中伪像的方法,而并没有将逻辑回归预测技术运用在失衡数据集的 预测领域。
技术实现思路
本专利技术的目的是为了解决传统预测模型预测失衡数据的效果不好的问题,本专利技术 提供一种。 本专利技术的, 它包括如下步骤: 步骤一:采用k-means算法对待预测的样本集进行聚类,获取K个类的数据; 步骤二:对获取κ个类的数据进行分层抽样,抽取η个数据; 步骤三:对分层样本的逻辑回归模型的参数进行最大似然估计,获取分层样本逻 辑回归模型的参数估计式,确定分层样本逻辑回归模型; 步骤四:将抽取的η个数据输入至分层样本逻辑回归模型中,确定待预测的样本 集是否是失衡数据集。 本专利技术的有益效果在于,本专利技术采用聚类分层抽样的方法首先对失衡数据进行重 采样,大量削减影响预测的噪声数据,降低失衡比,减少数据淹没现象的发生;其次,针对采 样后的数据分布的改变,提出一种参数补偿逻辑回归预测模型,有效改善预测性能的同时 校正预测概率值。经试验验证,本专利技术的预测方法可以显著提高失衡数据的预测精度。 【专利附图】【附图说明】 图1为【具体实施方式】一所述的基于聚类分层抽样补偿逻辑回归的失衡数据预测 方法的流程示意图。 图2为【具体实施方式】二中基于聚类的层次划分原理示意图。 【具体实施方式】 【具体实施方式】 一:结合图1说明本实施方式,本实施方式所述的基于聚类分层抽 样补偿逻辑回归的失衡数据预测方法,它包括如下步骤: 步骤一:采用k-means算法对待预测的样本集进行聚类,获取K个类的数据; 步骤二:对获取K个类的数据进行分层抽样,抽取η个数据; 步骤三:对分层样本的逻辑回归模型的参数进行最大似然估计,获取分层样本逻 辑回归模型的参数估计式,确定分层样本逻辑回归模型; 步骤四:将抽取的η个数据输入至分层样本逻辑回归模型中,确定待预测的样本 集是否是失衡数据集。 分层抽样,也叫类型抽样。就是将总体单位按某些重要属性特征分成若干类型 或层,然后在各类型或层中采用简单随机抽样(simple random sampling)或系统抽样 (system sampling)方式抽取样本单位。特点是:由于通过划类分层,增大了各类型中单位 间的共同性,容易抽出具有代表性的调查样本。分层抽样比简单随机抽样和系统抽样更为 精确,能够通过对较少的抽样单位的调查,得到比较准确的推断结果,特别是当总体较大、 内部结构复杂时,分层抽样常能取得令人满意的效果。同时,分层抽样在对总体推断的同 时,还能获得对每层的推论。该方法适用于总体情况复杂,各单位之间差异较大,单位较多 的情况。分层随机抽样相比于随机抽样可以对总体的属性做更为精确的估计。 分层抽样是把异质性较强的总体分成一个个同质性较强的子总体,再抽取不同的 子总体中的样本分别代表该子总体,所有的样本进而代表总体。相比于简单的随机抽样,分 层抽样首先要进行层次的划分,即分层。在实际应用中采用分层抽样的采样方法,最重要的 工作就是如何对样本进行合理的层次划分,使分层后样本的抽样更精炼的表达总体分布与 特性。层次划分是分层抽样的重点与难点问题。所以本实施方式采用聚类的方式进行层次 划分。 聚类是数据挖掘领域最为常见的技术之一,用于发现在数据库中未知的数据类, 通过聚类过程形成的每一个组称为一个类。在聚类之前,数据类划分的数量与类型均是未 知的。这种数据类划分的依据是"物以类聚",即按个体或数据对象间的相似性,将研究对象 划分为若干。聚类把一组对象按照相似度归成若干类别,目的在于使得属于同一类别的对 象之间具有尽可能相似的特征,而属于不同类别中的对象之间具有尽可能的相对独。因此, 聚类方法为分层抽样的层次划分提供了很好的理论指导与可行的方法。 【具体实施方式】 二:结合图2说明本实施方式,本实施方式是对一所 述的的进一步限定,步骤一中,采用 k-means算法对待预测的样本集进行聚类,获取K个类的数据的方法包括: 步骤一一:在待预测的样本集中随机选择K个数据,每一个数据作为一个类的中 心; 步骤一二:根据距离每个类的中心最近的原则,将待预测的样本集中其他数据分 配到各个相应的类中; 步骤一三:针对每一个类,计算该类中所有数据的平均属性值,并将所述平均属性 值作为该类新的中心; 步骤一四:根据距离每个类新的中心最近的原则,重新将待预测的样本集中的数 据分配到各个相应的类中;并判断重新分的类与步骤一二分的类是否相同,若相同,停止, 确定K个类的数据,若不相同,则转入步骤一三。 本实施方式采用k-means聚类算法应用于分层抽样中层次的划分,之所以选用 k-means聚类算法除了其简单、有效等特点外,最重要的是,这种聚类算法可以事先设定聚 类类别的个数。从层次划分上讲,应用这种算法也就是可以事先定义所需要划分的层数,这 样可以有效地控制采样过程。【具体实施方式】三:本实施方式是对【具体实施方式】一所述的基 于聚类分层抽样补偿逻辑回归的失衡数据预测方法的进一步限定,步骤三中, 【权利要求】1. ,其特征在于,它包括如下步 骤: 步骤一:采用k-means算法对待预测的样本集进行聚类,获取K个类的数据; 步骤二:对获取K个类的数据进行分层抽样,抽取η个数据; 步骤三:对分层样本的逻辑回归模型的参数进行最大似然估计,获取分层样本逻辑回 归本文档来自技高网
...

【技术保护点】
基于聚类分层抽样补偿逻辑回归的失衡数据预测方法,其特征在于,它包括如下步骤:步骤一:采用k‑means算法对待预测的样本集进行聚类,获取K个类的数据;步骤二:对获取K个类的数据进行分层抽样,抽取n个数据;步骤三:对分层样本的逻辑回归模型的参数进行最大似然估计,获取分层样本逻辑回归模型的参数估计式,确定分层样本逻辑回归模型;步骤四:将抽取的n个数据输入至分层样本逻辑回归模型中,确定待预测的样本集是否是失衡数据集。

【技术特征摘要】

【专利技术属性】
技术研发人员:李鹏张楷卉
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1