基于聚类分层抽样补偿逻辑回归的失衡数据预测方法技术

技术编号：10529253 阅读：189 留言：0更新日期：2014-10-15 11:10

基于聚类分层抽样补偿逻辑回归的失衡数据预测方法，属于失衡数据预测领域。为了解决传统预测模型预测失衡数据的效果不好的问题。它包括如下步骤：步骤一：采用k-means算法对待预测的样本集进行聚类，获取K个类的数据；步骤二：对获取K个类的数据进行分层抽样，抽取n个数据；步骤三：对分层样本的逻辑回归模型的参数进行最大似然估计，获取分层样本逻辑回归模型的参数估计式，确定分层样本逻辑回归模型；步骤四：将抽取的n个数据输入至分层样本逻辑回归模型中，确定待预测的样本集是否是失衡数据集。它应用于需预测失衡数据的生物、医学、工程、计算等领域。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】，属于失衡数据预测领域。为了解决传统预测模型预测失衡数据的效果不好的问题。它包括如下步骤：步骤一：采用k-means算法对待预测的样本集进行聚类，获取K个类的数据；步骤二：对获取K个类的数据进行分层抽样，抽取n个数据；步骤三：对分层样本的逻辑回归模型的参数进行最大似然估计，获取分层样本逻辑回归模型的参数估计式，确定分层样本逻辑回归模型；步骤四：将抽取的n个数据输入至分层样本逻辑回归模型中，确定待预测的样本集是否是失衡数据集。它应用于需预测失衡数据的生物、医学、工程、计算等领域。【专利说明】
本专利技术属于失衡数据预测领域。
技术介绍
众所周知，决策必须依赖于预测。预测是对未来做出的估计和推断，为了达到这一目的，往往要对现实世界（或称研究对象）进行模仿或抽象，这一过程称之为建模。因此，一个"好"的模型不仅能表达现实而且应该能通过现实数据准确的反映现实的发展规律。因此，预测模型是一种以数量化表述为特征的预见或预言。面向失衡数据集的预测问题是自然科学领域的难点问题，并在生物、医学、工程、计算等诸多领域具有重要的实际应用价值。事实证明，在数据类别失衡的情况下直接采用传统预测模型都不能达到令人接受的预测效果。现采用的分层抽样技术主要包括面向网络流数据的分层采样方法、用于IT系统应用考评拓展平台的数据分层抽样方法和面向高属性维数据的分层抽样的采样方法。以上三种分层抽样方法均面向特定领域的实际数据，并根据数据本身特性人为制定相应的分层策略指导数据分层抽样。而现有的逻辑回归预测技术，多应用在采用利用...

【技术保护点】
基于聚类分层抽样补偿逻辑回归的失衡数据预测方法，其特征在于，它包括如下步骤：步骤一：采用k‑means算法对待预测的样本集进行聚类，获取K个类的数据；步骤二：对获取K个类的数据进行分层抽样，抽取n个数据；步骤三：对分层样本的逻辑回归模型的参数进行最大似然估计，获取分层样本逻辑回归模型的参数估计式，确定分层样本逻辑回归模型；步骤四：将抽取的n个数据输入至分层样本逻辑回归模型中，确定待预测的样本集是否是失衡数据集。

【技术特征摘要】

【专利技术属性】
技术研发人员：李鹏，张楷卉，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：黑龙江;23

全部详细技术资料下载我是这个专利的主人