一种基于主动学习的回归分析系统及方法技术方案

技术编号：9569192 阅读：129 留言：0更新日期：2014-01-16 02:43

本发明专利技术提供了一种基于主动学习的回归分析系统及方法，其中：数据采集模块收集回归学习所需的未标注数据，并进行预处理；训练集构建模块构建回归学习所需的训练数据，包括：初始阶段，从存储的未标注数据中随机挑选部分样本进行人工标注，构建初始训练集。迭代阶段，调用回归学习模块已经构建的回归模型，执行主动学习方法选择最有信息的样本进行标注，扩展已有的训练集；将标注后的数据存于存储模块；回归学习模块调用数据存储模块中的有标注的数，训练回归模型；上述训练集构建模块和回归学习模块，交互迭代进行；预测模块在主动学习迭代结束后，调用回归学习模块建立的回归模型，对因变量进行预测。本发明专利技术可以提高回归系统的数据分析的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术提供了，其中：数据采集模块收集回归学习所需的未标注数据，并进行预处理；训练集构建模块构建回归学习所需的训练数据，包括：初始阶段，从存储的未标注数据中随机挑选部分样本进行人工标注，构建初始训练集。迭代阶段，调用回归学习模块已经构建的回归模型，执行主动学习方法选择最有信息的样本进行标注，扩展已有的训练集；将标注后的数据存于存储模块；回归学习模块调用数据存储模块中的有标注的数，训练回归模型；上述训练集构建模块和回归学习模块，交互迭代进行；预测模块在主动学习迭代结束后，调用回归学习模块建立的回归模型，对因变量进行预测。本专利技术可以提高回归系统的数据分析的准确性。【专利说明】—种基于主动学习的回归分析系统及方法
本专利技术属于机器学习领域和数据挖掘领域，具体是。
技术介绍
在自然科学和经济社会中，各种现象之间互相联系互相影响是一个普遍规律。一些因素(称之为自变量)的变化会导致与之相联系的因素(称之为因变量)产生相应的变化。回归分析系统是在分析自变量和因变量之间相关关系的基础上，建立回归方程，并将回归方程作为对未来因变量的预测模型。根据自变量与因变量的相关关系，回归分析可以分为线性回归和非线性回归。回归分析已广泛应用于各个行业(如工业生产，生物医学，金融市场，计算机人脸识别，语音识别等)的数据分析，也出现了很多利用回归分析技术的专利申请。如已授权的中国专利102313722A(申请号201110260869.6)，该专利提供一种基于多元线性回归的煤质工业分析方法，该方法综合利用了对各工业分析指标具有显著贡献的相关元素的谱线信息，简化了由...

【技术保护点】
一种基于主动学习的回归分析系统，其特征在于，该系统包括：数据采集模块，训练集构建模块，回归学习模块，预测模块及数据存储模块，其中：所述数据采集模块，收集回归学习所需的未标注数据，并对数据进行预处理，存于数据存储模块；所述训练集构建模块，构建回归学习所需的训练数据，包括以下两个阶段：初始阶段，从存储的未标注数据中随机挑选部分数据进行人工标注，构建初始训练集；迭代阶段，调用回归学习模块已经构建的回归模型，执行主动学习方法，从未标注数据中选择最有信息的样本进行标注，扩展已有的训练集；将标注后的数据存于数据存储模块；其中所述主动学习方法先调用回归模型用Bootstrap方法计算未标注样本的预测值分布，再计算样本的预测误差，然后计算预测误差的梯度和模，最后根据预测值的分布计算梯度模的期望值，选择期望值最大的样本；所述回归学习模块，调用数据存储模块中的有标注的数据，训练回归模型，所述回归模型包括线性回归模型和非线性回归模型；上述训练集构建模块和回归学习模块，交互迭代进行，从而充分利用训练集和回归模型之间的关系，提高回归系统的预测准确性；所述预测模块，主动学习迭代结束后，调用回归学习模块建立的回归模...

【技术特征摘要】

【专利技术属性】
技术研发人员：蔡文彬，张娅，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人