当前位置: 首页 > 专利查询>清华大学专利>正文

用于机器学习的参数寻优及特征调优的方法及系统技术方案

技术编号:10737965 阅读:296 留言:0更新日期:2014-12-10 13:02
本发明专利技术提出一种用于机器学习的参数寻优及特征调优的方法,包括以下步骤:随机生成多个参数集合;分别对多个参数集合进行基于EnKF的迭代优化;分别对优化后的多个参数集合进行性能评估,并根据评估结果得到集合池和补充参数集合,其中,集合池中的参数集合的性能高于补充参数集合中的参数集合的性能;对集合池中的参数集合和补充参数集合中的参数集合再次进行基于EnKF的迭代优化和性能评估,以得到最优参数集合。本发明专利技术的方法能够提升处理参数寻优的计算结果和计算效率,并且通用性强。本发明专利技术还提供了一种用于机器学习的参数寻优及特征调优的系统。

【技术实现步骤摘要】
【专利摘要】本专利技术提出一种用于机器学习的参数寻优及特征调优的方法,包括以下步骤:随机生成多个参数集合;分别对多个参数集合进行基于EnKF的迭代优化;分别对优化后的多个参数集合进行性能评估,并根据评估结果得到集合池和补充参数集合,其中,集合池中的参数集合的性能高于补充参数集合中的参数集合的性能;对集合池中的参数集合和补充参数集合中的参数集合再次进行基于EnKF的迭代优化和性能评估,以得到最优参数集合。本专利技术的方法能够提升处理参数寻优的计算结果和计算效率,并且通用性强。本专利技术还提供了一种用于机器学习的参数寻优及特征调优的系统。【专利说明】用于机器学习的参数寻优及特征调优的方法及系统
本专利技术涉及机器学习的参数寻优
,特别涉及一种用于机器学习的参数寻优及特征调优的方法及系统。
技术介绍
对于一般的机器学习算法而言,模型的性能主要取决于它的参数配置。采用不同的参数组合生成的模型往往具有很大的性能差异。参数寻优是一个随机优化问题,其随机性主要体现在:生成模型所用的训练数据和测试数据包含了有限的样本,无法反映整体,而参数空间基于未知的联合分布函数。该问题的基本定义如下:给定一个训练数据集Xt,其中Xt基于未知的数据分布G,参数寻优的目标是找一个机器学习算法F的参数组合Θ,在XtI建立一个模型f,使得f在给定性能评测准则g (.)下最大化(或者最小化)性能评测值。基本问题表示如下, 【权利要求】1.一种用于机器学习的参数寻优及特征调优的方法,其特征在于,包括以下步骤: 随机生成多个参数集合; 分别对所述多个参数集合进行基于EnKF的迭代优化; 分别对优化后的多个参数集合进行性能评估,并根据评估结果得到集合池和补充参数集合,其中,所述集合池中的参数集合的性能高于所述补充参数集合中的参数集合的性倉泛; 对集合池中的参数集合和所述补充参数集合中的参数集合再次进行基于EnKF的迭代优化和性能评估,以得到最优参数集合。2.根据权利要求1所述的用于机器学习的参数寻优及特征调优的方法,其特征在于,所述分别对所述多个参数集合进行基于EnKF的迭代优化,具体包括: 通过机器学习算法在预定的训练数据集上对每个参数集合进行训练以生成模型; 在预定的验证数据集上对所述模型进行性能评估; 通过EnKF算法对所述多个参数集合进行更新。3.根据权利要求1所述的用于机器学习的参数寻优及特征调优的方法,其特征在于,所述随机生成多个参数集合,具体包括以下步骤: 随机生成一个参数向量θ e ΓΧ1,其中每个参数在预定的参数范围内生成随机值;随机生成一组归一化的向量(PiIPiE Rmxi, 1 = 1,..., N},对其进行正交化以确保扰动线性无关; 生成参数集合扰动,具体包括:A' = (F^1 P 1; Far2 P2,..., FarNPN) e RfflXN, r,?N(0,Sp), 其中,A'表示参数几何扰动,P i表示随机生成的扰动向量,变量A表示随机步长,并且服从高斯分布,方差Sp是可配置的,矩阵Fa = (^e1, f2e2,..., fNeN), Gi表示单位向量,Fi是一个可配置的缩放变量,用于调整扰动幅度; 将参数向量Θ,分别加上扰动集合A'中的每一组扰动向量SiGA',得到一组参数θ i = Θ + ε i;共生成N组参数构成参数集合A ; 重复上述几个步骤,以生成N6个参数集合。4.根据权利要求2所述的用于机器学习的参数寻优及特征调优的方法,其特征在于,还包括: 对所述训练数据集和验证数据集进行特征缩放; 将参数集合中的参数输入机器学习算法,在训练数据集中进行训练以生成模型; 通过所述模型对每个样本进行预测,得到所述模型的估计值; 得到所有参数的模型,并进行性能评估,具体包括:HA = (Hi1Hi2j …,Η%ι} e ?ηχΝ? 其中,HA表示集合包含了采用每一组参数生成模型得到的预测值,η表示验证数据集样本的个数。5.根据权利要求2所述的用于机器学习的参数寻优及特征调优的方法,其特征在于,还包括:通过下式对所述参数集合进行更新: Aa = Af+Ai (m' )T(HA/ (m' y+γ y T)(D-HA),其中,A表示参数集合,Af表示当前的参数集合,Aa表示更新的参数集合,A1表示参数集合扰动,D表示观测集合,Y表示观测集合扰动,HA表示模型预测结果集合,HA'表示HA的集合扰动。6.根据权利要求1所述的用于机器学习的参数寻优及特征调优的方法,其特征在于,所述分别对优化后的多个参数集合进行性能评估,并根据评估结果得到集合池和补充参数集合,进一步包括: 根据评估结果将所述优化后的多个参数集合分为三类,设Score(A)表示参数集合的性能值; 如果Score(A) ^ threshl,则判定该参数集合性能很好,并将该参数集合保存在集合池中; 如果score (A) ( thresh2,则判定该参数集合性能较差,并丢弃该参数集合; 如果thresh2 < score (A) < threshl,则判定该参数集合的性能一般,并将性能一般的参数集合随机进行两两合并,以生成补充参数集合。7.根据权利要求6所述的用于机器学习的参数寻优及特征调优的方法,其特征在于,还包括: 在性能一般的参数集合中选取一对参数集合,通过基于EnKF的合并算法生成新的参数集合,具体包括: 假设选取的一对参数集合为Ai, Ap则通过下列公式分别计算Qu以及Qji:分别计算Aij以及Aji,其中:对于Qij以及Qji分别进行UR分解; 从矩阵知以及中分别选出具有最大主元的N列,根据其在参数集合Af以及Af中选出对应的参数向量组成最后的参数集合Am ; 若待合并的参数集合列表为空,则随机生成新的参数集合,否则随机选择另一对参数集合进行合并。8.一种用于机器学习的参数寻优及特征调优的系统,其特征在于,包括: 生成模块,所述生成模块用于生成多个参数集合; 优化模块,所述优化模块用于分别对所述多个参数集合进行基于EnKF的迭代优化; 评估模块,所述评估模块用于分别对优化后的多个参数集合进行性能评估,并根据评估结果得到集合池和补充参数集合,其中,所述集合池中的参数集合的性能高于所述补充参数集合中的参数集合的性能; 获取模块,所述获取模块用于对集合池中的参数集合和所述补充参数集合中的参数集合再次进行基于EnKF的迭代优化和性能评估,以得到最优参数集合。9.根据权利要求8所述的用于机器学习的参数寻优及特征调优的系统,其特征在于,所述优化模块用于通过机器学习算法在预定的训练数据集上对每个参数集合进行训练以生成模型,并在预定的验证数据集上对所述模型进行性能评估,并通过EnKF算法对所述多个参数集合进行更新。10.根据权利要求8所述的用于机器学习的参数寻优及特征调优的系统,其特征在于,所述生成模块生成多个参数集合,具体包括: 随机生成一个参数向量θ e ΓΧ1,其中每个参数在预定的参数范围内生成随机值; 随机生成一组归一化的向量(PiIPiE Rmxi, 1 = 1,..., N},对其进行正交化以确保扰动线性无关; 生成参数集合扰动,具体本文档来自技高网...

【技术保护点】
一种用于机器学习的参数寻优及特征调优的方法,其特征在于,包括以下步骤:随机生成多个参数集合;分别对所述多个参数集合进行基于EnKF的迭代优化;分别对优化后的多个参数集合进行性能评估,并根据评估结果得到集合池和补充参数集合,其中,所述集合池中的参数集合的性能高于所述补充参数集合中的参数集合的性能;对集合池中的参数集合和所述补充参数集合中的参数集合再次进行基于EnKF的迭代优化和性能评估,以得到最优参数集合。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:杨广文季颖生陈宇澍付昊桓
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1