当前位置: 首页 > 专利查询>清华大学专利>正文

基于噪声扰动的测试数据预测方法技术

技术编号:10252278 阅读:175 留言:0更新日期:2014-07-24 13:01
本发明专利技术涉及一种基于噪声扰动的测试数据预测方法,包括以下步骤:S1、对测试数据进行预处理,提取测试数据的特征并进行归一化处理;S2、根据测试数据的特征建立预测模型;S3、对预测模型进行参数求解;S4、利用求解后的预测模型对测试数据进行预测;步骤S3包括:选取预测模型的损失函数、将最小化预测模型的损失函数的期望设置为目标函数、计算损失函数的变分上界、优化目标函数及使用迭代复加权最小二乘法以求解目标函数。通过采用本发明专利技术所公开的基于噪声扰动的测试数据预测方法,运用数据增广方法解决了铰链损失函数以及罗杰斯特损失函数在扰动分布下的期望很难计算的问题,为噪声扰动模型学习方法提供了高效、准确的预测模型。

【技术实现步骤摘要】
基于噪声扰动的测试数据预测方法
本专利技术涉及计算机应用领域,尤其涉及一种基于噪声扰动的测试数据预测方法。
技术介绍
人工特征噪声扰动方法(artificialfeaturenoisingmethods)是将有限的训练数据按照已知的扰动分布生成一系列扰动数据,扩充为无限个扰动后的训练数据进行训练的方法。在许多扰动方法中,dropout扰动是一种非常有效的控制过拟合的训练方法。Dropout扰动的核心思想是在每一步迭代训练过程中,随机丢弃一些特征,从而生成一系列特征数目较少的样本,在这种扰动后的数据上进行模型学习。由于扰动后的训练数据集规模太大,对模型的时间复杂度提出了很高的要求,因此很不实用。常用的噪声扰动模型学习方法是采用平均化的思想,最小化模型损失函数关于噪声扰动分布的期望,最近许多工作从自适应正则化的角度为这种方法提供了理论上的理解,例如S.Wager等人提出的“Dropouttrainingasadaptiveregularization”,AdvancesinNeuralInformationProcessingSystems(2013),并且这种方法在多种应用问题如文本分类(例如vanderMaaten等人提出的“Learningwithmarginalizedcorruptedfeatures”,InternationalConferenceonMachineLearning(2013))、实体识别(例如S.Wang等人提出的“Fastdropouttraining”,InternationalConferenceonMachineLearning(2013))、图像分类(例如S.Wang等人提出的“Featurenoisingforlog-linearstructuredprediction”,EmpiricalMethodsinNaturalLanguageProcessing(2013))等方面都有很有很不错的结果,这从近年来的多篇论文中可以得到印证。噪声扰动模型学习方法的关键区别是不同损失函数的选取。之前有一些工作已经研究了二次损失函数、经典罗杰斯特损失函数、或者从一个广义线性模型(Generalizedlinearmodels,GLM)中推导得到的罗杰斯特损失函数。但是调研中发现,几乎没有噪声扰动模型方法是基于最大间隔的铰链损失函数的,而众所周知,基于铰链损失函数的最大间隔学习方法非常适于分类预测任务。基于铰链损失函数的噪声扰动方法的最大难点在于铰链损失函数中的max函数的非平滑性,使得直接计算或者近似铰链损失函数在扰动分布下的期望变得非常困难。已有的方法并不能直接解决这个难题,因此需要诉诸于新的方法。
技术实现思路
本专利技术所要解决的技术问题是现有的噪声扰动模型中无法使用铰链损失函数以及罗杰斯特损失函数以获得较精确的预测模型参数。为此目的,本专利技术提出了一种基于噪声扰动的测试数据预测方法,包括以下步骤:S1、对测试数据进行预处理,提取所述测试数据的特征并进行归一化处理;S2、根据所述测试数据的特征建立用以对测试数据进行预测的预测模型;S3、对所述预测模型进行参数求解;S4、利用求解后的所述预测模型对测试数据进行预测;其中,步骤S3包括:S3.1、选取所述预测模型的损失函数,将最小化所述预测模型的损失函数的期望设置为目标函数;S3.2、计算所述损失函数的变分上界;S3.3、基于所述损失函数的变分上界,优化所述目标函数;S3.4、使用迭代复加权最小二乘法以求解目标函数。优选的,步骤S3.2中使用数据增广的方法得出所述损失函数的变分上界。优选的,步骤S3.2中使用数据增广的方法以获取所述响应变量的伪似然函数,并根据所述伪似然函数获取所述损失函数的变分上界。优选的,步骤S3.1中的损失函数为铰链损失函数,所述目标函数为最小化所述预测模型的铰链损失函数的期望。优选的,步骤S3.4进一步包括:对于低维的数据,用矩阵求逆的方式来得到所述预测模型参数的解;对于高维的数据,用数值求解方法以得到所述预测模型参数的解。优选的,步骤S3.1中的损失函数为铰链损失函数,步骤S3.2中铰链损失函数期望的变分上界通过所述伪似然函数及杰森不等式得到。优选的,步骤S3.1中的损失函数为罗杰斯特损失函数,所述目标函数为最小化所述预测模型的罗杰斯特损失函数的期望。优选的,步骤S3.4中使用坐标下降法以实现变分优化。通过采用本专利技术所公开的基于噪声扰动的测试数据预测方法,将铰链损失函数以及罗杰斯特损失函数用于噪声扰动模型学习中,并运用数据增广方法解决了铰链损失函数以及罗杰斯特损失函数在扰动分布下的期望很难计算这个挑战性问题,为噪声扰动模型学习方法提供了高效、准确的预测模型。附图说明通过参考附图会更加清楚的理解本专利技术的特征和优点,附图是示意性的而不应理解为对本专利技术进行任何限制,在附图中:图1示出了本专利技术的流程图。具体实施方式下面将结合附图对本专利技术的实施例进行详细描述。如图1所示,为本专利技术基于噪声扰动的测试数据预测方法,包括以下步骤:S1、对测试数据进行预处理,提取测试数据的特征并进行归一化处理;S2、根据测试数据的特征建立用以对测试数据进行预测的预测模型;S3、对预测模型进行参数求解;S4、利用求解后的预测模型对测试数据进行预测;其中,步骤S3包括:S3.1、选取预测模型的损失函数,将最小化预测模型的损失函数的期望设置为目标函数;S3.2、计算损失函数的变分上界;S3.3、基于损失函数的变分上界,优化目标函数;S3.4、使用迭代复加权最小二乘法以求解目标函数。实施例1:步骤S3.1中的损失函数取铰链损失函数,本专利技术包括如下步骤:A1、对测试数据进行预处理,提取测试数据的特征并进行归一化处理;在此以二分类问题为例,多分类任务可以通过使用one-vs-all或者one-vs-one方式的多种二分类器实现。其中训练样本为数据特征和响应变量的集合(x,y),其中是输入的特征向量,其中,D表示特征向量的维度,y∈{+1,-1}表示二分类问题的类别标签。A2、根据步骤A1中测试数据的特征建立用以对测试数据进行预测的预测模型;A3、对预测模型进行参数求解;A3.1、选取铰链损失函数为预测模型的损失函数,将最小化预测模型的铰链损失函数的期望设置为目标函数;令模型的铰链损失函数的期望表示为其中,l为模型预测错误时的代价,N为样本数目,w为预测模型权值向量,为经过扰动后的输入特征,表示所有可观测数据θ:={w}表示所有需要训练学习得到的模型参数,表示铰链损失函数;上述的l及N均取预设值。由于无法写出max函数的期望的解析解,因此最小化铰链损失函数的期望是无法计算的。本专利技术通过引入数据增广变量,建立铰链损失函数期望的变分上界。A3.2、计算铰链损失函数的变分上界;令为样本n对应的响应变量的伪似然函数,其中,c为正则化参数且取预设值,于是可以得到:使用数据增广的方法,得到伪似然函数等价为:其中,λn,n∈[N]是增广变量。使用(3)和杰森不等式,可以得到铰链损失函数期望的变分上界如下:其中H(λn)是变分分布的熵。定义表示变分分布q的期望,表示噪声扰动分布p的期望。A3.3、基于铰链损失函数的变分上界,优化所述目标函数;其中P是归一化的概率本文档来自技高网
...
基于噪声扰动的测试数据预测方法

【技术保护点】
一种基于噪声扰动的测试数据预测方法,其特征在于,包括以下步骤:S1、对测试数据进行预处理,提取所述测试数据的特征并进行归一化处理;S2、根据所述测试数据的特征建立用以对测试数据进行预测的预测模型;S3、对所述预测模型进行参数求解;S4、利用求解后的所述预测模型对测试数据进行预测;其中,步骤S3包括:S3.1、选取所述预测模型的损失函数,将最小化所述预测模型的损失函数的期望设置为目标函数;S3.2、计算所述损失函数的变分上界;S3.3、基于所述损失函数的变分上界,优化所述目标函数;S3.4、使用迭代复加权最小二乘法以求解目标函数。

【技术特征摘要】
1.一种基于噪声扰动的测试数据预测方法,其特征在于,包括以下步骤:S1、对测试数据进行预处理,提取所述测试数据的特征并进行归一化处理;S2、根据所述测试数据的特征建立用以对测试数据进行预测的预测模型;S3、对所述预测模型进行参数求解;S4、利用求解后的所述预测模型对测试数据进行预测;其中,步骤S3包括:S3.1、选取所述预测模型的损失函数,将最小化所述预测模型的损失函数的期望设置为目标函数;S3.2、计算所述损失函数的变分上界;S3.3、基于所述损失函数的变分上界,优化所述目标函数;S3.4、使用迭代复加权最小二乘法以求解目标函数;步骤S3.1中的损失函数为铰链损失函数,所述目标函数为最小化所述预测模型的铰链损失函数的期望;铰链损失函数变分上界的公式如下:其中,θ:={w}表示所有需要训练学习得到的模型参数;w为预测模型权值向量;N为样本数目;λn,n∈[N]是增广变量;q(λ)为变分分布;H(λn)是变分分布的熵;定义表示变分分布q的期望,表示噪声扰动分布p的期望;l为模型预测错误时的代价,为经过扰动后的输入特征;为样本n对应的响应变量的伪似然函数;c为正则化参数且取预设值;yn取值+1或-1,表示第n个样本的类别标签;constant为常数;或步骤S3.1中的损失函数为罗杰斯特损失函数,所述目标函数为最小化所述预测模型...

【专利技术属性】
技术研发人员:陈宁朱军陈键飞张钹
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1