A step co training learning method. First, get the target problem from two field data, including a small amount of labeled data and unlabeled data, initialization model; in the two field respectively establish corresponding optimization target; loss function in each field are embedded in the self regularization step, to achieve robust learning of the perspective; through a the regularization associating two horizons; get an embedding robust learning mechanism and has model to explain the multi view semi supervised self training step collaborative model; application of target domain labeled data and a large number of unlabeled data and multi view semi supervised learning model, to get high quality unlabeled data annotation, and can to get reliable learners from the perspective of two. The purpose of the invention is to provide a \replacement\ mode of robust learning model for traditional collaborative training algorithm, which makes the target area lack of annotated data and get more accurate and high quality annotation.
【技术实现步骤摘要】
自步-协同训练学习方法
本专利技术涉及一种多视野半监督学习模型与方法,具体涉及一种新型自步-协同训练模型与学习方法。
技术介绍
互联网中有大量的实时数据,例如新闻,图片,视频等,但是这些数据大部分只有关于事件较为模糊的描述,有些甚至完全没有标注信息。当我们要进行查询或者分类任务时,在传统的机器学习算法中,这部分无标注信息或者说弱标注数据基本上没有被使用,造成了可用信息的大量损失。这类数据的特点是有大量的无标注数据,可获得的标注数据有限。因此,如何挖掘无标注数据中的信息成为了机器学习领域中近年来兴起的一项技术。在充分利用标注数据的前提下,尽可能准确地从无标注数据中提取信息,进而对大量的无标注数据进行高质量的标注。半监督学习是一种利用标注数据的监督信息、从无标注数据中提取结构信息的一类学习方法。根据目标任务的不同半监督学习可以分为半监督分类,半监督聚类,半监督回归,而且基于不同的假设已经有很多相关的半监督方法,在实际问题中取得了很好的效果。协同训练方法是其中一种非常经典的多视野半监督学习方法。该方法作用于有两个视野的数据上,两个视野下的特征能够互相补充,共同描述一个样 ...
【技术保护点】
一种自步‑协同训练学习方法,其特征在于包括如下步骤:步骤S1:获取目标领域两个视野下的标注数据集和无标注数据集;步骤S2:确定两个视野下的优化目标;步骤S3:给两个视野的损失函数分别嵌入自步学习机制;步骤S4:根据同一样本在两个视野下的相似性,引入两个视野关联的自步正则项;步骤S5:结合步骤S2、S3及S4,构建嵌入稳健机制的多视野半监督学习模型,称作自步‑协同训练模型;步骤S6:以步骤S1获得的两个视野的全部数据为输入,使用交替优化算法求解步骤S5所构建的自步‑协同训练模型,最终获得未标注数据的高质量标注及最终优化的学习器。
【技术特征摘要】
1.一种自步-协同训练学习方法,其特征在于包括如下步骤:步骤S1:获取目标领域两个视野下的标注数据集和无标注数据集;步骤S2:确定两个视野下的优化目标;步骤S3:给两个视野的损失函数分别嵌入自步学习机制;步骤S4:根据同一样本在两个视野下的相似性,引入两个视野关联的自步正则项;步骤S5:结合步骤S2、S3及S4,构建嵌入稳健机制的多视野半监督学习模型,称作自步-协同训练模型;步骤S6:以步骤S1获得的两个视野的全部数据为输入,使用交替优化算法求解步骤S5所构建的自步-协同训练模型,最终获得未标注数据的高质量标注及最终优化的学习器。2.根据权利要求1所述的自步-协同训练学习方法,其特征在于:所述步骤S1中获取的标注数据集为:无标注数据集为:其中是第j个视野下第i个样本的特征向量,dj是第j个视野下特征空间的维数,yi(i=1,…,l)是第i个样本在两个视野下的共同标注,l是标注数据集的样本数目,u是无标注数据集的样本数目。3.根据权利要求1所述的自步-协同训练学习方法,其特征在于:所述步骤S2中两个视野优化目标表述如下:其中上标j表示第j个视野,gj(x,w)是该视野下的学习器,w(j)是学习器的参数,l(·,·)是损失函数,是第j个视野下第i个样本的特征向量,yi(i=1,…,l)是第i个样本在两个视野下的共同标注,yk(k=l+1,…,l+u)是无标注数据的伪标注。4.根据权利要求1所述的自步-协同训练学习方法,其特征在于:所述步骤S3嵌入自步学习的目标函数如下所示:其中上标j表示第j个视野,是该视野下样本的权重(k=l+1,…,l+u),表示在训练第j个视野下的学习器时,无标记样本被选作训练样本,否则表示该样本未选入训练数据集,f(v,λ)=-vλ是自步正则项的“硬”形式,λ是自步正则参数,该值越大表示会选择更多复杂的样本。5.根据权利要求1所述的自步-协同训练学习方法,其特征在于:所述步骤S4中,两个视野之间的相关性由正则项-γ(V(1))TV(2)体现,其中,V(1),V(2)是u维的向量,分别表示在两个视野下未标记样本对应的权重,第i个元素是两个视野之间具有这样的一致性,在一个视野下被选择的样本即可信的样本,在另一个视野下也是可信的样本,从而被选择。6.根据权利要求1所述的自步-协同训练学习方法,其特征在于:所述步骤S5中,结合步骤S2-S4,得到最终的自步协同训练模型如下:其中γ是控制视野相关程度的参数,此值越大表示两个视野的相关性越强,即在一个视野下被选作训练数据的无标记样本在另一视野下被选择。7.根据权利要求1所述的自步-协同训练学习方法,其特征在于:所述步骤S6用交替优化算法求解步骤S5中的自步协同训练模型步骤如下:S1)初始化首先取V(1)和V(2)为Ru中的零向量,设置λ(1),λ(2)为比较小的值,因此在第一步迭代时只选择少量的未标记样本做训练样例,γ设置为1;两个学习器同时在各自视野下的标记样本上进行学习更新,预测未标记样本的标注值,为了得到未标记样本的可靠预测,其标注值是在两个视野下的预测值的平均,接下来得到无标记数据在不同视野下的损失值;S2)根据交替优化算法对优化变量进行更新...
【专利技术属性】
技术研发人员:孟德宇,谢琦,马凡,李梓娜,赵谦,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。