The invention discloses a classification method of sorting transfer by using privileged information. Considering the existence of positive labeled samples and unlabeled samples and their privileged information at the same time, the invention combines positive samples PS, negative samples ns, unlabeled samples and their similar rights into the learning model of the sorting support vector machine to obtain the extended first sorting support vector machine model. In the case of only privileged Training on information training set. Then, the classifier trained by privilege information is used to calculate the actual distance between common training samples (excluding privilege information). Finally, real distance is used instead of constant distance 1 to train the second sort SVM model on the common training sample set. The actual sample spacing calculated by the privilege information is more accurate than the constant spacing 1, and the classifier can be more accurate by using the actual spacing to learn.
【技术实现步骤摘要】
一种利用特权信息进行排序转移的分类方法
本专利技术涉及机器学习的
,尤其涉及到一种利用特权信息进行排序转移的分类方法。
技术介绍
在传统的监督学习中,仅对有标记的训练样本进行学习,从而建立模型用于预测未知样本的标记。随着数据收集和存储技术的飞速发展,收集大量未标记的样本相当容易,因为获得这些标记可能需要耗费大量的资源,所以获取大量有标记的样本相当困难。比如说标记异常。因为未标记样本很容易得到,所以正标记数据和未标记数据的学习(PU学习)引起了很大的关注。在现有的工作中对PU学习进行了很多研究,这些研究表明未标记样本更容易位于决策边界附近,在分类器的构建中起着至关重要的作用。考虑到PU学习的现有研究工作已经使用了不同方法处理未标记样本,根据处理未标记数据的方法将现有的PU学习方法主要分为三类。第一类遵循两步策略[1]B.Liu,W.S.Lee,P.S.Yu,andX.Li,"Partiallysupervisedclassificationoftextdocuments."pp.387-394.以及[2]X.Li,and ...
【技术保护点】
1.一种利用特权信息进行排序转移的分类方法,其特征在于,包括以下步骤:/nS1:利用正标记样本和提取的可靠负样本,建立代表性的正原型和代表性的负原型;/nS2:为剩下的未标记样本创建两个相似性权重m
【技术特征摘要】
1.一种利用特权信息进行排序转移的分类方法,其特征在于,包括以下步骤:
S1:利用正标记样本和提取的可靠负样本,建立代表性的正原型和代表性的负原型;
S2:为剩下的未标记样本创建两个相似性权重m+(x)和m-(x);
S3:将正样本PS、负样本NS、未标记样本及其相似权结合到排序支持向量机的学习模型中,得到扩展的第一排序支持向量机模型;
S4:在特权信息x*上训练扩展的第一排序支持向量机模型,得到排序函数f*(x*)=<w*,x*>;
S5:采用步骤S4得到的排序函数计算两个样本之间的间距
S6:用样本间距ρij、ρik、ρkj分别去代替所有样本对之间的恒定间距1,得到扩展的第二排序支持向量机模型;
S7:在普通训练样本x上训练扩展的第二排序支持向量机模型,最后得到相应的最优解。
2.根据权利要求1所述的一种利用特权信息进行排序转移的分类方法,其特征在于,所述步骤S1建立代表性的正原型和代表性的负原型的具体步骤如下:
S1-1:利用Spy技术和Rocchio技术提取可靠的负样本,分别为子集S1和S2;
S1-2:确定最可靠的负样本:NS=S1∩S2;
S1-3:从未标记样本中删除最可靠的负样本:US=US-NS;
S1-4:利用K均值聚类将NS中的样本聚类成m个微聚类,表示为NS1,NS2,…,NSm,来建立代表性的正原型和代表性的负原型。
3.根据权利要求2所述的一种利用特权信息进行排序转移的分类方法,其特征在于,所述步骤S1-4中,建立的代表性的正原型和代表性的负原型表示如下:
正原型:
负原型:
其中,||x||表示示例x的范数;α、β、t均为设置参数;第v个代表性正原型表示为pv和第v个代表性负原型表示为nv。
4.根据权利要求1所述的一种利用特权信息进行排序转移的分类方法,其特征在于,所述步骤S2为剩下的未标记样本创建两个相似性权重m+(x)和m-(x)的具体步骤如下:
S2-1:将剩下的未标记样本US中的样本聚类为r个微聚类,即US1,US2,…,USr;
S2-2:利用基于局部相似机制和全局相似机制生成相似权重;
S2-3:将权重分配给r个微聚类中的每个样本。
5.根据权利要求4所述的一种利用特权信息进行排序转移的分类方法,其特征在于,所述步骤S2-2利用基于局部相似机制和全局相似机制生成相似权重的具体步骤如下:
1)局部相似机制:假设有样本最接近正原型pv,以及有样本最接近负原型nv,u=1…r...
【专利技术属性】
技术研发人员:刘倩,刘波,肖燕珊,李松松,刘芷菁,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。