基于动态构图的半监督分类方法技术

技术编号:23892313 阅读:49 留言:0更新日期:2020-04-22 06:58
本公开涉及一种基于动态构图的半监督分类的方法,包括:S100、准备数据集;S200、在步骤S100准备的数据集上使用动态近邻DNN方法进行选边,得到邻接矩阵A;S300、对步骤S200中生成的邻接矩阵A使用ADW方法计算节点间的相似概率,得到亲和矩阵M;S400、根据步骤S300得到的亲和矩阵M进行标签传播得到最终的分类结果。本公开提出的分类方法能够捕捉数据的分布,在数据稠密区域连接更多的边,在数据稀疏区域连接较少的边,可以更好地反映数据的疏密程度,因此具有更好的分类效果。

【技术实现步骤摘要】
基于动态构图的半监督分类方法
本公开涉及数据分类方法,具体地讲,涉及一种基于动态构图DCG(DynamicConstructionGraph)的半监督分类方法。
技术介绍
现有的数据分类方法包括有监督分类、半监督分类、无监督分类等方法。其中有监督分类方法中需要大量的已标记数据来训练模型,限制了其应用场景;无监督分类不需要数据的类别信息,应用广泛,但由于缺乏类别信息导致分类效果不好。半监督分类方法因只需少量的已标记的数据,获取成本低,又能通过学习大量的未标记数据的数据分布而得到较好的分类效果,因而具有广泛的应用场景。基于图的半监督分类是半监督分类中一个重要的分支,由于充分利用了数据之间的关系,往往取得较好的效果,得到广泛的关注。然而,目前的基于图的半监督分类方法中,相似度图往往由k-近邻(kNN)或ε-近邻的方法构造,在构造图的过程中,只是使用了数据的属性特征,并没有使用到已标记数据的类别信息,得到的相似度图不能很好地反应实际情况,分类结果也较不准确。根据不同的数据分布假设,会构建不同的图结构。理想的图应当具备下面的三个特征:选边本文档来自技高网...

【技术保护点】
1.一种基于动态构图的半监督分类方法,包括:/nS100、准备数据集,所述数据集包括已标记数据X

【技术特征摘要】
1.一种基于动态构图的半监督分类方法,包括:
S100、准备数据集,所述数据集包括已标记数据Xl和未标记数据Xu两部分,已标记数据Xl的标记信息为Fl,数据集中数据的特征通过数据属性信息来描述,l表示已标记数据的个数,将数据集中的数据抽象为m维空间上的n个节点,第i个节点表示为pi;
S200、在步骤S100准备的数据集上使用动态近邻DNN方法进行选边,得到邻接矩阵A,具体为:
S201、计算所述数据集中节点间的欧氏距离,得到直接距离矩阵S;
S202、使用动态近邻DNN方法选择节点pi的D近邻,作为所选择的边,并根据D近邻生成邻接矩阵A,A是一个n×n的矩阵,邻接矩阵A中,若pj是pi的近邻,则矩阵中相应位置Aij的值为1,否则为0,Aij表示邻接矩阵A中第i行第j列的值;
S300、对步骤S200中生成的邻接矩阵A使用ADW方法计算节点间的相似概率,得到亲和矩阵M,具体为:
S301、根据步骤S201中的直接距离矩阵S和步骤S202中定义的邻接矩阵A定义距离矩阵S′,S′ij代表距离矩阵S′中第i行第j列的值,具体定义为:
当i≠j时,



当i=j时,S′ij=0;
S302、根据步骤301中定义的距离矩阵S′定义权值矩阵W,权值矩阵W是一个n×n的矩阵,其中Wij用来描述节点pi和节点pj的相似度,即权值矩阵W第i行第j列的值;
S303、将步骤302中定义的权值矩阵W归一化后得到亲和矩阵M,亲和矩阵M是一个n×n的矩阵,其中Mij用来描述节点pi和节点pj相似的概率,即亲和矩阵M第i行第j列的值;
S400、根据步骤S300得到的亲和矩阵M进行标签传播得到最终的分类结果。


2.根据权利要求1所述的方法,优选的,所述步骤S100中的数据集包括合成数据集TwoSpirals、ToyData、FourGaussian、TwoMoon以及图像数据集USPS、Mnist、Mnist-3495、Coil20、Coil(1500)、G241d、COIL2。


3.根据权利要求1所述的方法,所述步骤S201中,数据集中节点pi和pj之间的欧氏距离为:



其中m表示数据的维度,pi、pj表示图中的第i、j个节点,xik和xjk分别是节点pi、pj第k维的坐标,根据节点间的欧氏距离生成直接距离矩阵S,直接距离矩阵S是一个n×n的二维矩阵,Sij表示矩阵中第i行第j列的值,存储节点pi和节点pj之间的欧氏距离。


4.根据权利要求3所述的方法,所述步骤S201还包括:
对直接距离矩阵S中的每个节点与其他节点的欧氏距离按从小到大的顺序进行排序得到矩阵O,同时生成其对应直接距离矩阵S的索引矩阵E,具体过程为,对于直接距离矩阵S中的第i行,将其存储的距离按从小到大的顺序排序,将排序为j-1的距离存储在Oij中,同时将该距离在直接距离矩阵S中的位置存储在Eij中,由此通过索引矩阵E可以查找到矩阵O中存储的距离在直接距离矩阵S中的对应位置;矩阵O和索引矩阵E都是n×n的二维矩阵,Eij表示索引矩阵E的第i行第j列的元素。


5.根据权利要求4所述的方法,所述步骤S202中使用动态近邻DNN方法选择节点pi的D近邻具体...

【专利技术属性】
技术研发人员:马君亮肖冰敬欣怡何聚厚汪西莉
申请(专利权)人:陕西师范大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1