自适应多标签预测方法技术

技术编号:12059327 阅读:147 留言:0更新日期:2015-09-17 09:27
本发明专利技术公开了一种自适应多标签预测方法,其特征是按如下步骤进行:1、获得初始化示例集;2、获得初始化示例集中的领袖示例、局外示例和选民示例;3、获得选民示例集的所属聚类;4、采用支持向量机对预测示例进行粗分类;5、对预测示例进行多标签预测。本发明专利技术能准确地对网络信息加上标签,提高多标签预测的准确性、普适性、可解释性以及可移转性,从而实现大数据环境下智能信息分类和处理。

【技术实现步骤摘要】

【技术保护点】
一种自适应多标签预测方法,其特征是按如下步骤进行:步骤1:获得初始化示例集D:步骤1.1、由num′个已知对象建立原始示例集D′={inst′1,inst′2,…,inst′a,…,inst′num′},inst′a表示第a个已知对象所对应的原始示例;1≤a≤num′;并有inst′a={attr′a;lab′a};attr′a表示所述第a个已知对象特征的属性集;lab′a表示所述第a个已知对象语义的标签集;并有attr′a={attr′a,1,attr′a,2,…,attr′a,n};attr′a,n表示第a个已知对象的第n个属性;n为第a个已知对象的属性数;lab′a={lab′a,1,lab′a,2,…,lab′a,x,…,lab′a,m};lab′a,x表示第a个已知对象的第x个标签;m为第a个已知对象的标签数;1≤x≤m;并有:lab′a,x=1表示第a个已知对象语义符合第x个标签;lab′a,x=0表示第a个已知对象语义不符合第x个标签;步骤1.2、对所述原始示例集D′中的num′个已知对象特征的属性集{attr′1,attr′2,…,attr′a,…,attr′num′}分别进行归一化处理,获得归一化处理后的num′个已知对象特征的属性集{attr″1,attr″2,…,attr″a,…,attr″num′};当所述归一化后的第a个已知对象特征的属性集arrta″对应的m个标签值均为0时,删除所述归一化后的第a个已知对象所属的原始示例;从而获得num个示例构成的初始化示例集D={inst1,inst2,…,insti,…,instnum};insti表示初始化后的第i个已知对象所对应的示例;并有insti={attri;labi};attri表示初始化后的第i个示例特征的属性集;labi表示初始化后的所述第i个示例语义的标签集;1≤i≤num;步骤2:求解所述初始化示例集D中各示例的群聚度,从而确定初始化示例集D中的领袖示例、局外示例和选民示例:步骤2.1、将所述初始化示例集D中num个示例中的每个示例的m个标签分别作为m维坐标,从而获得第i个示例insti与第k个示例instk的欧式距离dik;1≤k≤num且k≠i;步骤2.2、定义迭代次数γ;并初始化γ=1;定义所述第i个示例insti的所属聚类为clui;步骤2.3、利用式(1)获得第γ次迭代的第i个示例insti的内聚合度从而获得第γ次迭代的num个示例的内聚合度并将最大的内聚合度记为ρi(γ)=Σk=1numf(dik-dc(γ))---(1)]]>式(1)中,为第γ次迭代的阈值;当时,当时,f(dik-dc(γ))=0;]]>步骤2.4、利用式(2)或式(3)获得第γ次迭代的第i个示例insti的差异度从而获得第γ次迭代的num个示例的差异度δ(γ)={δ1(γ),δ2(γ),...,δi(γ),...,δnum(γ)}:]]>δi(γ)=Σk=1nummax(dik),]]>当ρi(γ)=ρmax(γ)---(2)]]>当ρi(γ)≠ρmax(γ)---(3)]]>步骤2.5、对所述第γ次迭代的num个示例的差异度δ(γ)进行归一化处理,获得归一化后的差异度δ′(γ)={δ1′(γ),δ2′(γ),...,δi′(γ),...,δnum′(γ)};]]>步骤2.6、利用式(4)获得第γ次迭代的第i个示例insti的群聚度从而获得第γ次迭代的num个示例的群聚度sco(γ)={sco1(γ),sco2(γ),...,scoi(γ)...,sconum(γ)}:]]>scoi(γ)=ρi(γ)×δi′(γ)---(4)]]>步骤2.7、对所述第γ次迭代的num个示例的群聚度sco(γ)进行降序排列,获得群聚度序列sco′(γ)={sco1′(γ),sco2′(γ),...,scot′(γ)...,sconum′(γ)...

【技术特征摘要】

【专利技术属性】
技术研发人员:胡学钢王博岩李培培
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1