自适应多标签预测方法技术

技术编号:12346058 阅读:58 留言:0更新日期:2015-11-18 18:38
本发明专利技术公开了一种自适应多标签预测方法,其特征是按如下步骤进行:1、获得初始化示例集;2、获得初始化示例集中的领袖示例、局外示例和选民示例;3、获得选民示例集的所属聚类;4、采用支持向量机对预测示例进行粗分类;5、对预测示例进行多标签预测。本发明专利技术能准确地对网络信息加上标签,提高多标签预测的准确性、普适性、可解释性以及可移转性,从而实现大数据环境下智能信息分类和处理。

【技术实现步骤摘要】
自适应多标签预测方法
本专利技术属于智能信息分类与处理领域,特别是涉及一种可应用于大数据环境下多媒体资讯的快速聚类及发现密度峰值点的自适应多标签预测方法。
技术介绍
随着网络的快速发展,信息量正成几何趋势增长,当下的微博、论坛、微信、在线视频、网络购物和社交网络无一例外都需要标签来方便用户的搜索和分类,准确而详尽的标签一方面可让用户能够快速地找到其所需,另一方面商家也可以借助标签对用户进行分类,对不同的用户群推荐迎合其口味的产品,从而避免用户因浏览大量无关信息,使有价值的内容淹没在信息的海洋中。反之商家若是无法正确处理信息过载问题,将最终导致消费者的不断流失。目前给信息加多标签的方法主要有将多标签分解转化为独立的单一标签进行标记和将多标签转化为标签间的排序来标记。转化为单一标签,将多标签之间的关联关系完全忽略,准确性低;标签间的排序不仅需要大量的计算,且确定标签的排序后,还需要进一步确定是该标签的前标签还是后标签相似程度更高,因此同样存在准确性不高的缺陷。相较于本专利技术,目前的处理方法存在以下缺点:1、目前的网络信息通过计算机的学习方法,对单一标签也就是识别问题做出的预测方法较多,但由于信息的多标签存在关联关系,因此利用分解多标签为单一多标签的方法,标签的准确性较低,不能达到实用的目的。2、目前的多标签预测技术往往只能对给定的静态数据集做出处理,如考虑新增信息,往往需要重新学习,重新设置参数,不能做到随数据的变化而自动调整参数,因此泛化性弱,普适性差。3、将信息的多标签预测转为标签间的序关系来处理,不仅需要大量的计算,且可解释性较差,预测的准确性也不高。4、现有的多标签预测技术多是以提高某一评价标注而设计的,忽略了其它标准,这造成了其可移植性差的特点,仅适合在满足某些条件的数据集中使用。
技术实现思路
本专利技术是为了克服现有技术存在的不足之处,提供一种自适应多标签预测方法,以期能准确地对网络信息加上标签,提高多标签预测的准确性、普适性、可解释性以及可移转性,从而实现大数据环境下智能信息分类和处理。本专利技术为解决技术问题采用如下技术方案:本专利技术一种自适应多标签预测方法的特点是按如下步骤进行:步骤1:获得初始化示例集D:步骤1.1、由num′个已知对象建立原始示例集D′={inst′1,inst′2,…,inst′a,…,inst′num′},inst′a表示第a个已知对象所对应的原始示例;1≤a≤num′;并有inst′a={attr′a;lab′a};attr′a表示所述第a个已知对象特征的属性集;lab′a表示所述第a个已知对象语义的标签集;并有attr′a={attr′a,1,attr′a,2,…,attr′a,n};attr′a,n表示第a个已知对象的第n个属性;n为第a个已知对象的属性数;lab′a={lab′a,1,lab′a,2,…,lab′a,x,…,lab′a,m};lab′a,x表示第a个已知对象的第x个标签;m为第a个已知对象的标签数;1≤x≤m;并有:lab′a,x=1表示第a个已知对象语义符合第x个标签;lab′a,x=0表示第a个已知对象语义不符合第x个标签;步骤1.2、对所述原始示例集D′中的num′个已知对象特征的属性集{attr′1,attr′2,…,attr′a,…,attr′num′}分别进行归一化处理,获得归一化处理后的num′个已知对象特征的属性集{attr″1,attr″2,…,attr″a,…,attr″num′};当所述归一化后的第a个已知对象特征的属性集arrta″对应的m个标签值均为0时,删除所述归一化后的第a个已知对象所属的原始示例;从而获得num个示例构成的初始化示例集D={inst1,inst2,…,insti,…,instnum};insti表示初始化后的第i个已知对象所对应的示例;并有insti={attri;labi};attri表示初始化后的第i个示例特征的属性集;labi表示初始化后的所述第i个示例语义的标签集;1≤i≤num;步骤2:求解所述初始化示例集D中各示例的群聚度,从而确定初始化示例集D中的领袖示例、局外示例和选民示例:步骤2.1、将所述初始化示例集D中num个示例中的每个示例的m个标签分别作为m维坐标,从而获得第i个示例insti与第k个示例instk标签的欧式距离dik;1≤k≤num且k≠i;步骤2.2、定义迭代次数γ;并初始化γ=1;定义所述第i个示例insti的所属聚类为clui;步骤2.3、利用式(1)获得第γ次迭代的第i个示例insti的内聚合度从而获得第γ次迭代的num个示例的内聚合度并将最大的内聚合度记为式(1)中,为第γ次迭代的阈值;当时,当时,步骤2.4、利用式(2)或式(3)获得第γ次迭代的第i个示例insti的差异度从而获得第γ次迭代的num个示例的差异度步骤2.5、对所述第γ次迭代的num个示例的差异度δ(γ)进行归一化处理,获得归一化后的差异度步骤2.6、利用式(4)获得第γ次迭代的第i个示例insti的群聚度从而获得第γ次迭代的num个示例的群聚度步骤2.7、对所述第γ次迭代的num个示例的群聚度sco(γ)进行降序排列,获得群聚度序列并令与所述群聚度序列sco′(γ)相对应的内聚合度为ρ′t(γ)表示当时的第γ次迭代的第i个示例insti的内聚合度;1≤t≤num;步骤2.8、初始化t=1;步骤2.9、判断且ρ′t(γ)≥num×3%是否成立,若成立,则第γ次迭代的阈值为有效值,并记录t后,执行步骤2.10;否则,判断是否成立,若成立,则将t+1赋值给t,并重复执行步骤2.9;否则,修改阈值将γ+1赋值给γ,并返回执行步骤2.3;步骤2.10、判断第γ次迭代的第i个示例insti的内聚合度是否满足若满足,则所述第i个示例insti为局外示例,且令所述第i个示例insti的所属聚类clui=-1;否则,判断是否成立,若成立,则第i个示例insti为领袖示例,且令clui=i,否则,第i个示例insti为选民示例;步骤2.11、统计所述领袖示例的个数和所述选民示例的个数,并分别记为N和M;步骤2.12、记N个领袖示例集为1≤α≤N;则与所述N个领袖示例集D(l)相对应的内聚合度为表示第α个领袖示例的内聚合度;与所述N个领袖示例集D(l)相对应的标签集为表示第α个领袖示例的标签集;与所述N个领袖示例集D(l)相对应的所属聚类为表示第α个领袖示例的所属聚类;步骤2.13、记M个选民示例集为1≤β≤M;则与所述M个选民示例集D(v)相对应的内聚合度为表示第β个选民示例的内聚合度;与所述M个选民示例集D(v)相对应的标签集为表示第β个选民示例的标签集;与所述M个选民示例集D(v)相对应的所属聚类为表示第β个选民示例的所属聚类;步骤3:获得所述M个选民示例集D(v)的所属聚类clu(v):步骤3.1、定义迭代次数χ;并初始化χ=1;并定义第z个中转示例instz;z≥0;并初始化α=1、β=1、z=0;步骤3.2、从所述N个领袖示例集D(l)中选取任第α个领袖示例获得所述第α个领袖示例为与第χ次迭代的第β个选民示例标签的欧式距离步骤3.3、若时,则将β+1赋值给β,并判断β≤M是否成立,若成立,重复执行步骤本文档来自技高网
...

【技术保护点】
一种自适应多标签预测方法,其特征是按如下步骤进行:步骤1:获得初始化示例集D:步骤1.1、由num′个已知对象建立原始示例集D′={inst′1,inst′2,…,inst′a,…,inst′num′},inst′a表示第a个已知对象所对应的原始示例;1≤a≤num′;并有inst′a={attr′a;lab′a};attr′a表示所述第a个已知对象特征的属性集;lab′a表示所述第a个已知对象语义的标签集;并有attr′a={attr′a,1,attr′a,2,…,attr′a,n};attr′a,n表示第a个已知对象的第n个属性;n为第a个已知对象的属性数;lab′a={lab′a,1,lab′a,2,…,lab′a,x,…,lab′a,m};lab′a,x表示第a个已知对象的第x个标签;m为第a个已知对象的标签数;1≤x≤m;并有:lab′a,x=1表示第a个已知对象语义符合第x个标签;lab′a,x=0表示第a个已知对象语义不符合第x个标签;步骤1.2、对所述原始示例集D′中的num′个已知对象特征的属性集{attr′1,attr′2,…,attr′a,…,attr′num′}分别进行归一化处理,获得归一化处理后的num′个已知对象特征的属性集{attr″1,attr″2,…,attr″a,…,attr″num′};当所述归一化后的第a个已知对象特征的属性集arrta″对应的m个标签值均为0时,删除所述归一化后的第a个已知对象所属的原始示例;从而获得num个示例构成的初始化示例集D={inst1,inst2,…,insti,…,instnum};insti表示初始化后的第i个已知对象所对应的示例;并有insti={attri;labi};attri表示初始化后的第i个示例特征的属性集;labi表示初始化后的所述第i个示例语义的标签集;1≤i≤num;步骤2:求解所述初始化示例集D中各示例的群聚度,从而确定初始化示例集D中的领袖示例、局外示例和选民示例:步骤2.1、将所述初始化示例集D中num个示例中的每个示例的m个标签分别作为m维坐标,从而获得第i个示例insti与第k个示例instk标签的欧式距离dik;1≤k≤num且k≠i;步骤2.2、定义迭代次数γ;并初始化γ=1;定义所述第i个示例insti的所属聚类为clui;步骤2.3、利用式(1)获得第γ次迭代的第i个示例insti的内聚合度从而获得第γ次迭代的num个示例的内聚合度并将最大的内聚合度记为ρi(γ)=Σk=1numf(dik-dc(γ))---(1)]]>式(1)中,为第γ次迭代的阈值;当dik≤dc(γ)]]>时,f(dik-dc(γ))=1;]]>当dik>dc(γ)]]>时,f(dik-dc(γ))=0;]]>步骤2.4、利用式(2)或式(3)获得第γ次迭代的第i个示例insti的差异度从而获得第γ次迭代的num个示例的差异度δ(γ)={δ1(γ),δ2(γ),...,δi(γ),...,δnum(γ)}:]]>δi(γ)=Σk=1nummax(dik),]]>当ρi(γ)=ρmax(γ)---(2)]]>当ρi(γ)≠ρmax(γ)---(3)]]>步骤2.5、对所述第γ次迭代的num个示例的差异度δ(γ)进行归一化处理,获得归一化后的差异度δ′(γ)={δ1′(γ),δ2′(γ),...,δi′(γ),...,δnum′(γ)};]]>步骤2.6、利用式(4)获得第γ次迭代的第i个示例insti的群聚度从而获得第γ次迭代的num个示例的群聚度sco(γ)={sco1(γ),sco2(γ),...,scoi(γ)...,sconum(γ)}:]]>scoi(γ)=ρi(γ)×δi′(γ)---(4)]]>步骤2.7、对所述第γ次迭代的num个示例的群聚度sco(γ)进行降序排列,获得群聚度序列并令与所述群聚度序列sco′(γ)相对应的内聚合度为ρ(γ)={&rh...

【技术特征摘要】
2015.06.24 CN 20151035503091.一种自适应多标签预测方法,其特征是按如下步骤进行:步骤1:获得初始化示例集D:步骤1.1、由num′个已知对象建立原始示例集D′={inst′1,inst′2,…,inst′a,…,inst′num′},inst′a表示第a个已知对象所对应的原始示例;1≤a≤num′;并有inst′a={attr′a;lab′a};attr′a表示所述第a个已知对象特征的属性集;lab′a表示所述第a个已知对象语义的标签集;并有attr′a={attr′a,1,attr′a,2,…,attr′a,n};attr′a,n表示第a个已知对象的第n个属性;n为第a个已知对象的属性数;lab′a={lab′a,1,lab′a,2,…,lab′a,x,…,lab′a,m};lab′a,x表示第a个已知对象的第x个标签;m为第a个已知对象的标签数;1≤x≤m;并有:lab′a,x=1表示第a个已知对象语义符合第x个标签;lab′a,x=0表示第a个已知对象语义不符合第x个标签;步骤1.2、对所述原始示例集D′中的num′个已知对象特征的属性集{attr′1,attr′2,…,attr′a,…,attr′num′}分别进行归一化处理,获得归一化处理后的num′个已知对象特征的属性集{attr″1,attr″2,…,attr″a,…,attr″num′};当所述归一化后的第a个已知对象特征的属性集arrt″a对应的m个标签值均为0时,删除所述归一化后的第a个已知对象所属的原始示例;从而获得num个示例构成的初始化示例集D={inst1,inst2,…,insti,…,instnum};insti表示初始化后的第i个已知对象所对应的示例;并有insti={attri;labi};attri表示初始化后的第i个示例特征的属性集;labi表示初始化后的所述第i个示例语义的标签集;1≤i≤num;步骤2:求解所述初始化示例集D中各示例的群聚度,从而确定初始化示例集D中的领袖示例、局外示例和选民示例:步骤2.1、将所述初始化示例集D中num个示例中的每个示例的m个标签分别作为m维坐标,从而获得第i个示例insti与第k个示例instk标签的欧式距离dik;1≤k≤num且k≠i;步骤2.2、定义迭代次数γ;并初始化γ=1;定义所述第i个示例insti的所属聚类为clui;步骤2.3、利用式(1)获得第γ次迭代的第i个示例insti的内聚合度从而获得第γ次迭代的num个示例的内聚合度并将最大的内聚合度记为式(1)中,为第γ次迭代的阈值;当时,当时,步骤2.4、利用式(2)或式(3)获得第γ次迭代的第i个示例insti的差异度从而获得第γ次迭代的num个示例的差异度当当步骤2.5、对所述第γ次迭代的num个示例的差异度δ(γ)进行归一化处理,获得归一化后的差异度步骤2.6、利用式(4)获得第γ次迭代的第i个示例insti的群聚度从而获得第γ次迭代的num个示例的群聚度步骤2.7、对所述第γ次迭代的num个示例的群聚度sco(γ)进行降序排列,获得群聚度序列并令与所述群聚度序列sco′(γ)相对应的内聚合度为表示当时的第γ次迭代的第i个示例insti的内聚合度;1≤t≤num;步骤2.8、初始化t=1;步骤2.9、判断且是否成立,若成立,则第γ次迭代的阈值为有效值,并记录t后,执行步骤2.10;否则,判断是否成立,若成立,则将t+1赋值给t,并重复执行步骤2.9;否则,修改阈值将γ+1赋值给γ,并返回执行步骤2.3;步骤2.10、判断第γ次迭代的第i个示例insti的内聚合度是否满足若满足,则所述第i个示例insti为局外示例,且令所述第i个示例insti的所属聚类clui=-1;否则,判断是否成立,若成立,则第i个示例insti为领袖示例,且令clui=i,否则,第i个示例insti为选民示例;步骤2.11、统计所述领袖示例的个数和所述选民示例的个数,并分别记为N和M;步骤2.12、记N个领袖示例集为1≤α≤N;则与所述N个领袖示例集D(l)相对应的内聚合度为表示第α个领袖示例的内聚合度;与所述N个领袖示例集D(l)相对应的标签集为表示第α个领袖示例的标签集;与所述N个领袖示例集D(l)相对应的所属聚类为表示第α个领袖示例的所属聚类;步骤2.13、记M个选民示例集为1≤β≤M;则与所述M个选民示例集D(v)相对应的内聚合度为表示第β个选民示例的内聚合度;与所述M个选民示例集D(v)相对应的标签集为表示第β个选民示例的标签集;与所述M个选民示例集D(v)相对应的所属聚类为表示第β个选民示例的所属聚类;步骤3:获得所述M个选民示例集D(v)的所属聚类clu(v):步骤3.1、定义迭代次数χ;并初始化χ=1;并定义第z个中转示例instz;z≥0;并初始化α=1、β=1、z=0;步骤3.2、从所述N个领袖示例集D(l)中选取任第α个领袖示例获得所述第α个领袖示例为与第χ次迭代的第β个选民示例标签的欧式距离步骤3.3、若时,则将β+1赋值给β,并判断β≤M是否成立,若成立,重复执行步骤3.3;否则执行步骤3.5;若时,判断第χ次迭代的第β个选民示例的所属聚类是否为空,若为空,则执行步骤3.4;否则,表示第χ次迭代的第β个选民示例的所属聚类的值为第χ次迭代现有的领袖示例的下标,记为执行步骤3.11;步骤3.4、将第α个领袖示例的下标α(l)赋值给并将z+1赋值给z,令表示将第χ次迭代的第β个选民示例中的下标βχ、标签集内聚合度和所属聚类均赋值给第χ次迭代的第z个中转示例的下标、标签集、内聚合度和所属聚类;并将β+1赋值给β;判断β≤M是否成立,若成立,则执行步骤3.3;...

【专利技术属性】
技术研发人员:胡学钢王博岩李培培
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1