一种基于NetSim-TL的多源迁移学习标签流行性预测模型的构建方法技术

技术编号:19215749 阅读:70 留言:0更新日期:2018-10-20 06:44
一种基于NetSim‑TL的多源迁移学习标签流行性预测模型的构建方法,包括以下步骤:(1)计算网络的结构相似性,根据WL图核方法,分别计算源领域和目标领域网络结构之间的相似性大小;(2)构建单源迁移学习的基学习器,利用基本的机器学习方法支持向量机分别构建多源迁移学习的基学习器;(3)构建多源迁移学习模型框架,根据不同源领域与目标领域之间的相似性大小,对多个基学习器进行加权,得出基于网络结构相似性的多源迁移学习标签流行性预测模型框架。本发明专利技术提出了利用社区网络结构之间的相似性来作为不同领域社区之间迁移学习模型的权重,进行多源迁移学习模型的构建,在跨社区的标签流行性发展趋势预测上具有较好的效果。

【技术实现步骤摘要】
一种基于NetSim-TL的多源迁移学习标签流行性预测模型的构建方法
本专利技术涉及数据挖掘、图结构分析技术,特别是涉及一种基于NetSim-TL的多源迁移学习标签流行性预测模型的构建方法。
技术介绍
随着互联网技术的快速发展,越来越多的人喜欢花费时间在网络上发布和搜索自己想要的信息,积累了大量的知识问答数据。由于人工智能技术的快速发展,人们对已有的问答数据进行分析,建模以及预测,使得其能够更好的服务于用户。问答社区中的标签数据越来越受到人们的关注,例如研究标签推荐,基于标签的答案推荐,问题推荐等。我们主要研究在问答社区中新提出的标签在未来的流行性趋势预测问题。基于大规模数据的标签流行性趋势预测能够有较好的预测结果,但是在一些冷门问答社区或者是新出现的问答社区,由于具有标记的数据很难获得或者数据量比较少,无法准确的构建较好的预测或者分类模型,于是我们采用迁移学习的方法,即利用相似的较大的问答社区里的数据,来对目标领域的任务进行预测或者分类。迁移学习依据领域和任务是否相同,大致分为四类:(1)基于实例的迁移学习;(2)基于特征的迁移学习;(3)基于参数的迁移学习;(4)基于相关性的迁移学习。目前迁移学习已经在很多领域得到应用,并取得较好的结果,例如软件缺陷预测,人类活动行为的分类和识别,图片分类,文本语义分类等等。在单源领域迁移的问题上,已提出很多方法,例如TrAdaboost、TrBagg、A-SVM等单源迁移学习方法。在多源数据迁移方面已经有很多工作,大部分工作基于数据特征分布之间差异,即用最大均方差异(maximummeandiscrepancy,MMD)作为源社区与目标社区之间的相似性,或者在此基础上,增加一些参数项,调整训练模型的损失函数,达到优化的目的。还有的则是对样本实例进行加权的方法,通过对源领域的数据样本进行数据筛选加权,多次迭代得出最后的权重,例如Yao等人通过改进戴文源等提出的TrAdaboost的方法,将其应用到多源领域,提出了MSTrAdaboost多源迁移模型框架。已有的多源迁移学习模型,在衡量领域相似差异方面主要还是基于特征分布上的差异,这些方法在已有的任务或者应用上已经能够得到较好的应用,但是在网络分类或者涉及到网络特征的多源迁移任务模型中,则不能达到很好的迁移效果。
技术实现思路
为了更好的衡量涉及网络结构的领域之间的差异性,改善多源迁移学习在涉及网络结构方面的任务上的效果,本专利技术提出一种基于NetSim-TL的多源迁移学习标签流行性预测模型的构建方法,使用图核表征方法计算两两网络结构之间的相似性大小,作为目标领域与源领域之间的距离,并将此作为多源迁移学习模型中多个基学习器的权重,对基学习器的预测结果进行加权投票,得出最后的预测结果。本方法提高了多源迁移学习问答社区标签流行性预测的效果。本专利技术解决其技术问题所采用的技术方案如下:一种基于网络结构相似的多源迁移学习模型的构建方法,包括如下步骤:步骤1:计算网络的结构相似性,给定n个源领域和目标领域数据集的网络集合通过Weisfeiler-Lehman(WL)图核方法,计算源领域中网络与目标领域网络GT之间的网络结构相似性大小Ki,得出集合Ω中源社区网络与目标社区网络之间的相似性W1×n={K1,K2,…,Kn};步骤2:构建单源迁移学习的基学习器,分别使用源领域的标记数据和目标领域GT的部分标记数据利用机器学习方法支持向量机(SVM)的方法,训练得出n个单源迁移学习模型的基学习器f={f1,f2,…,fn};步骤3:构建多源迁移学习模型框架。根据步骤1,2得到的源领域社区网络和目标领域社区网络的结构相似性W1×n和分类器f={f1,f2,…,fn}。将Ki作为源社区迁移到目标领域社区构建的基学习器fi的权重,通过对n个基学习器的预测结构进行加权得到最后的预测结果。进一步,所述步骤1中,计算网络的结构相似性的过程为:给定源领域和目标领域的网络集合依次选取集合Ω中每一个源领域网络通过WL图核方法计算源领域社区网络和目标领域社区网络GT网络之间的相似性,给定源领域网络和目标领域网络GT,取迭代次数h=1,当h=0时,对网络中每一个节点分别根据其度值进行重新标记,分别得到两个网络中所有标签种类的频率向量和当h=1时,对网络中的每一个节点,将其本身标签和其邻居节点的标签进行数学加和,作为新的标签,最后统计各个网络中所有新标签的频率向量和迭代次数结束后,统计每次迭代产生的频率向量,进行拼接得到网络和GT的WL所有子树结构的频率向量和利用余弦公式计算得到Ki:作为网络和GT之间的结构相似性,最后得出n个源领域社区网络和目标领域社区网络之间的相似性向量,即W1×n={K1,K2,…Kn}。再进一步,所述步骤2中,单源迁移学习模型的构建过程为:设定n个源领域标记数据集为目标领域数据集为DT={(xT,c(xT))},其中为目标领域有标记数据集,为目标领域无标记数据集,c(x)函数表示样本x的标记函数,c(x)∈{0,1},依次选择源领域数据集和目标领域有标记数据集采用支持向量机(SVM)作为基学习器的方法,核函数为高斯核,在不同源领域和目标领域标记数据上训练基学习器f={f1,f2,…,fn}。更近一步,所述步骤3中,构建多源迁移学习模型框架的过程为:对步骤1,2中得到的结构相似性W1×n和n个基分类器f={f1,f2,…,fn},选择Ki作为源社区迁移到目标领域社区构建的基学习器fi的权重,n个基学习器的权重进行归一化,之和为1,然后进行对每个基学习器的预测结果进行加权投票得出最后的标签流行性预测模型:本专利技术的有益效果表现在:提出了利用社区网络结构之间的相似性来作为不同领域社区之间迁移学习模型的权重,进行多源迁移学习模型的构建,在跨社区的标签流行性发展趋势预测上具有较好的效果。附图说明图1为WL核方法计算网络结构相似性大小的图例说明;图2为本专利技术中基于网络结构相似加权的多源迁移模型框架。具体实施方式下面结合说明书附图对本专利技术的具体实施方式作进一步详细的描述。参照图1和图2,一种基于NetSim-TL的多源迁移学习标签流行性预测模型的构建方法,本专利技术使用了StackExchange问答网站中进行实例分析,数据采用了部分问答社区的网络结构数据,流行标签和非流行标签的标记数据及网络结构特征和非结构特征数据等。本专利技术具体分为以下三个步骤:步骤1:计算网络的结构相似性;步骤2:构建单源迁移学习的基学习器;步骤3:构建多源迁移学习模型框架。所述步骤1中,计算网络的结构相似性,即计算目标领域与源领域网络结构之间的相似性程度,给定n个源领域和目标领域数据集的网络集合通过Weisfeiler-Lehman(WL)图核方法,计算源领域中网络与目标领域网络GT之间的网络结构相似性大小Ki,得出集合Ω中源社区网络和目标社区网络之间的相似性W1×n={K1,K2,…,Kn}。所述步骤1中,计算网络结构相似性的图核方法的过程如下:依次选取集合Ω中每一个源领域网络通过WL核方法计算源领域社区网络和目标领域社区网络GT网络之间的相似性,如附图1所示,给定源领域网络和目标领域网络GT,取迭代次数h=1,当h=0时,对网络中每一个节点分别根据其度值进行重新标记,得到各本文档来自技高网
...

【技术保护点】
1.一种基于NetSim‑TL的多源迁移学习标签流行性预测模型的构建方法,其特征在于,所述方法包括如下步骤:步骤1:计算网络的结构相似性,给定n个源领域和目标领域数据集的网络集合

【技术特征摘要】
1.一种基于NetSim-TL的多源迁移学习标签流行性预测模型的构建方法,其特征在于,所述方法包括如下步骤:步骤1:计算网络的结构相似性,给定n个源领域和目标领域数据集的网络集合通过Weisfeiler-Lehman图核方法,计算源领域中网络与目标领域网络GT之间的网络结构相似性大小Ki,得出集合Ω中源社区网络和目标社区网络结构之间的相似性W1×n={K1,K2,…,Kn};步骤2:构建单源迁移学习的基学习器,分别使用源领域的标记数据和目标领域GT的部分标记数据利用机器学习方法支持向量机的方法,训练得出n个单源迁移学习模型的基学习器f={f1,f2,…,fn};步骤3:构建多源迁移学习模型框架,根据步骤1,2得到的源领域社区网络和目标领域社区网络的结构相似性W1×n和分类器f={f1,f2,…,fn},将Ki作为源社区Si迁移到目标领域社区构建的基学习器fi的权重,通过对n个基学习器的预测结构进行加权得到最后的预测结果。2.如权利要求1所述的一种基于NetSim-TL的多源迁移学习标签流行性预测模型的构建方法,其特征在于:在所述步骤1中,计算网络的结构相似性的过程为:给定源领域和目标领域的网络集合依次选取集合Ω中每一个源领域网络通过WL图核方法计算源领域社区网络和目标领域社区网络GT网络之间的相似性,给定源领域网络和目标领域网络GT,取迭代次数h=1,当h=0时,对网络中每一个节点分别根据其度值进行重新标记,分别得到两个网络中所有标签种类的频率向量和当h=1...

【专利技术属性】
技术研发人员:傅晨波郑永立王金焕宣琦
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1