一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法技术

技术编号:19344221 阅读:30 留言:0更新日期:2018-11-07 14:39
一种基于A‑TrAdaboost算法的多源社区标签发展趋势预测方法,包括以下步骤:(1)构建问答社区中的标签网络;(2)计算源领域社区和目标领域社区结构的向量表征(3)计算源领域与目标领域之间的结构相似性;(4)构建基于A‑TrAdaboost算法的多源社区标签流行性预测模型。本发明专利技术利用网络图表征的方法,得到各个网络的向量表征,进而计算网络之间的相似性,作为不同问答社区之间的领域距离,并将网络结构之间的相似性作为多源迁移学习算法TrAdaboost的初始权重,在进行跨社区预测新标签流行性问题时,能够较好的避免多源迁移中的负迁移问题,提高模型的训练时间和精度。

A prediction method of multi source community label development trend based on A-TrAdaboost algorithm

A multi-source community label development trend prediction method based on A_TrAdaboost algorithm includes the following steps: (1) building label network in question-and-answer community; (2) computing vector representation of community structure in source and target domains; (3) computing structural similarity between source and target domains; (4) building a multi-source community label development trend prediction method based on A_TrAdaboost The algorithm is a multi source community tagging epidemic prediction model. The invention uses the method of network graph representation to obtain vector representation of each network, and then calculates the similarity between networks as the domain distance between different Q&A communities, and takes the similarity between network structures as the initial weight of the multi-source migration learning algorithm TrAdaboost, so as to predict the popularity of new labels across communities. When the problem is solved, the negative migration problem in multi-source migration can be avoided, and the training time and accuracy of the model can be improved.

【技术实现步骤摘要】
一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法
本专利技术涉及数据挖掘、图结构分析技术,特别是涉及一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法。
技术介绍
当前随着移动互联网和智能设备的广泛普及,改变了人们的生活方式,人们更倾向于在网络上发表自己看法和搜集自己需要的信息,因此在线问答社区变得越来越活跃和流行。由于问答社区中的帖子数量巨大,用户在问答社区中获取的信息主要根据问题答案的标签来进行筛选和推荐,随着时间的推移,标签的数量也越来与巨大,问答社区中的标签研究日益成为关注的热点。傅晨波等人(见文献[1]FuC,ZhengY,LiS,etal.PredictingthepopularityoftagsinStackExchangeQAcommunities[C]//ComplexSystemsandNetworks(IWCSN),2017InternationalWorkshopon.IEEE,2017:90-95.即傅晨波,郑永立,李诗迪.预测StackExchange问答社区标签流行性[C]//复杂的系统和网络(IWCSN),2017国际研讨会.IEEE,2017:90-95。)已经研究了问答社区中新标签未来的流行性发展趋势预测,但是其预测模型仅根据单个社区中标签数据来进行模型构建。在这种情况下,当在一些数据量较小的社区或者新出现的社区中使用模型时,由于标记数据样本较少,会使得训练后的模型并不理想。迁移学习从一个相关并同时拥有丰富训练样本的领域中训练模型,并分享到目标领域。利用迁移学习可以解决目标领域训练数据较少的缺陷。因此我们利用迁移学习的思路在其他较大社区中进行模型训练,然后再迁移到目标社区,以提高预测模型的精度。单源迁移时常常会遇到负迁移的状况,使得迁移过来的效果并不好。为了解决这一问题,其中一种方法是设置不同的样本权重,通过设置不同样本之间的权重,选择出对目标任务有帮助的样本,提高迁移学习的效果。TrAdaboost(见文献[2]DaiW,YangQ,XueGR,etal.Boostingfortransferlearning[C]//InternationalConferenceonMachineLearning.ACM,2007:193-200.即戴文渊,杨强,薛贵荣,俞勇.迁移学习集成[C]//国际机器学习会议.ACM,2007:193-200.)方法利用迭代更新权重的方法,通过对每次训练的模型在目标领域上的分类效果,计算误差,反馈更新样本的权重,得出最后的分类模型。另外一种方法是多源迁移的模型框架。已有的多源迁移学习方法已经很多,目前比较常用的迁移学习方法是根据不同领域之间的特征分布的距离作为其衡量领域之间的相似性,进而对不同领域构建的基分类器进行加权。在使用迁移学习的方法来预测问答社区标签流行性发展趋势的预测问题中,根据特征分布之间的差异性来衡量不同领域之间的相似性大小,不能取得较好的迁移提升效果。
技术实现思路
为了解决跨社区标签流行性的预测问题,为了较好的衡量涉及网络结构的不同领域之间的差异,和改善TrAdaboost在在具有负迁移数据源上的迁移效果的鲁棒性,本专利技术提出一种基于网络结构相似性的A-TrAdaboost算法来预测在线问答社区中新标签在未来的流行性发展趋势。本专利技术解决其技术问题所采用的技术方案如下:一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法,包括如下步骤:步骤1:构建问答社区中标签网络,如果同一个问题帖子下边出现多个标签,则认为这些标签具有连边,构建问答社区标签网络,得到源领域和目标领域社区的网络结构集合步骤2:计算各社区中网络结构的向量表征,采用graph2vec的方法,将每个网络Gi∈Ω用一个维度为d的向量来进行表征,最后学习得到源领域网络结构表征向量和目标领域结构向量表征VT;步骤3:计算源领域与目标领域之间的结构相似性,计算源领域网络结构表征向量和目标领域VT之间的余弦相似性γt:步骤4:构建基于A-TrAdaboost算法的多源社区标签流行性预测模型。通过提取源领域和目标领域DT中的样本标签及特征数据,把步骤3中计算的相似性γt作为各源领域上样本的初始权重,通过有权SVM的方法,训练出预测模型,然后不断迭代更新不同训练样本中的权重,得出最后的训练模型。进一步,所述步骤1中,构建问答社区中标签网络,对源领域问答社区Si中,统计其社区中所有的新标签,按时间排序,取比例为前α=10%中的新标签中最后一个标签出现的时刻社区所有标签的网络,作为该社区的网络结构时刻的社区网络结构初步形成,其结构特征能够代表该领域社区的网络结构,最后得到源领域和目标领域社区的网络结构集合再进一步,所述步骤2中,计算各个社区中网络结构的向量表征,采用graph2vec(见文献[3]NarayananA,ChandramohanM,VenkatesanR,etal.graph2vec:LearningDistributedRepresentationsofGraphs[J].arXivpreprintarXiv:1707.05005,2017.即NarayananA,ChandramohanM,VenkatesanR.graph2vec:学习图的分布式表征[J].arXivpreprintarXiv:1707.05005,2017.)的方法,将每个网络Gi∈Ω用一个维度为d的向量来进行表征;首先,提取网络Gi的根子图结构,利用Weisfeiler-Lehman(WL)核方法对网络Gi中每一个节点依次提取最小子图结构,集合为vi表示网络Gi中的子图的种类,然后利用类比doc2vec(见文献[4]LeQ,MikolovT.Distributedrepresentationsofsentencesanddocuments[C]//InternationalConferenceonMachineLearning.2014:1188-1196.即LeQ,MikolovT.句子和文档的分布式表征[C]//国际机器学习会议.2014:1188-1196.)的方法中的skip-gram的语言嵌入模型,将子图结构类比于单词,每个图类比一个文档,最后学习得到源领域社区和目标社区网络图结构的向量表征和VT,t∈{1,2,…,n}。更进一步,所述步骤4中,构建基于网络结构相似性的A-TrAdaboost算法模型,操作如下:根据文献[1]中提取特征和标签标记的方法,得到源领域社区和目标领域的特征标记样本和DT={(xT,c(xT))},其中为目标领域有标记数据集,为目标领域无标记数据集,c(x)函数表示样本x的标记函数,c(x)∈{0,1},选择源领域数据和目标领域有标记样本数据集作为模型的训练集测试集为将步骤3所计算的余弦相似性γt分别作为源领域中样本的权重中样本的初始权重设为1,记为wT,即所有训练样本权重为作为A-TrAdaboost方法的初始权重,分别表示的样本大小,n表示的样本大小,在每次迭代过程中,通过有权SVM训练每次的基分类器ft,然后根据公式计算每次迭代后在目标领域有标记样本上的误差率εt:其中,βt表示为当前的基分类器的权本文档来自技高网
...

【技术保护点】
1.一种基于A‑TrAdaboost算法的多源社区标签发展趋势预测方法,其特征在于,所述方法包括如下步骤:步骤1:构建问答社区中标签网络,如果同一个问题帖子下边出现多个标签,则认为这些标签具有连边,构建问答社区标签网络,得到源领域和目标领域社区的网络结构集合

【技术特征摘要】
1.一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法,其特征在于,所述方法包括如下步骤:步骤1:构建问答社区中标签网络,如果同一个问题帖子下边出现多个标签,则认为这些标签具有连边,构建问答社区标签网络,得到源领域和目标领域社区的网络结构集合步骤2:计算各社区中网络结构的向量表征,采用graph2vec的方法,将每个网络Gi∈Ω用一个维度为d的向量来进行表征,最后学习得到每个社区网络图结构的向量表征Vi;步骤3:计算源领域与目标领域之间的结构相似性,计算源领域网络结构表征向量和和目标领域VT之间的余弦相似性γt:步骤4:构建基于A-TrAdaboost算法的多源社区标签流行性预测模型,通过提取源领域DSt和目标领域DT中的样本标签及特征数据,把步骤3中计算的相似性γt作为各源领域迁移到目标领域上的初始权重,通过有权SVM的方法,不断迭代更新不同训练样本中的权重,得出最后的训练模型。2.如权利要求1所述的一种基于A-TrAdaboost迁移算法的多源社区标签发展趋势预测方法,其特征在于:在所述步骤1中,构建问答社区中标签网络,对源领域问答社区Si中,统计其社区中所有的新标签,按时间排序,取比例为前α=10%中的新标签中最后一个标签出现的时刻社区所有标签的网络,作为该社区的网络结构时刻的社区网络结构初步形成,其结构特征能够代表该领域社区的网络结构,最后得到源领域和目标领域社区的网络结构集合3.如权利要求1或2所述的一种基于A-TrAdaboost迁移算法的多源社区标签发展趋势预测方法,其特征在于:所述步骤2中,计算社区中网络结...

【专利技术属性】
技术研发人员:傅晨波郑永立赵明浩宣琦
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1