A multi-source community label development trend prediction method based on A_TrAdaboost algorithm includes the following steps: (1) building label network in question-and-answer community; (2) computing vector representation of community structure in source and target domains; (3) computing structural similarity between source and target domains; (4) building a multi-source community label development trend prediction method based on A_TrAdaboost The algorithm is a multi source community tagging epidemic prediction model. The invention uses the method of network graph representation to obtain vector representation of each network, and then calculates the similarity between networks as the domain distance between different Q&A communities, and takes the similarity between network structures as the initial weight of the multi-source migration learning algorithm TrAdaboost, so as to predict the popularity of new labels across communities. When the problem is solved, the negative migration problem in multi-source migration can be avoided, and the training time and accuracy of the model can be improved.
【技术实现步骤摘要】
一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法
本专利技术涉及数据挖掘、图结构分析技术,特别是涉及一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法。
技术介绍
当前随着移动互联网和智能设备的广泛普及,改变了人们的生活方式,人们更倾向于在网络上发表自己看法和搜集自己需要的信息,因此在线问答社区变得越来越活跃和流行。由于问答社区中的帖子数量巨大,用户在问答社区中获取的信息主要根据问题答案的标签来进行筛选和推荐,随着时间的推移,标签的数量也越来与巨大,问答社区中的标签研究日益成为关注的热点。傅晨波等人(见文献[1]FuC,ZhengY,LiS,etal.PredictingthepopularityoftagsinStackExchangeQAcommunities[C]//ComplexSystemsandNetworks(IWCSN),2017InternationalWorkshopon.IEEE,2017:90-95.即傅晨波,郑永立,李诗迪.预测StackExchange问答社区标签流行性[C]//复杂的系统和网络(IWCSN),2017国际研讨会.IEEE,2017:90-95。)已经研究了问答社区中新标签未来的流行性发展趋势预测,但是其预测模型仅根据单个社区中标签数据来进行模型构建。在这种情况下,当在一些数据量较小的社区或者新出现的社区中使用模型时,由于标记数据样本较少,会使得训练后的模型并不理想。迁移学习从一个相关并同时拥有丰富训练样本的领域中训练模型,并分享到目标领域。利用迁移学习可以解决目标领域训练数据较 ...
【技术保护点】
1.一种基于A‑TrAdaboost算法的多源社区标签发展趋势预测方法,其特征在于,所述方法包括如下步骤:步骤1:构建问答社区中标签网络,如果同一个问题帖子下边出现多个标签,则认为这些标签具有连边,构建问答社区标签网络,得到源领域和目标领域社区的网络结构集合
【技术特征摘要】
1.一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法,其特征在于,所述方法包括如下步骤:步骤1:构建问答社区中标签网络,如果同一个问题帖子下边出现多个标签,则认为这些标签具有连边,构建问答社区标签网络,得到源领域和目标领域社区的网络结构集合步骤2:计算各社区中网络结构的向量表征,采用graph2vec的方法,将每个网络Gi∈Ω用一个维度为d的向量来进行表征,最后学习得到每个社区网络图结构的向量表征Vi;步骤3:计算源领域与目标领域之间的结构相似性,计算源领域网络结构表征向量和和目标领域VT之间的余弦相似性γt:步骤4:构建基于A-TrAdaboost算法的多源社区标签流行性预测模型,通过提取源领域DSt和目标领域DT中的样本标签及特征数据,把步骤3中计算的相似性γt作为各源领域迁移到目标领域上的初始权重,通过有权SVM的方法,不断迭代更新不同训练样本中的权重,得出最后的训练模型。2.如权利要求1所述的一种基于A-TrAdaboost迁移算法的多源社区标签发展趋势预测方法,其特征在于:在所述步骤1中,构建问答社区中标签网络,对源领域问答社区Si中,统计其社区中所有的新标签,按时间排序,取比例为前α=10%中的新标签中最后一个标签出现的时刻社区所有标签的网络,作为该社区的网络结构时刻的社区网络结构初步形成,其结构特征能够代表该领域社区的网络结构,最后得到源领域和目标领域社区的网络结构集合3.如权利要求1或2所述的一种基于A-TrAdaboost迁移算法的多源社区标签发展趋势预测方法,其特征在于:所述步骤2中,计算社区中网络结...
【专利技术属性】
技术研发人员:傅晨波,郑永立,赵明浩,宣琦,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。