一种基于NetSim-TL的多源迁移学习标签流行性预测模型的构建方法技术

技术编号：19215749 阅读：70 留言：0更新日期：2018-10-20 06:44

一种基于NetSim‑TL的多源迁移学习标签流行性预测模型的构建方法，包括以下步骤：(1)计算网络的结构相似性，根据WL图核方法，分别计算源领域和目标领域网络结构之间的相似性大小；(2)构建单源迁移学习的基学习器，利用基本的机器学习方法支持向量机分别构建多源迁移学习的基学习器；(3)构建多源迁移学习模型框架，根据不同源领域与目标领域之间的相似性大小，对多个基学习器进行加权，得出基于网络结构相似性的多源迁移学习标签流行性预测模型框架。本发明专利技术提出了利用社区网络结构之间的相似性来作为不同领域社区之间迁移学习模型的权重，进行多源迁移学习模型的构建，在跨社区的标签流行性发展趋势预测上具有较好的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于NetSim-TL的多源迁移学习标签流行性预测模型的构建方法
本专利技术涉及数据挖掘、图结构分析技术，特别是涉及一种基于NetSim-TL的多源迁移学习标签流行性预测模型的构建方法。
技术介绍
随着互联网技术的快速发展，越来越多的人喜欢花费时间在网络上发布和搜索自己想要的信息，积累了大量的知识问答数据。由于人工智能技术的快速发展，人们对已有的问答数据进行分析，建模以及预测，使得其能够更好的服务于用户。问答社区中的标签数据越来越受到人们的关注，例如研究标签推荐，基于标签的答案推荐，问题推荐等。我们主要研究在问答社区中新提出的标签在未来的流行性趋势预测问题。基于大规模数据的标签流行性趋势预测能够有较好的预测结果，但是在一些冷门问答社区或者是新出现的问答社区，由于具有标记的数据很难获得或者数据量比较少，无法准确的构建较好的预测或者分类模型，于是我们采用迁移学习的方法，即利用相似的较大的问答社区里的数据，来对目标领域的任务进行预测或者分类。迁移学习依据领域和任务是否相同，大致分为四类：(1)基于实例的迁移学习；(2)基于特征的迁移学习；(3)基于参数的迁移学习；(4)基于相关性的迁移学习。目前迁移学习已经在很多领域得到应用，并取得较好的结果，例如软件缺陷预测，人类活动行为的分类和识别，图片分类，文本语义分类等等。在单源领域迁移的问题上，已提出很多方法，例如TrAdaboost、TrBagg、A-SVM等单源迁移学习方法。在多源数据迁移方面已经有很多工作，大部分工作基于数据特征分布之间差异，即用最大均方差异(maximummeandiscrepancy，MM...

【技术保护点】
1.一种基于NetSim‑TL的多源迁移学习标签流行性预测模型的构建方法，其特征在于，所述方法包括如下步骤：步骤1：计算网络的结构相似性，给定n个源领域和目标领域数据集的网络集合

【技术特征摘要】
1.一种基于NetSim-TL的多源迁移学习标签流行性预测模型的构建方法，其特征在于，所述方法包括如下步骤：步骤1：计算网络的结构相似性，给定n个源领域和目标领域数据集的网络集合通过Weisfeiler-Lehman图核方法，计算源领域中网络与目标领域网络GT之间的网络结构相似性大小Ki，得出集合Ω中源社区网络和目标社区网络结构之间的相似性W1×n＝{K1,K2,…,Kn}；步骤2：构建单源迁移学习的基学习器，分别使用源领域的标记数据和目标领域GT的部分标记数据利用机器学习方法支持向量机的方法，训练得出n个单源迁移学习模型的基学习器f＝{f1,f2,…,fn}；步骤3：构建多源迁移学习模型框架，根据步骤1，2得到的源领域社区网络和目标领域社区网络的结构相似性W1×n和分类器f＝{f1,f2,…,fn}，将Ki作为源社区Si迁移到目标领域社区构建的基学习器fi的权重，通过对n个基学习器的预测结构进行加权得到最后的预测结果。2.如权利要求1所述的一种基于NetSim-TL的多源迁移学习标签流行性预测模型的构建方法，其特征在于：在所述步骤1中，计算网络的结构相似性的过程为：给定源领域和目标领域的网络集合依次选取集合Ω中每一个源领域网络通过WL图核方法计算源领域社区网络和目标领域社区网络GT网络之间的相似性，给定源领域网络和目标领域网络GT，取迭代次数h＝1,当h＝0时，对网络中每一个节点分别根据其度值进行重新标记，分别得到两个网络中所有标签种类的频率向量和当h＝1...

【专利技术属性】
技术研发人员：傅晨波，郑永立，王金焕，宣琦，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人