融合层叠泛化和代价敏感学习的社交网链路异常预测系统技术方案

技术编号:26693785 阅读:28 留言:0更新日期:2020-12-12 02:49
本发明专利技术提出了一种融合层叠泛化和代价敏感学习的社交网络链路异常预测系统,包括社交网络节点数据特征获取模块的数据输出端与超参数确定模块的数据输入端相连,超参数确定模块的数据输出端与结果预测模块的数据输入端相连,结果预测模块的数据输出端与数据展示模块的数据输入端相连;社交网络节点数据特征获取模块用于获取社交网络节点数据,将获取的社交网络节点数据中的相似性指标作为基模型学习的特征;超参数确定模块用于确定基模型的超参数;结果预测模块用于对基模型的预测结果进行重新学习;得到最终的预测结果;数据展示模块用于展示结果预测模块输出的结果。本发明专利技术能够对社交网络节点链路异常进行预测。

【技术实现步骤摘要】
融合层叠泛化和代价敏感学习的社交网链路异常预测系统
本专利技术涉及一种社交网络
,特别是涉及一种融合层叠泛化和代价敏感学习的社交网络链路异常预测系统。
技术介绍
在现实世界中,社交网络无处不在,例如社交网络,协作网络,蛋白质-蛋白质相互作用网络和通信网络。分析这些网络不仅在计算机科学领域,而且在社会学,物理学,生物信息学和统计领域都引起了越来越多的关注。社交网络中的链接预测是一项基本的网络分析任务,指如何预测在网络中尚未通过已知信息(如网络节点和网络结构)连接的两个节点之间生成链接的可能性。应该注意的是,链接预测包括对现有链接的预测和对未来链接的预测。社交网络的链路预测已经深入研究。在过去的几十年中,已经提出了各种链路预测方法,并且大多数算法都基于网络结构。在这里,我们简要回顾两种用于链接预测的主流方法,相似性方法(包括节点相似性和结构相似性)和似然估计方法。到目前为止,基于相似度的链路预测方法已经取得了一系列成果,并相应地广泛应用于各个领域。基于相似度链路预测方法可以进一步分为三类,即基于邻居的,基于路径的和基于随机游走的方法。最简单的链接预测方法基于以下假设:两个节点如果有更多共同的邻居,则更可能具有链接。Newman首先使用CommonNeighborindex(CN)来衡量相似度随后提出了两个节点的索引,并提出了CN的许多变体,例如Saltonindex,ResourceAllocationindex(RA),Adamic-Adarindex(AA),JaccardCoefficientHubPromotedindex(HPI),Leicht-Holme-Newmanindex(LHN),PreferentialAttachmentindex(PA)等。根据对真实网络的广泛实验,结果表明,RA指数表现最佳,而PA指数的整体表现最差。基于路径方法使用两个节点之间的路径计算节点对的相似性。示例包括Localpathindex(LP)和Katz指数。LP索引仅考虑长度为2和3的本地路径。Katz索引基于整体所有路径,并且可以在实际网络上获得高性能。基于随机游走的方法使用随机游走来对网络中节点之间的交互进行建模。一些代表性的方法包括AverageCommuteTime(ACT),SimRank,RandomWalkwithRestart(RWR)和LocalRandomWalk(LRW)。ACT指数基于平均值随机步行者从一个节点开始到达另一节点所需的步骤数。SimRank测量分别从两个不同的节点开始的两个随机游走者将在某个节点相遇的时间。RWR是一个PageRank算法的直接应用。LRW是一个本地索引,只关注几步随机游动。众所周知,LRW方法优于ACT索引,其计算复杂度低于ACT和RWR。第二类方法是基于似然估计的。Clausetetal.提出了一种通用技术推断网络的层次结构,并进一步将其用于预测丢失的链接。Thestochasticblockmodel将网络节点分为几组,任意两个节点之间的连接概率为决定节点属于哪个组。Panetal.基于预定义的结构哈密顿量最大化观察到的网络的可能性,并通过将链接添加到的条件概率对未观察到的链接评分观察到的网络。Liben-Nowell和Kleinberg提出了链接预测的似然估计方法。之后,相继获得了基于似然分析的新的链接预测方法这些最大似然方法虽然计算复杂度较高,但可以提供有价值的见解。相似度方法和似然估计方法各有其优缺点。基于相似度的方法具有计算复杂度低的特点,但是其计算结果将受到网络结构的影响。在具有不同结构特征的网络中,计算结果不稳定并且无法获得鲁棒性。基于似然估计的思想具有很强的数学意义和较高的预测精度,但是需要严格的假设,并且计算量大,不适合大规模网络。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种融合层叠泛化和代价敏感学习的社交网络链路异常预测系统。为了实现本专利技术的上述目的,本专利技术提供了一种融合层叠泛化和代价敏感学习的社交网络链路异常预测系统,包括社交网络节点数据特征获取模块、超参数确定模块、结果预测模块和数据展示模块;所述社交网络节点数据特征获取模块的数据输出端与超参数确定模块的数据输入端相连,超参数确定模块的数据输出端与结果预测模块的数据输入端相连,结果预测模块的数据输出端与数据展示模块的数据输入端相连;所述社交网络节点数据特征获取模块用于获取社交网络节点数据,将获取的社交网络节点数据中的相似性指标作为基模型学习的特征;所述超参数确定模块用于确定基模型的超参数;所述结果预测模块用于对基模型的预测结果进行重新学习;得到最终的预测结果;所述数据展示模块用于展示所述结果预测模块输出的结果。在本专利技术的一种优选实施方式中,在社交网络节点数据特征获取模块中基模型包括:给定数据集D=(x1,y1),(x2,y2),(x3,y3),……,(xN,yN),其中,yi∈{0,1};当yi=0时,yi表示负类;当yi=1时,yi表示正类;i=1,2,3,…,N;表示样本特征空间,n表示各个样本的特征个数;N表示数据集D中样本的个数;由于wTx+b取值是连续的,其中w表示列向量,维度为(n,1);T表示转置;x表示列向量,维度为(n,1);b表示列向量,维度为(1,1);因此它不能拟合离散变量,可以考虑用它来拟合条件概率P(Y=1|x);但是对于w≠0,若w等于零向量则没有什么求解的价值,wTx+b取值为实数R,不满足概率取值为0到1,因此考虑采用广义线性模型;由于单位阶跃函数不可微,对数几率函数是一个典型的替代函数:于是有:若y为x取正例的概率,则1-y为x取反例的概率;两者比值称为几率odds,指该事件发生与不发生的概率比值,若事件发生的概率为P,则对数几率:将y视为类后验概率估计,重写公式有:也就是说,输出Y=1的对数几率是由输入x的线性函数表示的模型,这就是逻辑回归模型;当wT+b的值越接近正无穷,P(Y=1|x)概率值也就越接近1;因此逻辑回归的思路是,先拟合决策边界,再建立这个边界与分类的概率联系,从而得到了二分类情况下的概率;逻辑回归模型的数学形式确定后,剩下就是如何去求解模型中的参数;在统计学中,常使用极大似然估计法求解,即找到一组参数,使得在这组参数下,数据的似然度最大;令:p(xi)表示第i个样本在已知特征为xi的情况下的为正类(Y=1)的概率;yi就是二分类问题给定数据集D中的,即是yi=y1,y2,y3,...,yn,yi∈{0,1};为了更方便求解,对等式两边同取对数,写成对数似然函数:在机器学习中有损失函数的概念,其衡量的是模型预测错误的程度;如果取整个数据集上的平均对数似然损失,可以得到:其中,N表示数据集D中样本的个数;即在逻辑回归模型中,最大化似然函数和最小化损失本文档来自技高网
...

【技术保护点】
1.一种融合层叠泛化和代价敏感学习的社交网络链路异常预测系统,其特征在于,包括社交网络节点数据特征获取模块、超参数确定模块、结果预测模块和数据展示模块;/n所述社交网络节点数据特征获取模块的数据输出端与超参数确定模块的数据输入端相连,超参数确定模块的数据输出端与结果预测模块的数据输入端相连,结果预测模块的数据输出端与数据展示模块的数据输入端相连;/n所述社交网络节点数据特征获取模块用于获取社交网络节点数据,将获取的社交网络节点数据中的相似性指标作为基模型学习的特征;/n所述超参数确定模块用于确定基模型的超参数;/n所述结果预测模块用于对基模型的预测结果进行重新学习;得到最终的预测结果;/n所述数据展示模块用于展示所述结果预测模块输出的结果。/n

【技术特征摘要】
1.一种融合层叠泛化和代价敏感学习的社交网络链路异常预测系统,其特征在于,包括社交网络节点数据特征获取模块、超参数确定模块、结果预测模块和数据展示模块;
所述社交网络节点数据特征获取模块的数据输出端与超参数确定模块的数据输入端相连,超参数确定模块的数据输出端与结果预测模块的数据输入端相连,结果预测模块的数据输出端与数据展示模块的数据输入端相连;
所述社交网络节点数据特征获取模块用于获取社交网络节点数据,将获取的社交网络节点数据中的相似性指标作为基模型学习的特征;
所述超参数确定模块用于确定基模型的超参数;
所述结果预测模块用于对基模型的预测结果进行重新学习;得到最终的预测结果;
所述数据展示模块用于展示所述结果预测模块输出的结果。


2.根据权利要求1所述的融合层叠泛化和代价敏感学习的社交网络链路异常预测系统,其特征在于,在社交网络节点数据特征获取模块中基模型包括:
给定数据集D=(x1,y1),(x2,y2),(x3,y3),……,(xN,yN),其中,yi∈{0,1};当yi=0时,yi表示负类;当yi=1时,yi表示正类;i=1,2,3,…,N;表示样本特征空间,n表示各个样本的特征个数;N表示数据集D中样本的个数;
由于wTx+b取值是连续的,其中w表示列向量,维度为(n,1);T表示转置;x表示列向量,维度为(n,1);b表示列向量,维度为(1,1);因此它不能拟合离散变量,可以考虑用它来拟合条件概率P(Y=1|x);但是对于w≠0,若w等于零向量则没有什么求解的价值,wTx+b取值为实数R,不满足概率取值为0到1,因此考虑采用广义线性模型;
由于单位阶跃函数不可微,对数几率函数是一个典型的替代函数:



于是有:



若y为x取正例的概率,则1-y为x取反例的概率;两者比值称为几率odds,指该事件发生与不发生的概率比值,若事件发生的概率为P,则对数几率:



将y视为类后验概率估计,重写公式有:



【专利技术属性】
技术研发人员:刘小洋李祥叶舒苗琛香
申请(专利权)人:重庆理工大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1