基于随机游走访问频数的入度信息估计方法及系统技术方案

技术编号:20916821 阅读:49 留言:0更新日期:2019-04-20 09:45
本发明专利技术公开了一种基于随机游走访问频数的入度信息估计方法,包括步骤1:从待估计入度信息的有向网络中随机选择随机游走的种子节点,所述种子节点为网络的任意节点,然后实施随机游走,随机游走的后续节点由当前节点的邻居节点随机选出;步骤2:在随机游走过程中,记录各个节点i被重复访问的次数xi;步骤3:当实施行走的步数n与网络的节点数N相等时,统计每个节点i被访问的次数xi;步骤4:根据所统计的每个节点i被访问的次数估计入度信息并输出;本发明专利技术针对有向网络中的无向性不强的问题时,通过统计随机游走过程中每个节点被访问的次数进行入度信息的估计,其估计出的入度信息的误差较小,且估计的效率更高。

Input Information Estimation Method and System Based on Random Walk Access Frequency

The invention discloses a method for estimating entry information based on random walk access frequency, which includes step 1: random selection of random walk seed nodes from a directed network to be estimated entry information. The seed nodes are arbitrary nodes of the network, and then random walk is implemented. The following nodes of random walk are randomly selected by the neighbor nodes of the current node; step 2: random selection of the neighbor nodes of the current node. In the process of traveling, the number of repeated visits to each node I is recorded xi; Step 3: When the number of steps n is equal to the number of nodes N i n the network, the number Xi of visits to each node I is counted; Step 4: Estimate the degree of access information according to the number of visits to each node i and output it; When the directed network is not strong, the present invention uses statistics randomly. The number of times each node is visited in the process of traveling is used to estimate the entrance information. The error of the estimated entrance information is small and the efficiency of the estimation is higher.

【技术实现步骤摘要】
基于随机游走访问频数的入度信息估计方法及系统
本专利技术属于社会网络拓扑信息估计领域,尤其涉及一种基于随机游走访问频数的入度信息估计方法及系统。
技术介绍
当前在线社交网络规模巨大,为研究者们提供了研究复杂网络、真实群体特征、行为的平台。而又由于其规模巨大,研究者们无法进行全网络信息收集或获取用于分析。一般地,只能通过随机游走的方式,获取网络的部分信息。利用获取的网络部分信息去恢复网络的拓扑结构是后续进行复杂网络分析、群体特征分析等的基础。但是怎样通过获取的网络部分信息去恢复网络拓扑结构中重要的一个环节是对网络入度分布的估计,因为在随机游走过程中,入度信息是潜在的、隐藏了。有了入度信息的估计,即网络入度分布的估计,才能进行网络拓扑结构的恢复,从而进一步得出全网络的特征。传统的入度信息估计方法,利用随机游走过程中能够收集到的出度信息,假设当网络中节点的入度边和出度边高度对称时,即网络无向性程度较高时(无向性即无向边的比例),可以得到基于出度信息的估计方法EST_out:其中,表示网络的入度分布估计,表示网络的出度分布的估计,qd(kout)是随机游走抽样获取样本的出度分布。然而对于在线社交网络来说,用户之间的关系或行为是有方向的,例如,“关注行为”可以是“关注”或“被关注”两种关系;“选举行为”可以是“选举”或“被选举”关系等等。由此,网络的边可以分为“入度边”和“出度边”,用于分别描述“指向”该节点的关系(边)和该节点指向其他节点的关系(边)。并且在大多数情况下,有向网络中的无向性不强。由此,利用式(1)得到的入度信息估计会引起很大的偏差,因此需要去解决有向网络中的入度信息估计问题。
技术实现思路
本专利技术要解决的技术问题是:由于现有技术中对于网络入度信息的估计方法是在网络无向性程度较高时通过出度信息进行的估计方法,该方法在应用到有向性较高的社交网络中时,所估计出来的入度信息误差较大,从而不能很好地通过入度信息来了解网络中用户行为、恢复网络拓扑结构,提出了一种对于有向网络来说入度信息估计误差较小的基于随机游走访问频数的入度信息估计方法。为解决该问题,本专利技术采用的技术方案是:一种基于随机游走访问频数的入度信息估计方法,包括以下步骤:步骤1:从待估计入度信息的有向网络中随机选择随机游走的种子节点,所述种子节点为网络的任意节点,然后实施随机游走,随机游走的后续节点由当前节点的邻居节点随机选出;步骤2:在随机游走过程中,记录各个节点i被重复访问的次数xi;步骤3:当实施行走的步数n与网络的节点数N相等时,统计每个节点i被访问的次数xi;步骤4:根据所统计的每个节点i被访问的次数估计入度信息并输出;其中mi是随机游走过程中被访问了xi次的节点的数量。本专利技术还提供了一种基于随机游走访问频数的网络入度信息估计系统,其特征在于:包括处理器,以及与所述处理器连接的存储器,所述存储器存储有基于随机游走访问频数的入度信息估计方法的程序,所述基于随机游走访问频数的入度信息估计方法的程序被所述处理器执行时实现上述所述方法的步骤。与现有技术相比,本专利技术所取得的有益效果为:本专利技术基于随机游走访问频数的入度信息估计方法,通过研究发现,在随机游走的步数与网络节点数相同时,随机游走过程中节点被访问的次数(频数)近似地与它的入度成正比,因此针对有向网络中的无向性不强的问题时,通过统计随机游走过程中每个节点被访问的次数进行入度信息的估计,其估计出的入度信息的误差较小,且估计的效率更高。附图说明图1为本专利技术的流程图;图2为在不同真实网络得到的估计结果与真实分布的对比情况示意图,其中(a)维基选举网络(WEL),(b)爱丁堡词汇联想网络(EAT),(c)斯坦福超链接网络(SFH),和(d)亚马逊推荐网络(AMR);图3为在不同真实网络上入度信息与出度信息估计方法得到的DKS值的比较。其中(a)维基选举网络(WEL),(b)爱丁堡词汇联想网络(EAT),(c)斯坦福超链接网络(SFH),和(d)亚马逊推荐网络(AMR)。在每个网络上分别进行了100次仿真。具体实施方式图1至图3示出了本专利技术基于随机游走访问频数的入度信息估计方法的一种实施例。首先说明在随机游走的步数与网络节点数相同时,随机游走过程中节点被访问的次数(频数)近似地与它的入度成正比,进而得到入度信息估计的方法。假设在有向网络中实施了n步随机游走,该随机游走的种子节点为1,种子选择策略为随机选择,后续节点由当前节点的邻居节点随机选出。那么对于任意的一个入度为的节点i,可以近似地将该节点i被访问的过程用n次伯努利实验(nBernoullitrials)进行建模:其中Xi代表节点i在随机游走中被访问次数的随机变量,pi是节点i在随机游走中可能被访问的概率(即入样概率)。所以,Xi的期望可以表示为:E[Xi]=npi.(3)文献:LuX,MalmrosJ,LiljerosF,etal.Respondent-drivensamplingondirectednetworks[J].ElectronicJournalofStatistics,2013,7(1):292-322.给出了在有向网络中,任意节点i的入样概率pi近似地与它的入度成正比,即:其中<kin>表示网络的平均入度,N为网络的节点数。将(4)带入到(3)中可将Xi的期望表示为:若随机游走的步数n被设置为N,则也就是说,在这时随机游走过程中节点被访问的次数(频数)近似地与它的入度成正比。所以可以近似地得到一个尺度(scaling)有所缩放的入度信息估计:其中mi是随机游走过程中被访问了xi次的节点的数量。本实施例中称这种入度信息的估计方法为EST_rw。具体的入度信息的估计方法为:一种基于随机游走访问频数的入度信息估计方法,包括以下步骤:步骤1:从待估计入度信息的有向网络中随机选择随机游走的种子节点,所述种子节点为网络的任意节点,然后实施随机游走,随机游走的后续节点由当前节点的邻居节点随机选出;步骤2:在随机游走过程中,记录各个节点i被重复访问的次数xi;步骤3:当实施行走的步数n与网络的节点数N相等时,统计每个节点i被访问的次数xi;步骤4:根据所统计的每个节点i被访问的次数估计入度信息并输出;其中mi是随机游走过程中被访问了xi次的节点的数量。本专利技术还提供了一种基于随机游走访问频数的网络入度信息估计系统,其特征在于:包括处理器,以及与所述处理器连接的存储器,所述存储器存储有基于随机游走访问频数的入度信息估计方法的程序,所述基于随机游走访问频数的入度信息估计方法的程序被所述处理器执行时实现上述所述方法的步骤。下面通过使用4个真实的有向网络来验证提出的有向网络入度信息估计方法。它们分别是(1)维基选举网络(theWikipediaelectionnetwork,WEL),网络中的节点代表维基百科中的用户;网络中由节点i到节点j的有向边表示用户i对用户j进行了投票。(2)爱丁堡词汇联想网络(theEdinburghAssociativeThesaurusnetwork,EAT),其中网络节点代表了英文单词,而由节点i到节点j的有向边表示,在使用者实验中若对其用单词i刺激时,其会有单词j的响应。(3)斯坦福超链接网络(Stanfordh本文档来自技高网
...

【技术保护点】
1.一种基于随机游走访问频数的复杂网络入度信息估计方法,其特征在于:包括以下步骤:步骤1:从待估计入度信息的有向网络中随机选择随机游走的种子节点,所述种子节点为网络的任意节点,然后实施随机游走,随机游走的后续节点由当前节点的邻居节点随机选出;步骤2:在随机游走过程中,记录各个节点i被重复访问的次数xi;步骤3:当实施行走的步数n与网络的节点数N相等时,统计每个节点i被访问的次数xi;步骤4:根据所统计的每个节点i被访问的次数估计入度信息pd(xi)并输出;

【技术特征摘要】
1.一种基于随机游走访问频数的复杂网络入度信息估计方法,其特征在于:包括以下步骤:步骤1:从待估计入度信息的有向网络中随机选择随机游走的种子节点,所述种子节点为网络的任意节点,然后实施随机游走,随机游走的后续节点由当前节点的邻居节点随机选出;步骤2:在随机游走过程中,记录各个节点i被重复访问的次数xi;步骤3:当实施行走的步数n与网络的节点数N相等时,统计每个节点i被访问的次数xi;步骤4:根...

【专利技术属性】
技术研发人员:吕欣陈洒然刘忠谭跃进秦烁蔡梦思黄格肖时耀
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1