一种基于量子游走的论文影响力评估方法技术

技术编号:15982749 阅读:25 留言:0更新日期:2017-08-12 05:40
本发明专利技术提出了一种基于量子游走的论文影响力评估方法,将论文的访问概率作为衡量论文重要性的关键,利用论文之间的引用关系,首次使用高阶马尔可夫模型对会议进行评估。该模型较零阶和某一固定阶的马尔科夫模型有更高的准确度,并且较某一固定阶模型有较高的效率。高阶马尔科夫模型考虑了随机游走的记忆性,当前节点向邻接节点转移的概率受前序节点的影响,但又不同于固定阶的马尔科夫模型,节点的阶数是依靠具体情况确定的。同时,本发明专利技术给出了相应的量子化实现方法,具有很强的前瞻性,为论文影响力的评估提供一种新方法,也提供了一种随机游走的并行化解决方案。

【技术实现步骤摘要】
一种基于量子游走的论文影响力评估方法
本专利技术涉及学术领域中基于量子游走对论文影响力进行评估的方法,尤其涉及一种基于高阶量子化马尔可夫模型的论文影响力评估方法。
技术介绍
科研领域的高速发展使得论文的数量不断增加,而论文质量则良莠不齐,在海量论文中检索一篇高质量文献愈发艰难。因此一种有效的论文影响力评估方法对学习和研究都有很大的帮助。但是至今为止所提出的如PageRank排序、HITS排序都存在一些已知的问题,不能满足对准确度的要求,准确度、稳定性更高的评估方法有待于研究人员的进一步探索。同时,量子计算作为未来计算机的一个发展方向,其超强的存储能力和并行计算能力将很好的解决目前计算机发展的瓶颈问题,有着巨大的价值潜力,因此量子算法的研究也将很有意义。
技术实现思路
本专利技术的目的主要针对现有研究的一些不足之处,提出基于量子游走的论文影响力评估方法,将论文的访问概率作为衡量论文重要性的关键,利用论文之间的引用关系,首次使用高阶马尔可夫模型对会议进行评估,并给出了相应的量子化实现方法,具有很强的前瞻性,为论文影响力的评估提供一种新方法,也提供了一种随机游走的并行化解决方案。本专利技术的技术方案:一种基于量子游走的论文影响力评估方法,步骤如下:1)通过统计真实的论文引用网络中论文引用的高阶依赖关系给出高阶化规则;2)结合随机游走模型,根据1)中的高阶化规则,建立高阶化的引用流模型;3)根据2)中的引用流模型计算对应的转移概率矩阵;4)应用3)中得到的转移概率矩阵量子化随机游走过程,并计算每篇论文在引用网络中被访问的概率,进而评估出论文的影响力。步骤1)包括以下三个步骤:1.1)根据论文之间的引用关系构建引用链。1.2)遍历所有引用链,统计各阶引用关系出现的次数,并将出现次数高于给定的阈值D的高阶引用关系加入高阶引用规则中。基于小世界原理和数据的实际情况,引用关系的最高阶数定为4到6阶为宜。1.3)考察所有的高阶关系,筛选出其中改变了节点转移概率的高阶规则,具体做法:Step1:记论文总数为M,亦即引用关系图中有M个节点。用i|k表示节点i的k阶引用关系,并记最大阶数为order,可得k阶化后节点i转移到其邻居节点j的概率为:其中Ni|k→j表示节点i引用节点j的次数,k∈[2,order],表示节点i引用其他文章的总次数。Step2:使用高阶节点向邻居节点的转移概率Pi|k→j和零阶节点向邻居节点的转移概率Pi→j之间的K-L距离来度量高阶化对转移概率的影响程度,即:其中,K-LDivergence即K-L距离,描述了节点i到所有邻接节点上的转移概率差异的总体水平,表示节点i到某一个邻接节点的转移概率在高阶化后的变化,是对以2为底取对数。将该值与比较,其中,k为当前高阶化节点的阶数,表示节点i引用其他文章的总次数的以2为底的对数。若K-LDivergence较大则认为高阶化对转移概率有影响,保留这条高阶规则。步骤2):根据步骤1)中得到的高阶引用规则构建高阶化的引用网络。具体做法为:先用高阶化的节点取代原节点在引用网络中的位置,再将指向原节点的边指向高阶化的节点,并将转移概率记为Pi|k→j。同时,为了保证高阶引用的完整性,高阶节点的前序节点也应存在高阶引用。即若节点i存在高阶引用i|k→j,则也应将i|(k-1)→i|k加入高阶引用网络中,其中k∈[2,order],同时将转移概率记为Pi|k→j。步骤3):根据步骤2)中得到的引用网络,写出引文网络的邻接矩阵G,其中,Gi|k,j=αPi|k→j+(1-α),α=0.85,G是一个方阵,记G的维数为N。步骤4):利用步骤3)中的邻接矩阵,量子化随机游走的过程,包括以下个步骤:Step1:将邻接矩阵G中的节点以0到N-1重新编号,以右矢|i>和|j>表示图中的节点i和j,以张量积|i>|j>表示节点i指向节点j的有向边,Gi,j表示节点i到节点j的转移概率,则对于每一个节点j,其初始状态向量可按下式计算:随机游走的初始状态为各个节点初始状态的叠加态,即是一个N×N维列向量。Step2:按下式计算变换矩阵π:其中,为的共轭向量,E为同阶单位矩阵。矩阵π的作用是将输入的向量作关于初始向量的对称变换。再计算转移矩阵它的作用是将变换后的节点的访问概率按邻接关系转移到该节点的后序节点。最终的迭代矩阵U=πS。Step3:使用矩阵U做迭代计算,第m次迭代后的向量的内积表示节点j在第m次随机游走过程后被访问到的概率,由下式计算:为保证转移的方向性,每一次迭代都乘U2而不是U,其中,表示U的转置。最终的节点的访问概率用M次迭代的访问概率的均值表示,该均值是收敛的,计算方法如下:最终的节点排名标准即为访问概率Pj。Step4:由于量子游走的直接输出结果中含有同一节点的不同阶表示,应对结果做进一步处理。即将所有表示同一节点的访问概率相加得到该节点的最终访问概率。本专利技术的有益效果:本专利技术主要使用了高价马尔科夫模型,该模型较零阶和某一固定阶的马尔科夫模型有更高的准确度,并且较某一固定阶模型有较高的效率。高阶马尔科夫模型考虑了随机游走的记忆性,当前节点向邻接节点转移的概率受前序节点的影响,但又不同于固定阶的马尔科夫模型,节点的阶数是依靠具体情况确定的。因为对于不同的节点,其向邻接节点转移的概率可能不仅受一阶前序节点影响,也可能在考虑更长的前序链时产生的结果更稳定,该模型的目的就是寻找这种更稳定的高阶关系。在实际应用中,高阶模型表现为剔除了一部分引用关系稀疏的论文对主干网络的影响。考虑到这些论文本身影响力很低,而有的作者存在通过发表一些低影响力的论文并引用自己的论文,以提高自身影响力的情况,在计算中排除这部分论文的影响是有益的;并且相较于完全的排除自引,该方法保留了有价值的自引。我们认为,作者后续发表的论文具有很高的影响力,则他对自己之前的论文的引用是有价值的。附图说明图1和图2为本专利技术结的高阶化结果,针对不同的引用关系状态,高阶化将对转移概率产生不同的影响。图3为最终排序的部分结果,由于节点数量庞大,只截取了部分结果展示。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将对本专利技术的具体实施方式作进一步的详细描述。本专利技术实例提供了一种基于量子游走的会议影响力评估方法,该方法包括:步骤1:通过统计真实的论文引用网络中论文引用的高阶依赖关系,给出高阶化规则。1.1)选择APS数据集中的PRC数据集,并从中筛选出参考文献和被引文章都在PRC中的论文,并从APS数据集提供的文章引用关系表中筛选出所选文章间的引用关系。根据论文之间的引用关系,采用随机游走的方法尽可能遍历引用网络,构建引用链。这里,我们共保留了30,856篇文章和它们之间的212,412对引用关系。之所以选择参考文献和被引文章都在PRC数据集之中的文章,是为了保证引用网络的完整性,尽量避免孤立节点的存在。1.2)遍历所有引用链,统计各阶引用关系出现的次数,并将出现次数高于给定的阈值D的高阶引用关系加入高阶引用规则中。考虑到数据量很大,这里我们取D=50,即出现次数小于50次的引用关系都将被忽略。基于小世界原理和数据的实际情况,引用关系的最高阶数定为5阶。1.3)考察所有的高阶关系,筛选出其中本文档来自技高网...
一种基于量子游走的论文影响力评估方法

【技术保护点】
一种基于量子游走的论文影响力评估方法,其特征在于,步骤如下:步骤1)包括以下三个步骤:1.1)根据论文之间的引用关系构建引用链;1.2)遍历所有引用链,统计各阶引用关系出现的次数,并将出现次数高于给定的阈值D的高阶引用关系加入高阶引用规则中;基于小世界原理和数据的实际情况,引用关系的最高阶数定为4‑6阶;小世界原理即六度分隔,网络中任何两个节点建立联系所间隔的节点不超过六个;1.3)考察所有的高阶关系,筛选出其中改变了节点转移概率的高阶规则,具体做法:Step1:记论文总数为M,亦即引用关系图中有M个节点;用i|k表示节点i的k阶引用关系,并记最大阶数为order,得k阶化后节点i转移到其邻居节点j的概率为:

【技术特征摘要】
1.一种基于量子游走的论文影响力评估方法,其特征在于,步骤如下:步骤1)包括以下三个步骤:1.1)根据论文之间的引用关系构建引用链;1.2)遍历所有引用链,统计各阶引用关系出现的次数,并将出现次数高于给定的阈值D的高阶引用关系加入高阶引用规则中;基于小世界原理和数据的实际情况,引用关系的最高阶数定为4-6阶;小世界原理即六度分隔,网络中任何两个节点建立联系所间隔的节点不超过六个;1.3)考察所有的高阶关系,筛选出其中改变了节点转移概率的高阶规则,具体做法:Step1:记论文总数为M,亦即引用关系图中有M个节点;用i|k表示节点i的k阶引用关系,并记最大阶数为order,得k阶化后节点i转移到其邻居节点j的概率为:其中,Ni|k→j表示节点i引用节点j的次数,k∈[2,order];表示节点i引用其他文章的总次数;Step2:使用k阶节点向邻居节点的转移概率Pi|k→j和零阶节点向邻居节点的转移概率Pi→j之间的K-L距离来度量高阶化对转移概率的影响程度,即:其中,K-LDivergence即K-L距离,描述了节点i到所有邻接节点上的转移概率差异的总体水平,表示节点i到某一个邻接节点的转移概率在高阶化后的变化,是对以2为底取对数;将K-LDivergence与比较,其中,k为当前高阶化节点的阶数,表示节点i引用其他文章的总次数的以2为底的对数;若K-LDivergence大于则认为高阶化对转移概率有影响,保留这条高阶规则;步骤2):根据步骤1)中得到的高阶引用规则构建高阶化的引用网络;先用高阶化的节点取代原节点在引用网络中的位置,再将指向原节点的边指向高阶化的节点,并将转移概率记为Pi|k→j;同时,为了保证高阶引用的完整性,高阶节点的前序节点...

【专利技术属性】
技术研发人员:夏锋侯杰彭众白晓梅宁兆龙
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1