基于属性多重异构信息网络的网络文章影响力评估方法技术

技术编号:37612856 阅读:32 留言:0更新日期:2023-05-18 12:04
本发明专利技术公开了基于属性多重异构信息网络的网络文章影响力评估方法,主要包含五个步骤:第一步骤为通过爬虫技术获取多个目标网站的目标网络文章的文本及其属性信息;第二步骤为依据获取到的目标网络文章的文本及其属性信息并对其进行处理,建立属性库;第三步骤为将目标网络文章的属性库以词袋模型或者WordToVec表示,构建多重异构信息网络;第四步骤为采用metapath2vec中的基于元路径的随机游走模式,将网站和作者的影响值融入模型表示学习;最后根据模型表示学习的结果表征,结合目标网络文章的影响值,使用机器学习模型进行回归训练,得到可重复使用的模型,以实现输入一篇文章即可获得其影响力值,根据其影响力值对目标网络文章的影响力进行评估。对目标网络文章的影响力进行评估。对目标网络文章的影响力进行评估。

【技术实现步骤摘要】
基于属性多重异构信息网络的网络文章影响力评估方法


[0001]本专利技术涉及计算机
,尤其涉及基于属性多重异构信息网络的网络文章影响力评估方法。

技术介绍

[0002]针对网络文章及页面的影响力研究,早期的经典工作是PageRank算法,其基本思想是将网页的初始权重值平均地分配给链接的网页,循环操作至网页的权重收敛,最终的网页权重值就是PageRank值。此后,许多链接分析及文章影响力的分析都是基于PageRank算法改进而来。近年来,出现了许多基于推特,微博等网络媒体上发表文章的研究。这些研究通常对针对文章的一些媒体行为进行建模分析,如文章的被转发次数,点赞数,评论数等;也有对用户的影响力进行建模,统计用户的属性,如注册使用时间,发布数量,粉丝数等。
[0003]另一方面则是针对研究型论文的影响力。其次,也有通过建模科学引文的方法来衡量论文的影响力。如在引文网络中,将论文的被引用次数累加起来,累加值越高则被认为是越重要的论文;或者计算引用作者的数量来表示论文的重要程度。这种方式简单直接,计算量小。更经典的是H指数量化指标,其是一本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于属性多重异构信息网络的网络文章影响力评估方法,其特征在于,包括如下步骤:S101、通过爬虫技术获取多个目标网站的目标网络文章的文本及其属性信息;S102、依据获取到的目标网络文章的文本及其属性信息进行处理,(1)对目标网络文章的文本通过关键词过滤技术进行不相关信息的过滤;(2)随后使用语言主题模型抽取文章关键词作为文章的主题属性信息;(3)通过HITS算法计算目标网站、目标网络文章作者和目标网络文章的影响值;(4)将S101步骤中收集的属性信息、主题属性信息、目标网站和目标网络文章作者的影响值作为目标文章的属性信息,通过mysql数据库管理系统建立属性库;S103、将目标网络文章的属性库以词袋模型或者WordToVec表示,构建多重异构信息网络;S104、根据构建多重异构信息网络,采用metapath2vec中的基于元路径的随机游走模式,将网站和作者的影响值融入模型表示学习;S105、根据模型表示学习的结果表征,结合目标网络文章的影响值,使用机器学习模型进行回归训练,得到可重复使用的模型,以实现输入一篇文章即可获得其影响力值,根据其影响力值对目标网络文章的影响力进行评估。2.如权利要求1所述的基于属性多重异构信息网络的网络文章影响力评估方法,其特征在于:所述S101步骤中:通过网络爬虫技术从目标网络文章所在的网站上爬取目标网络文章文本及其属性信息,其属性信息包括:目标网络文章的关键词、阅读量、转发量、评论量;文章作者的注册时间、粉丝数量;目标网络文章所在网站的用户数、文章数。3.如权利要求1所述的基于属性多重异构信息网络的网络文章影响力评估方法,其特征在于:所述S102步骤中:所述网站影响值的计算,先只考虑网站之间的关系网络,构建一个有向图,其中每个节点表示每个网站,每条边表示网站之间的相互转发关系,再通过HITS算法来计算网站的影响值;所述作者影响值的计算,先...

【专利技术属性】
技术研发人员:钱云光张凤寒
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1