基于图链接分析的网络用户分类方法技术

技术编号:24331408 阅读:39 留言:0更新日期:2020-05-29 19:44
本发明专利技术公开一种基于图链接分析的网络用户分类方法,主要步骤包括:构建网络用户拓扑图;利用图链接分析公式,计算网络用户拓扑图中每个网络用户的链接紧密度;对网络用户进行过滤;利用待分类网络用户的活跃度设定阈值;利用每个待分类网络用户的关键词计算相关度C;对待分类网络用户进行分类。本发明专利技术具有在保证用户分类准确度前提下,分类效率高的优点。

Network user classification based on graph link analysis

【技术实现步骤摘要】
基于图链接分析的网络用户分类方法
本专利技术属于物理
,更进一步涉及网络分类
中的一种基于图链接分析的网络用户分类方法。本专利技术可用于解决互联网中网络用户的分类问题。
技术介绍
网络中存在大量用户,每个网络用户的关注信息各不相同,同时网络用户中也存在大量垃圾用户。垃圾用户经常在网站中发表无用信息,扰乱网络秩序。过滤掉网站中的垃圾用户可以有效的净化网络环境,避免垃圾用户的干扰。另一方面,对网络中的活跃用户进行分类便于用户管理,对后续的用户扩展、网站运营起着至关重要的作用。目前,大多数用户分类方法是根据用户关系和用户个人信息对网站中的所有用户进行分类,这些方法在提升分类结果准确率的同时,却降低了分类效率。北京工业大学在其申请的专利文献“基于链接与文本内容的网络社区用户群划分方法”(专利申请号CN201310084039.1,公开号CN103218400A)公开了一种基于链接与文本内容的网络用户分类方法。该方法利用基于链接的分析方法对网络社区用户在链接上所表现出的网络结构进行分析,同时利用基于兴趣的分析方法对用户在文本内容上所表现的相同兴趣结构进行分析,将二者的结果进行差异性融合,得到具有综合性的网络社区用户群划分结果。在此基础上,分别对每一个划分结果进行评价,验证整划分结果的准确性,对不满足指标要求的,按照紧密程度对该群体成员进行筛选。利用该方法进行用户分类和群体划分,虽然分类结果准确率有所提高,但是,该方法仍然存在的不足之处是,需要对分类的网络用户进行人工筛选,大大降低了分类效率。重庆邮电大学在其申请的专利文献“基于特征加权的朴素贝叶斯微博用户分类方法”(专利申请号201810443273.1,公开号CN108596276A)中公开了一种基于特征加权的朴素贝叶斯网络用户分类方法。该方法将离散化处理的微博用户数据分为训练数据集和测试数据集;然后对训练数据集进行计算得到各个特征的先验概率、条件概率和信息增益,再根据信息增益排名建立目标优化矩阵,确定各个特征的权值;最后对测试数据进行计算后验概率,最大的后验概率所对应的类别即是分类结果。该方法存在的不足之处是,根据微博用户随意填写的个人信息进行用户分类,导致在实际应用中获得的用户分类结果的准确率不高。
技术实现思路
本专利技术的目的在于针对上述现有技术的不足,提出了一种基于图链接分析的网络用户分类方法,用于解决在保证网络用户分类准确率的同时,提高网络用户分类效率的问题。本专利技术的具体思路是,利用图链接分析方法对网络用户进行过滤,计算网络用户的活跃度,结合网络用户活跃度对网络用户进行分类,本专利技术在保证用户分类结果准确率的同时,提高了用户分类的效率。为了实现上述目的,本专利技术的具体实现步骤如下:(1)构建网络用户拓扑图:利用网络爬虫工具,爬取开源编程网站中每个用户页面的链接信息,将链接信息导入复杂网络建模工具生成网络用户拓扑图,该拓扑图中的节点表示网络用户,网络用户之间的链接表示为节点之间的边;(2)利用下述图链接分析公式,计算网络用户拓扑图中每个网络用户的链接紧密度:其中,Si表示第i个网络用户的链接紧密度,d表示阻尼因子,其取值为[0.70,0.85]中的任意有限小数,N表示网络用户拓扑图中网络用户的总数,∑表示求和操作,j表示网络用户的序号,uji表示第j个网络用户和第i个网络用户之间的链接关系,若两个网络用户之间存在链接关系则uji取值为1,不存在链接关系则uji取值为0,kj表示第j个网络用户与其它用户链接关系的总数,Sj表示第j个网络用户的链接紧密度;(3)对网络用户进行过滤:将所有网络用户的链接紧密度从高到低进行排序,保留前80%的网络用户作为待分类的网络用户,将其余网络用户作为垃圾用户进行删除;(4)利用待分类网络用户的活跃度设定阈值:(4a)利用下式,计算每个待分类网络用户的活跃度:θm=0.9lg(dm+1)其中,θm表示第m个待分类网络用户的活跃度,lg表示以自然常数10为底的对数操作,dm表示第m个待分类网络用户在活跃度评价期间登陆网站的次数;(4b)将待分类网络用户在活跃度评价期间活跃度的最小值设为阈值;(5)利用每个待分类网络用户的关键词计算相关度C:(5a)利用关键词提取工具提取每个待分类网络用户的关键词;(5b)利用余弦相似度公式,计算每个待分类网络用户与该用户所在的开源编程网站的搜索关键词的相关度C;(6)对待分类网络用户进行分类:用每个待分类网络用户与该用户所在的开源编程网站的搜索关键词的相关度C乘以该用户的活跃度,将乘积大于阈值的待分类网络用户作为开源编程网站搜索关键词分类下的活跃用户。本专利技术与现有技术相比有以下优点:第一,由于本专利技术通过采用图链接分析对网络用户进行过滤,筛除了垃圾用户,克服了现有技术进行用户分类时,大量的垃圾用户增加了用户分类工作量的问题,使得本专利技术对网络用户分类的效率更高。第二,由于本专利技术通过对用户的活跃度进行分析,结合用户在网络中的活跃度进行用户分类,克服了现有技术仅利用户个人兴趣资料进行用户分类,准确率较低的问题,使得本专利技术的网络用户分类结果有更高的准确率。附图说明图1是本专利技术的流程图。具体实施方式下面结合附图1对本专利技术实现的具体步骤作进一步的描述。步骤1,构建网络用户拓扑图。利用网络爬虫工具,爬取开源编程网站中每个用户页面的链接信息,将链接信息导入Python第三方包Networkx生成网络用户拓扑图,该拓扑图中的节点表示网络用户,网络用户之间的链接表示为节点之间的边。步骤2,利用下述图链接分析公式,计算每个网络用户的链接紧密度。其中,Si表示第i个网络用户的链接紧密度,d表示阻尼因子,其取值范围为0.70~0.85,N表示网络用户拓扑图中的网络用户总数,∑表示求和操作,j表示网络用户的序号,uji表示第j个网络用户和第i个网络用户之间的链接关系,若两个网络用户之间存在链接关系则uji取值为1,不存在链接关系则uji取值为0,kj表示第j个网络用户与其它用户链接关系的总数,Sj表示第j个网络用户的链接紧密度。步骤3,对网络用户进行过滤。将所有网络用户的链接紧密度从高到低进行排序,保留前80%的网络用户作为待分类的网络用户,将其余网络用户作为垃圾用户进行删除。步骤4,利用待分类网络用户的活跃度设定阈值。第一步,利用下式,计算每个待分类网络用户的活跃度。θi=0.9lg(di+1)其中,θi表示第i个待分类网络用户的活跃度,lg表示以自然常数10为底的对数操作,di表示第i个待分类网络用户在活跃度评价期间登陆网站的次数。在本专利技术的实施例中,用于评价用户活跃度的活跃度评价期选择为半年时间。第二步,将待分类网络用户在活跃度评价期间活跃度的最小值设为阈值。步骤5,利用每个待分类网络用户的关键词计算相关度本文档来自技高网
...

【技术保护点】
1.一种基于图链接分析的网络用户分类方法,其特征在于,利用图链接分析方法对网络用户进行过滤,分析网络用户的活跃度,结合网络用户的活跃度对网络用户进行分类;该方法的具体步骤包括如下:/n(1)构建网络用户拓扑图:/n利用网络爬虫工具,爬取开源编程网站中每个用户页面的链接信息,将链接信息导入复杂网络建模工具生成网络用户拓扑图,该拓扑图中的节点表示网络用户,网络用户之间的链接表示为节点之间的边;/n(2)利用下述图链接分析公式,计算网络用户拓扑图中每个网络用户的链接紧密度:/n

【技术特征摘要】
1.一种基于图链接分析的网络用户分类方法,其特征在于,利用图链接分析方法对网络用户进行过滤,分析网络用户的活跃度,结合网络用户的活跃度对网络用户进行分类;该方法的具体步骤包括如下:
(1)构建网络用户拓扑图:
利用网络爬虫工具,爬取开源编程网站中每个用户页面的链接信息,将链接信息导入复杂网络建模工具生成网络用户拓扑图,该拓扑图中的节点表示网络用户,网络用户之间的链接表示为节点之间的边;
(2)利用下述图链接分析公式,计算网络用户拓扑图中每个网络用户的链接紧密度:



其中,Si表示第i个网络用户的链接紧密度,d表示阻尼因子,其取值为[0.70,0.85]中的任意有限小数,N表示网络用户拓扑图中网络用户的总数,∑表示求和操作,j表示网络用户的序号,uji表示第j个网络用户和第i个网络用户之间的链接关系,若两个网络用户之间存在链接关系则uji取值为1,不存在链接关系则uji取值为0,kj表示第j个网络用户与其它用户链接关系的总数,Sj表示第j个网络用户的链接紧密度;
(3)对网络用户进行过滤:
将所有网络用户的链接紧密度从高到低进行排序,保留前80%的网络用户作为待分类的网络用户,将其余网络用户作为垃圾用户进行删除;
(4)利用待分类网络用户的活跃度设定...

【专利技术属性】
技术研发人员:赵楠程佳陈南易运晖包晶晶
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1