一种网络社区活跃用户簇的发现方法、终端设备及存储介质技术

技术编号:17391747 阅读:32 留言:0更新日期:2018-03-04 15:54
本发明专利技术涉及一种网络社区活跃用户簇的发现方法、终端设备及存储介质。在该方法中,包括以下步骤:S10:通过网络社区软件收集该网络社区内的用户群体;S20:获取代表用户活跃度的用户特征数据,包括交互数据和关系数据;S30:去除低活跃度用户;S40:根据特征数据对用户活跃度的影响大小不同确定用户特征数据的权重;S50:根据各特征数据及其所占权重的值,得到每个用户的特征数据模型;S60:通过聚类算法根据用户的相似度将用户分为不同的用户簇;S70:通过计算各用户簇的聚类中心与完全不活跃用户的距离确定活跃用户簇。本发明专利技术通过对用户在网络社区内部的信息交流数据和社交关系数据进行综合考虑,建立用户特征数据模型,通过聚类算法找出活跃用户簇。

A method of discovery, terminal equipment and storage medium for active user clusters in a network community

【技术实现步骤摘要】
一种网络社区活跃用户簇的发现方法、终端设备及存储介质
本专利技术涉及数据挖掘
,具体是一种网络社区活跃用户簇的发现方法、终端设备及存储介质。
技术介绍
随着互联网的迅速发展,社会空间已由现实的空间扩大到虚拟的网络空间,网络中的用户群体对社会的发展将产生巨大的影响,因此很有必要对网络社区中的用户按照活跃度划分,以便及时获取用户在网络社会的动态和虚拟社会的信息,保证挖掘用户数据的时效性和完整性。目前社区活跃用户的发现方法主要有社会关系的研究方法和统计用户发帖量变化的显示的特征方法。社会关系的研究方法,该方法将整个网络定义为一张图,每个用户作为图中的顶点,用户之间的关系作为图的边,把用户之间的关系作为用户活跃度的判定,将与其他顶点有相连边的点认为是活跃用户。该方法在用户活跃度判定方面有一定的参考依据,但是它完全忽略了网络社会中建立关系的低成本和容易性,此方法将造成很多关注了其他用户的账号被认为是活跃用户,然而与事实不符,因为存在不少出于商业目的注册的账号关注了大量用户而不再使用的可能。统计用户发帖量变化的显示方法,该方法统计每个用户在一定时间段的发帖量,将发帖量与时间段绘制成变化曲线,由曲线的变化率来判断用户的活跃度。此方法仅仅只是把用户的发帖量作为衡量用户活跃度的唯一标准,完全忽略了其他影响因素的存在。因此需要一种能够综合考虑发帖量及发帖时间、社会关系等多种因素的活跃用户簇的发现方法或装置。
技术实现思路
为了解决上述问题,本专利技术旨在提供一种网络社区活跃用户簇的发现方法、终端设备及存储介质,通过对用户在网络社区内部的信息交流数据和社交关系数据进行综合考虑,建立用户特征数据模型,通过聚类算法找出活跃用户簇。具体方案如下:一种网络社区活跃用户簇的发现方法,包括以下步骤:S10:通过网络社区软件收集该网络社区内的用户群体;S20:获取代表用户活跃度的用户特征数据,包括交互数据和关系数据;所述交互数据为用户通过网络社区软件进行信息交流的数据,关系数据为用户在网络社区内部与其他用户建立联系的数据;S30:去除低活跃度用户,即交互数据和关系数据均低的用户;S40:根据特征数据对用户活跃度的影响大小不同确定用户特征数据的权重系数,影响大的特征数据所占的权重系数大,影响小的特征数据所占的权重系数小,用户的所有特征数据所对应的权重系数总和为1;S50:根据各特征数据及其所占权重的值,得到每个用户的特征数据模型;S60:通过聚类算法根据用户的相似度将用户分为不同的用户簇;S70:通过计算各用户簇的聚类中心用户与完全不活跃用户的距离确定活跃用户簇。进一步的,所述步骤S10内的用户群体收集方式包括:S101:通过设定关键字,使用网络社区官方软件的编程接口进行搜索得到初始用户群;S102:通过收集初始用户群在上述网络社区官方软件内的社交关系用户得到最终用户群。进一步的,所述步骤S20内的交互数据包括发帖总量、最近一月发帖量、原创帖量,关系数据包括关注数和粉丝数,即用户的特征数据包括发帖总量、最近一月发帖量、原创帖量、关注数和粉丝数,其中发帖总量、最近一月发帖量、原创帖量、关注数和粉丝数分别用mbi、mri、moi、foi和fai来表示,其中i为用户编号,值为1、2、3……、n中的某一个,当i为不同值时分别对应不同的用户。进一步的,所述步骤S40内权重系数的设定中,发帖总量、最近一月发帖量、原创帖量、关注数和粉丝数所占的权重系数分别为:n_mb=0.1、n_mr=0.3、n_mo=0.3、n_fo=0.1、n_fa=0.2,其中n_mb表示发帖总量的权重系数、n_mr表示最近一月发帖量的权重系数、n_mo表示原创帖量的权重系数、n_fo表示关注数的权重系数、n_fa表示粉丝数的权重系数。进一步的,所述步骤S50内的用户特征数据模型为:Fi=(nmbi,nmri,nmoi,nfoi,nfai),其中nmbi=n_mb×mbi、nmri=n_mr×mri、nmoi=n_mo×moi、nfoi=n_fo×foi、nfai=n_fa×fai,其中i为用户编号,值为1、2、3、……、n中的某一个,当i为不同值时分别对应不同的用户。进一步的,所述步骤S60内的聚类算法为k-means算法,具体步骤包括:S601:从用户群体中任意选取k个用户作为初始聚类中心;S602:将用户按照距离最小原则分配到临近聚类;S603:重新计算每个新聚类所有用户的均值,即为该聚类的新聚类中心;S604:不断重复步骤S602、S603,直到聚类中心不再变化。进一步的,所述步骤602内距离的计算方法采用余弦相似度计算方法,具体公式如下:Sim(Fi,Fj)=(Fi*Fj)/(||Fi||*||Fj||)其中i、j分别为对应的用户编号,Fi、Fj分别为用户编号i、j对应用户的特征数据模型。进一步的,所述步骤S70所述距离的具体计算方式为:完全不活跃用户的特征数据模型为:F0=(0,0,0,0,0),聚类中心用户i(其中i表示用户编号)的特征数据模型为:Fi=(nmbi,nmri,nmoi,nfoi,nfai),聚类中心用户i与完全不活跃用户之间的距离计算公式为:进一步的,由于用户的特征数据不是一成不变的,本方法会定时更新用户的特征数据,对用户簇进行重新划分,保证了数据的时效性和准确性。一种网络社区活跃用户簇的发现终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现网络社区活跃用户簇的发现方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现网络社区活跃用户簇的发现方法的步骤。本专利技术采用如上技术方案,通过对网络社区用户建立特征数据模型,将用户的在该网络社区内部的信息交流数据和社交关系数据统一的结合在一起,并且根据其对活跃度的影响进行所占权重系数的划分,所以所建立的特征数据模型能较准确的代表用户在该网络社区内部的活跃度,通过聚类算法,将不同活跃度的用户归为不同的用户簇,然后通过计算这些用户簇中心与完全不活跃用户簇的距离,对不同用户簇的活跃度进行排序,距离越大的用户簇越活跃,可以根据需要选出相应活跃度的用户簇。附图说明图1所示为本专利技术实施例一的步骤示意图。图2所示为本专利技术实时例一的聚类方法示意图。具体实施方式为进一步说明各实施例,本专利技术提供有附图。这些附图为本专利技术揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。现结合附图和具体实施方式对本专利技术进一步说明。实施例一:本专利技术实施例一提供了一种网络社区活跃用户簇收集方法,如图1所示,其为本专利技术实施例一所述的网络社区活跃用户簇收集方法的流程示意图,所述方法可包括以下步骤:S10:通过网络社区软件收集该网络社区内的用户群体,用户的收集方式可以根据各网络社区软件的不同采取不同的收集方式,主要有以下两种方式:S101:通过设定关键字,使用网络社区官方软件的编程接口进行搜索得到初始用户群;所述用户界面即人与本文档来自技高网...
一种网络社区活跃用户簇的发现方法、终端设备及存储介质

【技术保护点】
一种网络社区活跃用户簇的发现方法,其特征在于:包括以下步骤:S10:通过网络社区软件收集该网络社区内的用户群体;S20:获取代表用户活跃度的用户特征数据,包括交互数据和关系数据;所述交互数据为用户通过网络社区软件进行信息交流的数据,关系数据为用户在网络社区内部与其他用户建立联系的数据;S30:去除低活跃度用户,即交互数据和关系数据均低的用户;S40:根据特征数据对用户活跃度的影响大小不同确定用户特征数据的权重系数,影响大的特征数据所占的权重系数大,影响小的特征数据所占的权重系数小,用户的所有特征数据所对应的权重系数总和为1;S50:根据各特征数据及其所占权重的值,得到每个用户的特征数据模型;S60:通过聚类算法根据用户的相似度将用户分为不同的用户簇;S70:通过计算各用户簇的聚类中心用户与完全不活跃用户的距离确定活跃用户簇。

【技术特征摘要】
1.一种网络社区活跃用户簇的发现方法,其特征在于:包括以下步骤:S10:通过网络社区软件收集该网络社区内的用户群体;S20:获取代表用户活跃度的用户特征数据,包括交互数据和关系数据;所述交互数据为用户通过网络社区软件进行信息交流的数据,关系数据为用户在网络社区内部与其他用户建立联系的数据;S30:去除低活跃度用户,即交互数据和关系数据均低的用户;S40:根据特征数据对用户活跃度的影响大小不同确定用户特征数据的权重系数,影响大的特征数据所占的权重系数大,影响小的特征数据所占的权重系数小,用户的所有特征数据所对应的权重系数总和为1;S50:根据各特征数据及其所占权重的值,得到每个用户的特征数据模型;S60:通过聚类算法根据用户的相似度将用户分为不同的用户簇;S70:通过计算各用户簇的聚类中心用户与完全不活跃用户的距离确定活跃用户簇。2.根据权利要求1所述的网络社区活跃用户簇的发现方法,其特征在于:所述步骤S10内的用户群体收集方式包括:S101:通过设定关键字,使用网络社区官方软件的编程接口进行搜索得到初始用户群;S102:通过收集初始用户群在上述网络社区官方软件内的社交关系用户得到最终用户群。3.根据权利要求1所述的网络社区活跃用户簇的发现方法,其特征在于:所述步骤S20内的交互数据包括发帖总量、最近一月发帖量、原创帖量,关系数据包括关注数和粉丝数,即用户的特征数据包括发帖总量、最近一月发帖量、原创帖量、关注数和粉丝数,其中发帖总量、最近一月发帖量、原创帖量、关注数和粉丝数分别用mbi、mri、moi、foi和fai来表示,其中i为用户编号,值为1、2、3……、n中的某一个,当i为不同值时分别对应不同的用户。4.根据权利要求3所述的网络社区活跃用户簇的发现方法,其特征在于:所述步骤S40内权重系数的设定中,发帖总量、最近一月发帖量、原创帖量、关注数和粉丝数所占的权重系数分别为:n_mb=0.1、n_mr=0.3、n_mo=0.3、n_fo=0.1、n_fa=0.2,其中n_mb表示发帖总量的权重系数、n_mr表示最近一月发帖量的权重系数、n_mo表示原创帖量的权重系数、n_fo表示关注数的权重系数、n_fa表示粉丝数的权重系数。5.根据权利要求4所述的网络社区活跃用户簇的发现方法,其特征在于:所述步骤S50内的用户特征数据模型为:Fi=(nmbi,nmr...

【专利技术属性】
技术研发人员:徐晓文李火泉栾江霞章正道
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1