一种网络社区活跃用户簇的发现方法、终端设备及存储介质技术

技术编号：17391747 阅读：32 留言：0更新日期：2018-03-04 15:54

本发明专利技术涉及一种网络社区活跃用户簇的发现方法、终端设备及存储介质。在该方法中，包括以下步骤：S10：通过网络社区软件收集该网络社区内的用户群体；S20：获取代表用户活跃度的用户特征数据，包括交互数据和关系数据；S30：去除低活跃度用户；S40：根据特征数据对用户活跃度的影响大小不同确定用户特征数据的权重；S50：根据各特征数据及其所占权重的值，得到每个用户的特征数据模型；S60：通过聚类算法根据用户的相似度将用户分为不同的用户簇；S70：通过计算各用户簇的聚类中心与完全不活跃用户的距离确定活跃用户簇。本发明专利技术通过对用户在网络社区内部的信息交流数据和社交关系数据进行综合考虑，建立用户特征数据模型，通过聚类算法找出活跃用户簇。

A method of discovery, terminal equipment and storage medium for active user clusters in a network community

全部详细技术资料下载

【技术实现步骤摘要】
一种网络社区活跃用户簇的发现方法、终端设备及存储介质
本专利技术涉及数据挖掘
，具体是一种网络社区活跃用户簇的发现方法、终端设备及存储介质。
技术介绍
随着互联网的迅速发展，社会空间已由现实的空间扩大到虚拟的网络空间，网络中的用户群体对社会的发展将产生巨大的影响，因此很有必要对网络社区中的用户按照活跃度划分，以便及时获取用户在网络社会的动态和虚拟社会的信息，保证挖掘用户数据的时效性和完整性。目前社区活跃用户的发现方法主要有社会关系的研究方法和统计用户发帖量变化的显示的特征方法。社会关系的研究方法，该方法将整个网络定义为一张图，每个用户作为图中的顶点，用户之间的关系作为图的边，把用户之间的关系作为用户活跃度的判定，将与其他顶点有相连边的点认为是活跃用户。该方法在用户活跃度判定方面有一定的参考依据，但是它完全忽略了网络社会中建立关系的低成本和容易性，此方法将造成很多关注了其他用户的账号被认为是活跃用户，然而与事实不符，因为存在不少出于商业目的注册的账号关注了大量用户而不再使用的可能。统计用户发帖量变化的显示方法，该方法统计每个用户在一定时间段的发帖量，将发帖量与时间段绘制成变化曲线，由曲线的变化率来判断用户的活跃度。此方法仅仅只是把用户的发帖量作为衡量用户活跃度的唯一标准，完全忽略了其他影响因素的存在。因此需要一种能够综合考虑发帖量及发帖时间、社会关系等多种因素的活跃用户簇的发现方法或装置。
技术实现思路
为了解决上述问题，本专利技术旨在提供一种网络社区活跃用户簇的发现方法、终端设备及存储介质，通过对用户在网络社区内部的信息交流数据和社交关系数据进行综合考虑...

【技术保护点】
一种网络社区活跃用户簇的发现方法，其特征在于：包括以下步骤：S10：通过网络社区软件收集该网络社区内的用户群体；S20：获取代表用户活跃度的用户特征数据，包括交互数据和关系数据；所述交互数据为用户通过网络社区软件进行信息交流的数据，关系数据为用户在网络社区内部与其他用户建立联系的数据；S30：去除低活跃度用户，即交互数据和关系数据均低的用户；S40：根据特征数据对用户活跃度的影响大小不同确定用户特征数据的权重系数，影响大的特征数据所占的权重系数大，影响小的特征数据所占的权重系数小，用户的所有特征数据所对应的权重系数总和为1；S50：根据各特征数据及其所占权重的值，得到每个用户的特征数据模型；S60：通过聚类算法根据用户的相似度将用户分为不同的用户簇；S70：通过计算各用户簇的聚类中心用户与完全不活跃用户的距离确定活跃用户簇。

【技术特征摘要】
1.一种网络社区活跃用户簇的发现方法，其特征在于：包括以下步骤：S10：通过网络社区软件收集该网络社区内的用户群体；S20：获取代表用户活跃度的用户特征数据，包括交互数据和关系数据；所述交互数据为用户通过网络社区软件进行信息交流的数据，关系数据为用户在网络社区内部与其他用户建立联系的数据；S30：去除低活跃度用户，即交互数据和关系数据均低的用户；S40：根据特征数据对用户活跃度的影响大小不同确定用户特征数据的权重系数，影响大的特征数据所占的权重系数大，影响小的特征数据所占的权重系数小，用户的所有特征数据所对应的权重系数总和为1；S50：根据各特征数据及其所占权重的值，得到每个用户的特征数据模型；S60：通过聚类算法根据用户的相似度将用户分为不同的用户簇；S70：通过计算各用户簇的聚类中心用户与完全不活跃用户的距离确定活跃用户簇。2.根据权利要求1所述的网络社区活跃用户簇的发现方法，其特征在于：所述步骤S10内的用户群体收集方式包括：S101：通过设定关键字，使用网络社区官方软件的编程接口进行搜索得到初始用户群；S102：通过收集初始用户群在上述网络社区官方软件内的社交关系用户得到最终用户群。3.根据权利要求1所述的网络社区活跃用户簇的发现方法，其特征在于：所述步骤S20内的交互数据包括发帖总量、最近一月发帖量、原创帖量，关系数据包括关注数和粉丝数，即用户的特征数据包括发帖总量、最近一月发帖量、原创帖量、关注数和粉丝数，其中发帖总量、最近一月发帖量、原创帖量、关注数和粉丝数分别用mbi、mri、moi、foi和fai来表示，其中i为用户编号，值为1、2、3……、n中的某一个，当i为不同值时分别对应不同的用户。4.根据权利要求3所述的网络社区活跃用户簇的发现方法，其特征在于：所述步骤S40内权重系数的设定中，发帖总量、最近一月发帖量、原创帖量、关注数和粉丝数所占的权重系数分别为：n_mb＝0.1、n_mr＝0.3、n_mo＝0.3、n_fo＝0.1、n_fa＝0.2，其中n_mb表示发帖总量的权重系数、n_mr表示最近一月发帖量的权重系数、n_mo表示原创帖量的权重系数、n_fo表示关注数的权重系数、n_fa表示粉丝数的权重系数。5.根据权利要求4所述的网络社区活跃用户簇的发现方法，其特征在于：所述步骤S50内的用户特征数据模型为：Fi＝(nmbi,nmr...

【专利技术属性】
技术研发人员：徐晓文，李火泉，栾江霞，章正道，
申请(专利权)人：厦门市美亚柏科信息股份有限公司，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人