基于社区发现的集体社交行为的提取方法及系统技术方案

技术编号:34030238 阅读:26 留言:0更新日期:2022-07-06 10:56
本发明专利技术公开了一种基于社区发现的集体社交行为的提取方法及系统,其中,该方法包括:抓取社交网络中多个用户发表的帖子作为初始数据集,并对其进行预处理得到数据集;利用LDA模型处理数据集,生成主题分布;构造基于稀疏表达的相似度计算函数求解每个帖子与主题分布的相似度,得到亲和矩阵;基于自适应损失函数构建社区发现算法,确定目标函数;使用交替迭代法使目标函数不断学习,得到亲和矩阵中同一主题下每个帖子之间的连通分量,以构建目标相似度矩阵确定社区结构;引入node2vec模型将社区结构可视化,根据社区结构中中节点的分布情况提取集体社交行为。该方法可以准确提取明显不同于个体语义行为特征的集体社交行为,且鲁棒性高。棒性高。棒性高。

Extraction method and system of collective social behavior based on community discovery

【技术实现步骤摘要】
基于社区发现的集体社交行为的提取方法及系统


[0001]本专利技术涉及社交网络分析
,特别涉及一种基于社区发现的针对在线社交网络 中集体社交行为的提取方法及系统。

技术介绍

[0002]社交网络是由参与者以及他们之间的相互关系结构所组成,它可以表示为一群节点和 一组代表它们之间联系的链接组成的网络结构。这群节点由个人、团体、组织和相关系统 通过相同的价值观、环境、想法相互连接;也可以是社交接触、纠纷、金融证券交易、商 业等事件,作为一种或多种由人际关系的许多方面组成的群体相互结合在一起。当上述的 关系成功形成后,社交网络能通过获取人力、社会、自然、物质和金融资本及相关的信息 内容影响更广泛的社会进程。在开发工作中,它们可以影响政策、战略、计划和项目,以 及构成其基础的伙伴关系。根据在线社交网络的这些特征,使在线社交网络分析在处理许 多问题上成为一个有效点。
[0003]社交网络分析通常被称为分析研究,其目的是揭示社交网络中节点和节点之间联系的 相关信息。通过将这些关系作为社交网络分析的信息来处理,可以确保对该网络结构有更 好的理解。社交网络分析现在几乎被用于多有领域,如个人和社会群体结构和行为的检测 (组件分解、聚类、关系确定)、电子商务在线广告(客户概况和趋势分析、个性化广告和 提案提交)、大型数据集分析(媒体跟踪、学术出版物分析、基因研究)等。研究人员会在 社交网络分析时运用多种数据挖掘技术实现目标。
[0004]社区发现是基于网络拓扑结构的一类算法,根据研究内容的不同,可以将其分为以下 几类:层次聚类算法是基于节点之间的相似性或连接强度来对社区进行划分的,最常用的 聚类算法有Newman快速算法,Newman贪婪算法,还有基于谱的聚类算法等;光谱聚类 算法是通过分析拉普拉斯矩阵或由邻接矩阵形成的标准矩阵的特征值和特征向量来发现网 络中的社区;基于模块化的算法包含模块化优化算法和改进的模块化算法。模块化优化算 法是通过以模块化函数为优化目标来检测网络中的社区。常用的算法有贪婪算法,模拟退 火算法,Louvain算法等;改进的模块化算法采用改进的模块化函数,将模块化应用于不同 类型的网络实现社区发现。
[0005]集体社交行为的研究在社交网络中是分析社区和网络基础的关键,准确提取出在线社 交网络中的集体社交行为具有重要意义。例如通过回购率、销量和不同地区来源等方面研 究网络购物的从众心理;建立社会社区集体行为特征模型揭示集体行为和社区主题之间的 关系;分析社交数据中的集体行为发现用户可以将自己的偏好感受传递给有连接的其他用 户,使得他们逐渐分享相同或相似的主观感受。
[0006]现有方法存在的问题在于:提取社交行为的过程中仅考虑了社交网络中社区的结构特 征,忽略了社交网络中节点本身的语义信息,并且对于表现出明显不同于个体语义行为特 征的集体社交行为很难被准确提取出来。据此,我们提取出社交网络中的语义信息,通过 社区发现将社交网络中具有相似行为的用户形成一个社区,从而准确地提取出社交
网络中 的集体社交行为。

技术实现思路

[0007]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0008]为此,本专利技术的一个目的在于提出一种基于社区发现的集体社交行为的提取方法,该 方法解决了现有技术对明显不同于个体语义行为特征的集体社交行为很难准确提取,所导 致能表现在线社交网络的集体社交行为准确度不高,鲁棒性不足的技术问题。
[0009]本专利技术的另一个目的在于提出一种基于社区发现的集体社交行为的提取系统。
[0010]为达到上述目的,本专利技术一方面实施例提出了基于社区发现的集体社交行为的提取方 法,包括以下步骤:步骤S1,抓取社交网络中多个用户发表的帖子作为初始数据集,并对 所述初始数据集进行清洗、分词处理,得到数据集;步骤S2,利用LDA模型处理所述数 据集,生成多个主题和每条帖子的主题分布;步骤S3,构造基于稀疏表达的相似度计算函 数求解每个帖子与所述主题分布的相似度,得到亲和矩阵;步骤S4,基于自适应损失函数 和所述亲和矩阵构建社区发现算法,以确定目标函数;步骤S5,使用交替迭代法使所述目 标函数不断学习,得到所述亲和矩阵中同一主题下每个帖子之间的连通分量,以构建目标 相似度矩阵确定社区网络中的社区结构;步骤S6,引入node2vec模型将所述社区结构可视 化,根据所述社区结构中中节点的分布情况提取集体社交行为。
[0011]本专利技术实施例的基于社区发现的集体社交行为的提取方法,利用自适应损失函数学习 相似度矩阵,高质量地处理了社交网络的初始数据信息,完成了社交网络的重构与社区发 现,保证输出的社区结构具有较高的内聚性及稳定性,不仅实现了在线社交网络的集体社 交行为提取,还使结果具有优良的准确度与鲁棒性。
[0012]另外,根据本专利技术上述实施例的基于社区发现的集体社交行为的提取方法还可以具有 以下附加的技术特征:
[0013]进一步地,在本专利技术的一个实施例中,所述亲和矩阵为:
[0014][0015]其中,c
i,j
为亲和矩阵的第i行j列的值,m为自适应用户的邻居个数,为 节点i和j主题分布的l2

norm。
[0016]进一步地,在本专利技术的一个实施例中,所述目标函数为:
[0017]min
S,F
||C
(v)

S||
σ
+εTr(F
T
LF)
[0018]s.t.1
T
s
i
=1,s
i,j
≥0,F
T
F=I
[0019]其中,S为目标变量,C为亲和矩阵,σ为自适应参数,ε为平衡因子,F为聚类指 示矩阵,L为目标变量的拉普拉斯矩阵,Tr()为迹,1
T
s
i
为S第i列的所有值之和,s
i,j
为S 第i行j列的值,I为单位矩阵。
[0020]进一步地,在本专利技术的一个实施例中,所述步骤S5具体为:利用交替迭代法,先固定 聚类指示矩阵求解目标变量,再固定所述目标变量求解所述聚类指示矩阵,直至所述目
标 变量的相对变化小于10
‑3或者迭代次数大于150次,得到同一主题下每个帖子之间的连通 分量,进而构建所述目标相似度矩阵确定社区网络中的社区结构。
[0021]进一步地,在本专利技术的一个实施例中,所述步骤S6中提取集体社交行为的方法为:若 所述社区结构的中节点分布稀疏,则采用最小化的圆覆盖社区中所有节点,取离圆中心最 近的节点作为所述集体社交行为;若所述社区结构的中节点分布密集,则使用中心度提取 所述集体社交行为。
[0022]为达到上述目的,本专利技术另一方面实施例提出了基于社区发现的集体社交行为的提取 系统,包括:获取和预处理模块,用于抓取社交网络中多个用户发表的帖子作为初始数据 集,并对所述初始数据集进行清洗、分词处理,得到数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于社区发现的集体社交行为的提取方法,其特征在于,包括以下步骤:步骤S1,抓取社交网络中多个用户发表的帖子作为初始数据集,并对所述初始数据集进行清洗、分词处理,得到数据集;步骤S2,利用LDA模型处理所述数据集,生成多个主题和每条帖子的主题分布;步骤S3,构造基于稀疏表达的相似度计算函数求解每个帖子与所述主题分布的相似度,得到亲和矩阵;步骤S4,基于自适应损失函数和所述亲和矩阵构建社区发现算法,以确定目标函数;步骤S5,使用交替迭代法使所述目标函数不断学习,得到所述亲和矩阵中同一主题下每个帖子之间的连通分量,以构建目标相似度矩阵确定社区网络中的社区结构;步骤S6,引入node2vec模型将所述社区结构可视化,根据所述社区结构中中节点的分布情况提取集体社交行为。2.根据权利要求1所述的基于社区发现的集体社交行为的提取方法,其特征在于,所述亲和矩阵为:其中,c
i,j
为亲和矩阵的第i行j列的值,m为自适应用户的邻居个数,为节点i和j主题分布的l2

norm。3.根据权利要求1所述的基于社区发现的集体社交行为的提取方法,其特征在于,所述目标函数为:min
S,F
||C
(v)

S||
σ
+εTr(F
T
LF)s.t.1
T
s
i
=1,s
i,j
≥0,F
T
F=I其中,S为目标变量,C为亲和矩阵,σ为自适应参数,ε为平衡因子,F为聚类指示矩阵,L为目标变量的拉普拉斯矩阵,Tr()为迹,1
T
s
i
为S第i列的所有值之和,s
i,j
为S第i行j列的值,I为单位矩阵。4.根据权利要求1所述的基于社区发现的集体社交行为的提取方法,其特征在于,所述步骤S5具体为:利用交替迭代法,先固定聚类指示矩阵求解目标变量,再固定所述目标变量求解所述聚类指示矩阵,直至所述目标变量的相对变化小于10
‑3或者迭代次数大于150次,得到同一主题下每个帖子之间的连通分量,进而构建所述目标相似度矩阵确定社区网络中的社区结构。5.根据权利要求1所述的基于社区发现的集体社交行为的提取方法,其特征在于,所述步骤S6中提取集体社交行为的方法为:若所述社区结构的中节点分布稀疏,则采用最小化的圆覆盖社区中所有节点,取离圆中心最近的节点作为所述集体社交行为;若所述社区结构的中节点分布密集,则使用中心度提取所述集体社交行为。6.一种基于社区发现的集体社交行为的提取系统,其特征在于,包括...

【专利技术属性】
技术研发人员:杨海陆刘乾张建林张金陈晨王莉莉丁晓宇
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1