基于社交网络的主题社团发现方法技术

技术编号：10050647 阅读：310 留言：0更新日期：2014-05-15 21:22

本发明专利技术公开了一种基于社交网络的主题社团发现方法，包括步骤：S1、对社交网络的文档集进行主题分析，从而得到主题向量集；S2、对所述主题向量集使用k-means算法进行聚类，从而得到主题簇；S3、对每个所述主题簇进行链接划分，得到每个主题簇的主题社团集。本发明专利技术结合基于链接的社团发现算法和主题模型算法提供了一种能够有效和高效地对社团进行主题和链接划分的主题社团发现算法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域，尤其涉及基于社交网络的主题社团发现方法。
技术介绍
随着社交网络服务（简称SNS）的迅速发展，社交网络已经成为人们获取实时信息的重要来源和进行网络社交的重要平台。近几年里我国社交网络的用户数量在高速增长，这就说明了社交网络在高速发展。同时，社交网络存在大量数据信息，而且数据类型有多种形式，如人际网络，文本，图片，视频和音频等。如何利用这些数据为社交网络用户提供更好的服务已经成为了社交网络分析（Social network analysis）的重要研究方向。社团发现问题是社交网络分析的核心问题之一。由原来的无向图社团发现到现在的核心社团发现，社团发现问题得到了许多扩展，并且新的问题又被提出来。社团发现研究既有丰富的科学理论，又有巨大的商业意义，比如社团发现算法可以对社交网络的人及其人际结构进行分析，并可以向其推荐好友、商品等。在社交网络分析时，通常是采集社交网络的文本集，再对文本集进行主题分析，主题分析是通过对文本内容分析并提...

【技术保护点】
一种基于社交网络的主题社团发现方法，其特征在于，包括步骤：S1、对社交网络的文档集进行主题分析，从而得到主题向量集；S2、对所述主题向量集使用k‑means算法进行聚类，从而得到主题簇；S3、对每个所述主题簇进行链接划分，得到每个主题簇的主题社团集。

【技术特征摘要】
1.一种基于社交网络的主题社团发现方法，其特征在于，包括步骤：
S1、对社交网络的文档集进行主题分析，从而得到主题向量集；
S2、对所述主题向量集使用k-means算法进行聚类，从而得到主题簇；
S3、对每个所述主题簇进行链接划分，得到每个主题簇的主题社团集。
2.如权利要求1所述的基于社交网络的主题社团发现方法，其特征在于，
所述步骤S1具体包括步骤：
S11、对所述社交网络的文档集分词，得到文档集中词的总数，并对所述分
词后的文档集采用LDA算法进行主题分析，得到每个主题出现在每个文档的概
率矩阵以及每个文档的主题总数、每个词出现在每个主题上的次数和每个主题
所包含的词的总数；其中，所述概率矩阵中的每一行即为对应的文档在主题上
的主题向量，全部的主题向量集合即为所述主题向量集。
3.如权利要求2所述的基于社交网络的主题社团发现方法，其特征在于，
所述步骤S11之后还包括步骤：
S12、当社交网络的文档集更新从而产生新的文档集时，根据所述步骤S11
得到的每个文档的主题总数、每个词出现在每个主题上的次数和每个主题所包
含的词的总数，对所述新的文档集中每一个新文档分词后进行主题分析，从而
得到更新后的每个主题出现在每个文档的概率矩阵。
4.如权利要求3所述的基于社交网络的主题社团发现方法，其特征在于，
步骤S12中对所述新的文档集中每一个文档执行以下步骤：
S121、对当前新文档进行分词，得到词序列；
S122、所述词序列中的每个词所属的主题服从概率分布Multinomial(1/K)，
对所述每个词所属的主题进行抽样，并统计每个主题被抽到的次数，将所述每

\t个主题被抽到的次数标记为当前主题的出现次数；
其中，概率分布Multinomial(1/K)具体为p(zn=k)=1/K，zn表示词n所属的主
题，K表示当前新文档的主题总数，k表示主题变量；
S123、对于所述词序列中的每个词，执行以下步骤：取出当前词所属的主
题，并将步骤S122统计的被取出的主题的出现次数减1，则此时当前词所属的
主题服...

【专利技术属性】
技术研发人员：蔡昭权，周献政，黄翰，
申请(专利权)人：惠州学院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人