基于文本特征整合的语义社交网络多视角社区发现方法技术

技术编号:33387585 阅读:49 留言:0更新日期:2022-05-11 23:02
本发明专利技术公开了一种基于文本特征整合的语义社交网络多视角社区发现方法,包括:抓取社交网络中用户发表语义信息;提取语义信息中预设数量的词频特征构建矩阵;对语义信息进行TF

【技术实现步骤摘要】
基于文本特征整合的语义社交网络多视角社区发现方法


[0001]本专利技术涉及语义社区发现
,特别涉及一种基于文本特征整合的语义社交网络多视角社区发现方法。

技术介绍

[0002]在线社交网络改变了人们交流的方式。全世界数以百万计的人利用社交媒体来创建、分享和讨论信息,并建立网络。这些社交网络应用程序通过提供越来越多的服务吸引了越来越多的用户,并使全球大约10亿人保持联系,这使得社交网络分析(SNA)在过去几年里呈指数级增长。为了分析对一种产品的意见、预测调查结果、研究假新闻如何通过社交网络传播,人们创造了各种不同的技术,同时对社交网络信息的聚合和分析越来越感兴趣,这也引起了人们对各种研究领域的兴趣,不仅是与计算机科学相关的领域,还包括物理学、心理学、市场营销、旅游和金融等领域。具体的主题包括聚类、图挖掘、社区发现、自然语言处理、实体消歧、信息融合、情感分析或推荐系统等。
[0003]社区发现将社交网络中存在联系的用户聚集成群体,群体内部紧密,群体内部松散。访问来自这些群体的信息可以检测网络的底层社区结构。这类社区的形成可以解释为具本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于文本特征整合的语义社交网络多视角社区发现方法,其特征在于,包括以下步骤:步骤S1,抓取社交网络中用户发表语义信息,并对所述语义信息进行预处理,得到初始语义信息;步骤S2,对所述初始语义信息进行词频特征提取,选取预设数量的词频特征,以构建词频向量矩阵;步骤S3,对所述初始语义信息进行TF

IDF值计算,提取预设数量的关键字特征,以构建关键字向量矩阵;步骤S4,利用LDA主题模型获取所述初始语义信息的主题和每位用户的主题分布,以构建主题向量矩阵;步骤S5,将所述词频向量矩阵、所述关键字向量矩阵和所述主题向量矩阵堆叠形成数据矩阵,利用Pearson相关系数求解数据矩阵中所述词频向量矩阵、所述关键字向量矩阵和所述主题向量矩阵之间的相似度矩阵,并与预设阈值进行比较,若大于则建立连接重构原社交网络,得到语义社交网络,反之则不连接;以及步骤S6,利用基于图学习的多视角聚类算法对所述语义社交网络进行多视角社区发现,得到社区划分结果。2.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法,其特征在于,所述步骤S1中利用正则表达式和去停词表清洗所述语义信息中的无效信息,得到所述初始语义信息。3.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法,其特征在于,所述步骤S2具体包括:步骤S201,将所述初始语义信息作为一个整体语料库D

进行词频统计,计算每个词的词频数;步骤S202,将每个词的词频数降次排序,根据预设需求选取词频数,构成所述词频向量矩阵及其特征数量,并依次统计所述词频向量矩阵在每条语义信息中出现的次数。4.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法,其特征在于,所述TF

IDF值求解公式为:其中,f
i,j
为词频向量矩阵在每条语义信息中出现的次数,|w
j
|为文件d
j
中不同单词的个数,|D|为语料库中文本数量的总数,即社交网络中用户发表的语义信息的总数,|{j:w
i
∈d
j
}|为包含词w
i
的文件数目。5.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法,其特征在于,所述步骤S3具体包括:步骤S301,对所述初始语义信息进行过滤、分词和词性筛选;步骤S302,将处理后的初始语义信息作为文档d',使用TF

IDF值求解公式和预设语料库得到所述文档d'中每个词组的TF

IDF值,将前t个TF

IDF值所对应的词组作为关键字kw,
其中,t为正整数;步骤S303,将文档d'的所有语义信息作为语料库D',某个用户发表的信息作为文档d
j
,再次TF

IDF值...

【专利技术属性】
技术研发人员:杨海陆刘乾张建林张金陈晨王莉莉丁晓宇
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1