一种基于语义和词扩展的社交用户主题分析方法及系统技术方案

技术编号:33708485 阅读:41 留言:0更新日期:2022-06-06 08:36
本发明专利技术公开了一种基于语义和词扩展的社交用户主题分析方法及系统,涉及网络用户信息评定技术领域,解决了现有技术主题分析方法中用户发文信息间很可能不存在任何上下文关联,其技术方案是:提出了一种基于语义和词扩展的短文本主题模型,不仅融合了短文本的语义信息,还通过外部语料知识进行词对扩展,在解决短文本稀疏问题的同时,增强文本的主题倾向;在基于语义和词扩展的短文本主题模型之上,采用了一种依据用户间互动量的发文主题加权法,区别发文间的重要程度,从而计算用户的主题分布。本发明专利技术的社交用户主题分析方法相较于传统的主题特征分析方法,更具合理性。更具合理性。更具合理性。

【技术实现步骤摘要】
一种基于语义和词扩展的社交用户主题分析方法及系统


[0001]本专利技术涉及一种网络用户信息评定
,更具体地说,它涉及一种基于语义和词扩展的社交用户主题分析方法及系统。

技术介绍

[0002]随着互联网的不断发展,网络中的短文本数据呈爆发式增长,人们可以在各种社交平台中发布各种信息。因此,如何从社交平台中分析用户特征是非常有研究价值和实际意义的事情。其中,社交用户的主题特征便是研究重点之一。目前各大社交平台如微博、推特、微信等的信息传播大多都是短文本形式。短文本数据和篇章级的长文本数据不同,短文本数据有着不同的语言规律。而用户又是社交平台中的主体,每位用户可以发布成千的短文本信息。对于企业来讲,针对用户的主题信息进行分析,可以让企业提出具有针对性的方案以此提升用户体验,具有一定的商业价值,对于学者而言,分析用户的主题分布,可以作为社会科学研究成果。
[0003]当前,针对社交平台用户的主题特征提取常用方法是将同一用户所有的发文整合成一个整体,使其成为一个长文档,再把该长文档输入到主题模型中便得到文档的主题分布,将此分布视为用户的主本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于语义和词扩展的社交用户主题分析方法,其特征在于,包括以下步骤:获取用户的发文信息和所述发文信息在社交网络平台中产生的互动信息;对所述发文信息进行预处理操作,获得发文信息的文本数据;根据所述文本数据构建基于语义和词扩展的短文本主题模型;将所述发文信息输入所述短文本主题模型进行计算,获得所述发文信息的多个第一主题分布矩阵;根据所述互动信息计算用户每条所述发文信息的权重矩阵;根据所述权重矩阵对多个所述第一主题分布矩阵进行加权处理,获得多个第二主题分布矩阵;对所述多个第二主题分布矩阵进行向量合并和归一化处理,获得用户所述发文信息的主题分布。2.根据权利要求1所述的一种基于语义和词扩展的社交用户主题分析方法,其特征在于,所述预处理操作包括对所述发文信息进行分词操作、去除所述发文信息的停用词以及去除所述发文信息中的干扰符号。3.根据权利要求1所述的一种基于语义和词扩展的社交用户主题分析方法,其特征在于,所述根据所述文本数据构建基于语义和词扩展的短文本主题模型的步骤如下:采用语义依存分析法提取所述文本数据上下文中具有语义关联的第一词对;获取所述文本数据的待扩展关键词,将所述待扩展关键词输入外部语料库中,利用点互信息计算所述待扩展关键词与外部词料库中词的相关性。4.根据权利要求3所述的一种基于语义和词扩展的社交用户主题分析方法,其特征在于,设定所述相关性的判断阈值,若所得所述相关性大于所述判断阈值,则将待扩展关键词与外部语料库中的词组成第二词对。5.根据权利要求1所述的一种基于语义和词扩展的社交用户主题分析方法,其特征在于,对所述多个第二主题分布矩阵内所有的向量进行合并,获得用户的主题分布特征向量,利用softmax函数对所述主题分布特征向量进行归一化处理,获得用户所述发文信息的主题分布。6.一种基于语义和词扩展的社交用户主题分析系统,其特征在于,包括:信息获取单元,用于获取用户的发文信息和所述发文信息在社交网络平台中产生的互动信息;预处理单元,用于对所述发文信息...

【专利技术属性】
技术研发人员:李臻邵亚斌夏书银
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1