一种微博子话题用户评论情感倾向性分析方法技术

技术编号:24683772 阅读:94 留言:0更新日期:2020-06-27 08:04
本发明专利技术公开了一种微博子话题用户评论情感倾向性分析方法,涉及数据挖掘技术领域,包括:通过网络爬虫获取微博热点时事下的评论文本,再对获取到的数据进行预处理,采用隐含狄利克雷(LDA)模型对文本数据集进行聚类得到子话题候选集,对相似子话题进行融合并输出子话题集及每个文本对应子话题。然后对得到的子话题进行k‑means聚类,对聚类结果进行有效性评价,最后对得到的结果进行人工标注。本发明专利技术解决了现有对微博热点话题进行有效的子话题划分及用户评论情感倾向性分析的问题。通过本发明专利技术可以得到在一个微博热点事件下用户讨论的子话题,以及每个子话题下用户的评论情感倾向性类别。

An analysis method of user's emotional inclination in micro blog sub topic comments

【技术实现步骤摘要】
一种微博子话题用户评论情感倾向性分析方法
本专利技术涉及微博文本聚类领域,尤其涉及一种微博子话题用户评论情感倾向性分析方法。
技术介绍
随着互联网和微博的快速发展,微博已经成了人们了解新闻时事的一个重要窗口,人们越来越乐意在微博上对热点话题进行评论和探讨。然而对于某个新闻时事,不同的用户可能有着不同的侧重点,而这些不同的侧重点就是用户讨论或评价该热点时事的子话题。子话题的分类可以以人工的方式来完成,但是现如今互联网的规模十分庞大,每天在不同领域不同地区发生的热点时事数量过于庞大,人工分类的方法已经不能胜任如此繁重的工作。此时,就需要一个能根据某热点时事下的微博评论来对该话题自动进行子话题划分并且判断该子话题下用户情感倾向性类别的方法。目前,人们对文本主题划分的方法主要是使用隐含狄利克雷分布模型(LDA模型)。隐含狄利克雷模型包含词、主题和文本这三层结构,假设文本到主题和主题到词服从多项式分布,文本的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。可以利用LDA模型计算每个词对应到每个主本文档来自技高网...

【技术保护点】
1.一种微博子话题用户评论情感倾向性分析,其特征在于包括如下步骤:/n步骤1:获取短文本集合D={D

【技术特征摘要】
1.一种微博子话题用户评论情感倾向性分析,其特征在于包括如下步骤:
步骤1:获取短文本集合D={D1,D2,...,Dn};
步骤2:对获取的评论进行预处理;
步骤3:采用LDA模型对处理后的微博数据集进行聚类,得到子话题候选集;
步骤4:对模型结果进行评价,并对相似子话题进行融合;
步骤5:输出子话题集及每个文本对应的子话题
步骤6:对输出的子话题集及其对应的文本采用k-means聚类方法,得到用户评论倾向性类别集合;
步骤7:对聚类结果进行有效性评价;
步骤8:输出聚类结果,对所得结果进行人工标注。


2.根据权利要求1所述一种微博子话题用户评论情感倾向性分析,其特征在于步骤4包括:
选取m个词作为关键词。两两子话题之间比较相同的关键词,关键词的个数为k个。采用公式计算两两子话题之间的相似度,当相似度大于阈值时,将这两个子话题融合,这里采用将子话题数减一再重新进行上述步骤迭...

【专利技术属性】
技术研发人员:朱广丽李晓庆张标徐新燕张梦瑶张顺香
申请(专利权)人:安徽理工大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1