【技术实现步骤摘要】
一种微博子话题用户评论情感倾向性分析方法
本专利技术涉及微博文本聚类领域,尤其涉及一种微博子话题用户评论情感倾向性分析方法。
技术介绍
随着互联网和微博的快速发展,微博已经成了人们了解新闻时事的一个重要窗口,人们越来越乐意在微博上对热点话题进行评论和探讨。然而对于某个新闻时事,不同的用户可能有着不同的侧重点,而这些不同的侧重点就是用户讨论或评价该热点时事的子话题。子话题的分类可以以人工的方式来完成,但是现如今互联网的规模十分庞大,每天在不同领域不同地区发生的热点时事数量过于庞大,人工分类的方法已经不能胜任如此繁重的工作。此时,就需要一个能根据某热点时事下的微博评论来对该话题自动进行子话题划分并且判断该子话题下用户情感倾向性类别的方法。目前,人们对文本主题划分的方法主要是使用隐含狄利克雷分布模型(LDA模型)。隐含狄利克雷模型包含词、主题和文本这三层结构,假设文本到主题和主题到词服从多项式分布,文本的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。可以利用LDA模型计 ...
【技术保护点】
1.一种微博子话题用户评论情感倾向性分析,其特征在于包括如下步骤:/n步骤1:获取短文本集合D={D
【技术特征摘要】
1.一种微博子话题用户评论情感倾向性分析,其特征在于包括如下步骤:
步骤1:获取短文本集合D={D1,D2,...,Dn};
步骤2:对获取的评论进行预处理;
步骤3:采用LDA模型对处理后的微博数据集进行聚类,得到子话题候选集;
步骤4:对模型结果进行评价,并对相似子话题进行融合;
步骤5:输出子话题集及每个文本对应的子话题
步骤6:对输出的子话题集及其对应的文本采用k-means聚类方法,得到用户评论倾向性类别集合;
步骤7:对聚类结果进行有效性评价;
步骤8:输出聚类结果,对所得结果进行人工标注。
2.根据权利要求1所述一种微博子话题用户评论情感倾向性分析,其特征在于步骤4包括:
选取m个词作为关键词。两两子话题之间比较相同的关键词,关键词的个数为k个。采用公式计算两两子话题之间的相似度,当相似度大于阈值时,将这两个子话题融合,这里采用将子话题数减一再重新进行上述步骤迭...
【专利技术属性】
技术研发人员:朱广丽,李晓庆,张标,徐新燕,张梦瑶,张顺香,
申请(专利权)人:安徽理工大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。