【技术实现步骤摘要】
一种基于主题模型的文本聚类方法
[0001]本专利技术涉及一种基于主题模型的文本聚类方法,属于数据挖掘
技术介绍
[0002]随着移动设备和移动互联网的普及,社交媒体网站呈现爆发式增长。社交网络平台往往拥有大量用户基础,用户可以在这些媒体平台上方便地发表评论、分享经验和获取新闻咨询。这样在丰富了文本数据的来源和加快了数据传播速度的同时,大众获取有价值信息的难度也逐步提高。因此,如何高效的挖掘出有价值的信息成为了如今研究的热点方向。
[0003]虽然,现有的方法在文本挖掘方面取得了很大进展,但是仍然存在一些挑战:一方面,文本中不仅会有主题特征也会包含用户对于事件的情感态度;另一方面,社交媒体文本数据具有时序的特点,然而传统主题模型的挖掘方法无法联合文本的时间属性建模,同时现有方法仅关注主题特征或主题的动态变化而忽略了情感特征。
技术实现思路
[0004]本专利技术所要解决的技术问题是克服现有技术的缺陷,提供一种基于主题模型的文本聚类方法,挖掘主题和情感的极性特征,捕捉两者的动态演化关系,同时联 ...
【技术保护点】
【技术特征摘要】
1.一种基于主题模型的文本聚类方法,其特征在于:包括如下步骤:获取待测的文档;预置文档主题模型,并对文档主题模型进行参数求解,构建情感极性特征随时间的动态演化模型;挖掘对应主题下单词和情感的演变过程。2.根据权利要求1所述的一种基于主题模型的文本聚类方法,其特征在于:预置文档主题模型,包括:基于LDA文档主题模型引入情感层和时间分布先验函数;所述情感层包括情感先验参数、每个主题号下的情感分布和情感标签。3.根据权利要求2所述的一种基于主题模型的文本聚类方法,其特征在于:对文档主题模型进行参数求解,构建情感极性特征随时间的动态演化模型,包括:预置主题先验参数β,并采样出维度为T*S的主题号z情感标签l下的单词分布其中T为主题数,S为情感数;预置主题先验参数α,在每篇待测文档d中,采样出一个主题号z的多项式分布θ
d
;对于每篇待测文档d中的每个单词,采样生成一个主题号z;预置情感先验参数γ,对于每篇待测文本d中的每个单词,采样生成每个主题号z下的情感分布π
d,z
;对于每篇待测文本d中的每个单词,采样生成情感标签l;基于单词分布主题号z和情感标签l,采样生成主题情感词w
d,i
;预置时间先验参数ψ
z,l
,基于时间先验参数ψ
z,l
、情感标签l和主题号z对每篇待测文本d中的每个单词,采样生成时间戳t
d,i
;所述采样方法包括布吉斯采样。4.根据权利要求3所述的一种基于主题模型的文本聚类方法,其特征在于:采样生成时间戳,包括:获取待测文档的时间数据,并转换为Unix时间戳格式进行归一化操作。5.根据权利要求3所述的一种基于主题模型的文本聚类方法,其特征在于:采样生成情感标签l,包括:基于单词查找外部情感字典,若单词存在情感字典中,则依据情感字典为情感词标记情感极性标签;否则随机标记情感极性标签;所述情感极性标签包括积极情感极性和消极情感极性。6.根据权利要求3所述的一种基于主题模型的文本聚类方法,其特征在于:挖掘对应主题下单词和情感的演变过程,包括:对情感极性特征随时间的动态演化模型进行迭代,每次迭代均基于吉布斯采样算法重新分配单词的主题号z、情感标签l和时间戳t
d,i
;若单词的主题号z、情感标签l和时间戳t
d,i
的概率分布均达到收敛状态,则挖掘主题对应的单词和其情感的演变过程。7.根据权利要求6所述的一种基于主题模型的文本聚类方法,其特征在于:挖掘主题对
应的单词和其情感的演变过程,包括:构造主题情感词w
d,i
、主题号z、情感标签l和时间戳t
d,i
的联合概率分布,并使用贝叶斯条件概率公式,依据主题情感词w
d,i
、主题号z、情感标签l和时间戳t
d,i
分解各自的概率分布;基于吉布斯采样算法,对主题号z和情感标签l进行采样,结合分解后的主题情感词w
d,i
、主题号z、情感标签l和时间戳概率分布求解后验概率;基于后验概率进行多次吉布斯采样,求解主题分布θ、主题情感词分布和每个主题的情感分布π:情感分布π:情感分布π:其中:θ
d,j
为第d篇文档中主题j的主题分布;n
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。