一种基于改进的LDA的微博话题发现方法技术

技术编号：11230910 阅读：70 留言：0更新日期：2015-03-29 18:24

本发明专利技术请求保护一种基于改进的LDA的微博话题发现方法涉及自然语言处理领域，具体是一种基于改进的LDA的微博话题发现的方法。本发明专利技术采用高斯加权处理对LDA进行改进，根据LDA得出的结果，选取出最有可能跟话题相关的微博文本，然后用两层的K均值和层次聚类的混合聚类方法，对那些最有可能跟话题相关的微博文本进行聚类，从而检测出新闻话题。本发明专利技术能较好地解决微博短文本的数据稀疏性及数据量巨大的问题，还能提高热点话题发现的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术请求保护一种基于改进的LDA的微博话题发现方法涉及自然语言处理领域，具体是一种基于改进的LDA的微博话题发现的方法。本专利技术采用高斯加权处理对LDA进行改进，根据LDA得出的结果，选取出最有可能跟话题相关的微博文本，然后用两层的K均值和层次聚类的混合聚类方法，对那些最有可能跟话题相关的微博文本进行聚类，从而检测出新闻话题。本专利技术能较好地解决微博短文本的数据稀疏性及数据量巨大的问题，还能提高热点话题发现的准确度。【专利说明】一种基于改进的LDA的微博话题发现方法
本专利技术属于一种微博话题挖掘方法，具体是一种基于改进的LDA的微博话题发现方法。
技术介绍
随着移动互联网的快速发展，我们逐渐步入大数据时代，越来越多的人在网上发表自己的观点、评论、看法等。微博是一个基于用户关系的信息分享传播及获取平台。微博内容简单传播迅速，有利于热点话题在其中快速扩散。因此从微博中检测出的热点话题，对舆情监控信息安全金融证券行业调研都有十分重要的意义。目前，已经有许多微博话题发现的方法，但是其准确率都不是很高。文献检索：、10. 1145/290941. 290954,1998-08. ,1000-3428 (2011)04-0067-03,2011-02. ,1001-9081 (2011)03-0674-03,2011-03. 、10.1145/1498759. 1498809,2009. 、1673-0291 (2010)02-0111-04,2010-04. 近几年里，已经有许多关于话题发现的研宄，...

【技术保护点】
一种基于改进的LDA的微博话题发现方法，其特征在于：包括以下步骤：101、获取微博数据，根据微博的转发数N_relb和评论数N_comb对每条微博进行评分Scoreb＝αN_relb+βN_comb，其中α和β是加权因子，选取所有Scoreb≥t的微博文本；102、采用改进的三层贝叶斯概率模型LDA确定主题，具体包括以下步骤：A1、采用三层贝叶斯概率模型LDA的分词系统对文档进行分词，并过滤停用词形成微博文档集；B1、统计步骤A1中微博文档集中所有出现的词汇，并统计词频；C1、采用高斯加权公式对文档中的每个词汇m加权其中fm是词m的词频，fi是平均词频；D1、给定参数N作为微博中包含的主题数，一般取N∈[200，500]且N为整数，并采用改进的LDA主题模型训练文档集；103、采用混合聚类法发现话题，具体步骤为：A2、经过步骤102中改进的三层贝叶斯概率模型LDA处理后，得到文档‑主题矩阵；B2、用K均值聚类方法做第一层聚类，选取一个类数目K，K＜＜选取出来的微博数量；B3、对经过步骤B2K均值聚类的结果，给定阈值，再进行层次聚类，最后获得热点话题。

【技术特征摘要】

【专利技术属性】
技术研发人员：周由胜，彭恩伟，刘宴兵，肖云鹏，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆;85

全部详细技术资料下载我是这个专利的主人