一种基于改进的LDA的微博话题发现方法技术

技术编号:11230910 阅读:70 留言:0更新日期:2015-03-29 18:24
本发明专利技术请求保护一种基于改进的LDA的微博话题发现方法涉及自然语言处理领域,具体是一种基于改进的LDA的微博话题发现的方法。本发明专利技术采用高斯加权处理对LDA进行改进,根据LDA得出的结果,选取出最有可能跟话题相关的微博文本,然后用两层的K均值和层次聚类的混合聚类方法,对那些最有可能跟话题相关的微博文本进行聚类,从而检测出新闻话题。本发明专利技术能较好地解决微博短文本的数据稀疏性及数据量巨大的问题,还能提高热点话题发现的准确度。

【技术实现步骤摘要】
【专利摘要】本专利技术请求保护一种基于改进的LDA的微博话题发现方法涉及自然语言处理领域,具体是一种基于改进的LDA的微博话题发现的方法。本专利技术采用高斯加权处理对LDA进行改进,根据LDA得出的结果,选取出最有可能跟话题相关的微博文本,然后用两层的K均值和层次聚类的混合聚类方法,对那些最有可能跟话题相关的微博文本进行聚类,从而检测出新闻话题。本专利技术能较好地解决微博短文本的数据稀疏性及数据量巨大的问题,还能提高热点话题发现的准确度。【专利说明】一种基于改进的LDA的微博话题发现方法
本专利技术属于一种微博话题挖掘方法,具体是一种基于改进的LDA的微博话题发现 方法。
技术介绍
随着移动互联网的快速发展,我们逐渐步入大数据时代,越来越多的人在网上发 表自己的观点、评论、看法等。微博是一个基于用户关系的信息分享传播及获取平台。微博 内容简单传播迅速,有利于热点话题在其中快速扩散。因此从微博中检测出的热点话题,对 舆情监控信息安全金融证券行业调研都有十分重要的意义。目前,已经有许多微博话题发 现的方法,但是其准确率都不是很高。文献检索:、10. 1145/290941. 290954,1998-08. ,1000-3428 (2011)04-0067-03,2011-02. ,1001-9081 (2011)03-0674-03,2011-03. 、10.1145/1498759. 1498809,2009. 、1673-0291 (2010)02-0111-04,2010-04. 近几年里,已经有许多关于话题发现的研宄,大多数研宄的方向都是如何改进 聚类算法来提高文本聚类的准确率。虽然最近的许多基于LDA的话题模型研宄方法已经不 再是研宄聚类算法性能的提升,都是关于削弱标准LDA里的假设条件的,但是这些方法都 没考虑到加权策略,而合理的加权策略已经广泛应用于主题模型中,比如都是采用 了加权策略的主题模型。 标准的LDA模型同等对待每个词项而不考虑它们的权重,LDA是一种文档主题生 成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构,从信息理论学和 语言学的观点角度来讲,这种假设是不成立的,不同权重的词项对热点话题的贡献程度是 不一样的。提出一种基于LDA模型的文档标签词频加权策略,目的是对具有相同语义的 标签进行合并来表示文档,提出LDA加权的合理性。证明文档中的特征词符合幂律分 布,会使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量高频词 淹没,使主题表达能力降低,这也证明LDA模型中考虑权重是必要的。 尽管上述研宄应用LDA模型体现出很多优点,也能抓住语料库的语义信息,但是 其结果还是会受词频影响,这样对于话题发现的质量有很大影响。本专利技术是采用高斯加权 处理对LDA进行改进,不但能有效地降低复杂度,还可以很好地提高微博话题发现的准确 度。
技术实现思路
针对以上现有技术中的不足,本专利技术的目的在于提供一种能有效地降低复杂度, 还可以很好地提高微博话题发现的准确度的基于改进的LDA的微博话题发现方法,本专利技术 的技术方案如下: -种基于改进的LDA的微博话题发现方法,其包括以下步骤:101、获取微博数据, 根据微博的转发数N_rel b和评论数N_com b对每条微博进行评分Score b= a N_rel b+ β N_ comb,其中α和β是加权因子,选取所有Scoreb多t的微博文本; 102、采用改进的三层贝叶斯概率模型LDA确定主题,具体包括以下步骤: A1、采用三层贝叶斯概率模型LDA的分词系统对文档进行分词,并过滤停用词形 成微博文档集; B1、统计步骤Al中微博文档集中所有出现的词汇,并统计词频; C1、采用高斯加权公式对文档中的每个词汇m加权,其中fm 是词m的词频,A是平均词频; 【权利要求】1. 一种基于改进的LDA的微博话题发现方法,其特征在于:包括以下步骤:101、获取 微博数据,根据微博的转发数N_relb和评论数N_comb对每条微博进行评分Scoreb=αN_ relb+0N_comb,其中α和β是加权因子,选取所有Scoreb彡t的微博文本; 102、 采用改进的三层贝叶斯概率模型LDA确定主题,具体包括以下步骤: A1、采用三层贝叶斯概率模型LDA的分词系统对文档进行分词,并过滤停用词形成微 博文档集; B1、统计步骤Al中微博文档集中所有出现的词汇,并统计词频; Cl、采用高斯加权公式对文档中的每个词汇m加权=exp(-( /": .5.)),其中f;是词 2σ- m的词频,A是平均词频; D1、给定参数N作为微博中包含的主题数,一般取Ne且N为整数,并采用 改进的LDA主题模型训练文档集; 103、 采用混合聚类法发现话题,具体步骤为: A2、经过步骤102中改进的三层贝叶斯概率模型LDA处理后,得到文档-主题矩阵; B2、用K均值聚类方法做第一层聚类,选取一个类数目K,K<<选取出来的微博数量;B3、对经过步骤B2K均值聚类的结果,给定阈值,再进行层次聚类,最后获得热点话题。2. 根据权利要求1所述的基于改进的LDA的微博话题发现方法,其特征在于:步骤101 中获取微博数据采用微博平台Twitter的数据集。【文档编号】G06F17/30GK104462286SQ201410704252【公开日】2015年3月25日 申请日期:2014年11月27日 优先权日:2014年11月27日 【专利技术者】周由胜, 彭恩伟, 刘宴兵, 肖云鹏 申请人:重庆邮电大学本文档来自技高网
...

【技术保护点】
一种基于改进的LDA的微博话题发现方法,其特征在于:包括以下步骤:101、获取微博数据,根据微博的转发数N_relb和评论数N_comb对每条微博进行评分Scoreb=αN_relb+βN_comb,其中α和β是加权因子,选取所有Scoreb≥t的微博文本;102、采用改进的三层贝叶斯概率模型LDA确定主题,具体包括以下步骤:A1、采用三层贝叶斯概率模型LDA的分词系统对文档进行分词,并过滤停用词形成微博文档集;B1、统计步骤A1中微博文档集中所有出现的词汇,并统计词频;C1、采用高斯加权公式对文档中的每个词汇m加权其中fm是词m的词频,fi是平均词频;D1、给定参数N作为微博中包含的主题数,一般取N∈[200,500]且N为整数,并采用改进的LDA主题模型训练文档集;103、采用混合聚类法发现话题,具体步骤为:A2、经过步骤102中改进的三层贝叶斯概率模型LDA处理后,得到文档‑主题矩阵;B2、用K均值聚类方法做第一层聚类,选取一个类数目K,K<<选取出来的微博数量;B3、对经过步骤B2K均值聚类的结果,给定阈值,再进行层次聚类,最后获得热点话题。

【技术特征摘要】

【专利技术属性】
技术研发人员:周由胜彭恩伟刘宴兵肖云鹏
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;85

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1