当前位置: 首页 > 专利查询>清华大学专利>正文

Biterm主题模型的采样加速方法技术

技术编号:15541981 阅读:86 留言:0更新日期:2017-06-05 11:08
本发明专利技术提出一种Biterm主题模型的采样加速方法,包括:为每个词语创建alias table,选取一个Biterm主题模型;从corpus proposal中,为Biterm采样一个新的主题,计接受概率;判断该接受概率是否大于r;如果是,则更新Biterm,否则,不更新;从word proposal中,为Biterm主题模型采样另一个新的主题,计算接受概率;判断该接受概率是否大于r;如果是,则更新Biterm主题模型,否则,不更新。本发明专利技术能够优化BTM的采样时间复杂度,大幅度提高BTM的收敛速度,并且不影响最终的主题聚类质量,不仅可以优化短文主题挖掘的时间,同时也可以优化长文本主题挖掘的时间。

Sampling acceleration method for Biterm topic model

The invention provides a method for sampling acceleration, Biterm topic model include: the creation of alias table for each word, select a theme from corpus Biterm model; proposal sampling, a new theme for Biterm, project acceptance probability; determine the acceptance probability is greater than R; if it is, then update the Biterm otherwise, not updated; from word proposal, sampling a new theme for the Biterm topic model, calculating the probability of acceptance; determine the acceptance probability is greater than R; if it is, then update the Biterm topic model, otherwise, do not update. The invention can optimize the sampling time complexity of BTM, greatly improve the convergence speed of BTM, and does not affect the quality of the final topic clustering, not only can optimize the essay topic mining time, but also can optimize the long text mining time.

【技术实现步骤摘要】
Biterm主题模型的采样加速方法
本专利技术涉及计算机程序基于组件对象的软件工程
,特别涉及一种Biterm主题模型的采样加速方法。
技术介绍
随着社交网络的流行,如微博和Twitter等,短文本的主题挖掘越来越重要。Bitermtopicmodel(BTM)是一种主题模型,如图1(a)所示,它不同于传统的主题模型,如LDA(LatentDirichletAllocation,文档主题生成模型)等,如图1(b)所示。BTM既适合短文本,也适合长文本,而传统的主题模型会受到短文本特征项稀疏的严重影响,所以一般只适合长文本,但也有许多研究者将这些传统的主题模型用于短文本,主要通过的方法有利用外部知识来丰富短文本,或者是将短文本聚合成长的伪文本。在BTM中,语料库中所有的词对共享一个主题概率分布,主题是互异词项的概率分布,BTM直接对语料库中所有词对中词的生成过程进行建模,而没有对文档直接进行建模,所以BTM无法直接获得文档主题分布,但是这个概率分布可以用过推理得到。由于短文本不像长文本那样,它缺乏丰富的上下文,传统的主题模型在短文本上遭受了严重的数据稀疏的影响,所以特征稀疏也就成本文档来自技高网...
Biterm主题模型的采样加速方法

【技术保护点】
一种Biterm主题模型的采样加速方法,其特征在于,包括以下步骤:S1:基于Alias method方法,为每个词语创建alias table,并选取一个Biterm主题模型;S2:从corpus proposal中,为所述Biterm主题模型采样一个新的主题,并计算该主题的接受概率;S3:判断该接受概率是否大于随机获取的随机数r,其中,r大于0且小于1;S4:如果是,则更新所述Biterm主题模型,否则,不更新所述Biterm主题模型;S5:从word proposal中,为所述Biterm主题模型采样另一个新的主题,并计算该主题的接受概率;S6:判断该接受概率是否大于所述随机数r;S7:如...

【技术特征摘要】
1.一种Biterm主题模型的采样加速方法,其特征在于,包括以下步骤:S1:基于Aliasmethod方法,为每个词语创建aliastable,并选取一个Biterm主题模型;S2:从corpusproposal中,为所述Biterm主题模型采样一个新的主题,并计算该主题的接受概率;S3:判断该接受概率是否大于随机获取的随机数r,其中,r大于0且小于1;S4:如果是,则更新所述Biterm主题模型,否则,不更新所述Biterm主题模型;S5:从wordproposal中,为所述Biterm主题模型采样另一个新的主题,并计算该主题的接受概率;S6:判断该接受概率是否大于所述随机数r;S7:如果是,则更新所述Biterm主题模型,否则,不更新所述Biterm主题模型。2.根据权利要求1所述的Biterm主题模型的采样加速方法,其特征在于,还包括:在连续使用K次aliastable后,更新所述aliastable。3.根据权利要求1所述的Biterm主题模型的采样加速方法,其特征在于,根据主题的采样推断的条件概率得到所述corpusproposal和wordproposal。4.根据权利要求3所述的Biterm主题模型的采样加速方法,其特征在于,所述条件概率为:其中,所述(nz+α)为所述corpusproposal,所述和为所述wordproposal。5...

【专利技术属性】
技术研发人员:徐华贺星伟邓俊辉孙晓民
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1