The invention provides a method for sampling acceleration, Biterm topic model include: the creation of alias table for each word, select a theme from corpus Biterm model; proposal sampling, a new theme for Biterm, project acceptance probability; determine the acceptance probability is greater than R; if it is, then update the Biterm otherwise, not updated; from word proposal, sampling a new theme for the Biterm topic model, calculating the probability of acceptance; determine the acceptance probability is greater than R; if it is, then update the Biterm topic model, otherwise, do not update. The invention can optimize the sampling time complexity of BTM, greatly improve the convergence speed of BTM, and does not affect the quality of the final topic clustering, not only can optimize the essay topic mining time, but also can optimize the long text mining time.
【技术实现步骤摘要】
Biterm主题模型的采样加速方法
本专利技术涉及计算机程序基于组件对象的软件工程
,特别涉及一种Biterm主题模型的采样加速方法。
技术介绍
随着社交网络的流行,如微博和Twitter等,短文本的主题挖掘越来越重要。Bitermtopicmodel(BTM)是一种主题模型,如图1(a)所示,它不同于传统的主题模型,如LDA(LatentDirichletAllocation,文档主题生成模型)等,如图1(b)所示。BTM既适合短文本,也适合长文本,而传统的主题模型会受到短文本特征项稀疏的严重影响,所以一般只适合长文本,但也有许多研究者将这些传统的主题模型用于短文本,主要通过的方法有利用外部知识来丰富短文本,或者是将短文本聚合成长的伪文本。在BTM中,语料库中所有的词对共享一个主题概率分布,主题是互异词项的概率分布,BTM直接对语料库中所有词对中词的生成过程进行建模,而没有对文档直接进行建模,所以BTM无法直接获得文档主题分布,但是这个概率分布可以用过推理得到。由于短文本不像长文本那样,它缺乏丰富的上下文,传统的主题模型在短文本上遭受了严重的数据稀疏的影响,所以特征稀疏也就成为短文本研究中极具挑战的问题。BTM是针对短文本而提出的,它可以用来处理短文本这种稀疏问题。因为主题是通过相关的词组合而成的,而词间的这种相关性也是通过词共现来体现的,所以直接通过对共现的词对进行建模来学习主题,另外,建模时使用的是整个语料库中的词对,这样能更好的挖掘主题。也就是说,BTM在短文本主题挖掘方面优于传统的主题模型LDA、PLSA(ProbabilityLatent ...
【技术保护点】
一种Biterm主题模型的采样加速方法,其特征在于,包括以下步骤:S1:基于Alias method方法,为每个词语创建alias table,并选取一个Biterm主题模型;S2:从corpus proposal中,为所述Biterm主题模型采样一个新的主题,并计算该主题的接受概率;S3:判断该接受概率是否大于随机获取的随机数r,其中,r大于0且小于1;S4:如果是,则更新所述Biterm主题模型,否则,不更新所述Biterm主题模型;S5:从word proposal中,为所述Biterm主题模型采样另一个新的主题,并计算该主题的接受概率;S6:判断该接受概率是否大于所述随机数r;S7:如果是,则更新所述Biterm主题模型,否则,不更新所述Biterm主题模型。
【技术特征摘要】
1.一种Biterm主题模型的采样加速方法,其特征在于,包括以下步骤:S1:基于Aliasmethod方法,为每个词语创建aliastable,并选取一个Biterm主题模型;S2:从corpusproposal中,为所述Biterm主题模型采样一个新的主题,并计算该主题的接受概率;S3:判断该接受概率是否大于随机获取的随机数r,其中,r大于0且小于1;S4:如果是,则更新所述Biterm主题模型,否则,不更新所述Biterm主题模型;S5:从wordproposal中,为所述Biterm主题模型采样另一个新的主题,并计算该主题的接受概率;S6:判断该接受概率是否大于所述随机数r;S7:如果是,则更新所述Biterm主题模型,否则,不更新所述Biterm主题模型。2.根据权利要求1所述的Biterm主题模型的采样加速方法,其特征在于,还包括:在连续使用K次aliastable后,更新所述aliastable。3.根据权利要求1所述的Biterm主题模型的采样加速方法,其特征在于,根据主题的采样推断的条件概率得到所述corpusproposal和wordproposal。4.根据权利要求3所述的Biterm主题模型的采样加速方法,其特征在于,所述条件概率为:其中,所述(nz+α)为所述corpusproposal,所述和为所述wordproposal。5...
【专利技术属性】
技术研发人员:徐华,贺星伟,邓俊辉,孙晓民,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。