当前位置: 首页 > 专利查询>清华大学专利>正文

Biterm主题模型的采样加速方法技术

技术编号:15541981 阅读:54 留言:0更新日期:2017-06-05 11:08
本发明专利技术提出一种Biterm主题模型的采样加速方法,包括:为每个词语创建alias table,选取一个Biterm主题模型;从corpus proposal中,为Biterm采样一个新的主题,计接受概率;判断该接受概率是否大于r;如果是,则更新Biterm,否则,不更新;从word proposal中,为Biterm主题模型采样另一个新的主题,计算接受概率;判断该接受概率是否大于r;如果是,则更新Biterm主题模型,否则,不更新。本发明专利技术能够优化BTM的采样时间复杂度,大幅度提高BTM的收敛速度,并且不影响最终的主题聚类质量,不仅可以优化短文主题挖掘的时间,同时也可以优化长文本主题挖掘的时间。

Sampling acceleration method for Biterm topic model

The invention provides a method for sampling acceleration, Biterm topic model include: the creation of alias table for each word, select a theme from corpus Biterm model; proposal sampling, a new theme for Biterm, project acceptance probability; determine the acceptance probability is greater than R; if it is, then update the Biterm otherwise, not updated; from word proposal, sampling a new theme for the Biterm topic model, calculating the probability of acceptance; determine the acceptance probability is greater than R; if it is, then update the Biterm topic model, otherwise, do not update. The invention can optimize the sampling time complexity of BTM, greatly improve the convergence speed of BTM, and does not affect the quality of the final topic clustering, not only can optimize the essay topic mining time, but also can optimize the long text mining time.

【技术实现步骤摘要】
Biterm主题模型的采样加速方法
本专利技术涉及计算机程序基于组件对象的软件工程
,特别涉及一种Biterm主题模型的采样加速方法。
技术介绍
随着社交网络的流行,如微博和Twitter等,短文本的主题挖掘越来越重要。Bitermtopicmodel(BTM)是一种主题模型,如图1(a)所示,它不同于传统的主题模型,如LDA(LatentDirichletAllocation,文档主题生成模型)等,如图1(b)所示。BTM既适合短文本,也适合长文本,而传统的主题模型会受到短文本特征项稀疏的严重影响,所以一般只适合长文本,但也有许多研究者将这些传统的主题模型用于短文本,主要通过的方法有利用外部知识来丰富短文本,或者是将短文本聚合成长的伪文本。在BTM中,语料库中所有的词对共享一个主题概率分布,主题是互异词项的概率分布,BTM直接对语料库中所有词对中词的生成过程进行建模,而没有对文档直接进行建模,所以BTM无法直接获得文档主题分布,但是这个概率分布可以用过推理得到。由于短文本不像长文本那样,它缺乏丰富的上下文,传统的主题模型在短文本上遭受了严重的数据稀疏的影响,所以特征稀疏也就成为短文本研究中极具挑战的问题。BTM是针对短文本而提出的,它可以用来处理短文本这种稀疏问题。因为主题是通过相关的词组合而成的,而词间的这种相关性也是通过词共现来体现的,所以直接通过对共现的词对进行建模来学习主题,另外,建模时使用的是整个语料库中的词对,这样能更好的挖掘主题。也就是说,BTM在短文本主题挖掘方面优于传统的主题模型LDA、PLSA(ProbabilityLatentSemanticAnalysis)主题模型等。然而,BTM采用Gibbs采样挖掘短文的主题。每次采样需要O(K)的时间,其中K表示设定的主题数目。由此,可以看出Gibbs采样非常耗时,尤其当K和数据集非常大时,Gibb采用无法满足用户的需求。
技术实现思路
本专利技术旨在至少解决上述技术问题之一。为此,本专利技术的目的在于提出一种Biterm主题模型的采样加速方法,该方法能够优化BTM的采样时间复杂度,大幅度提高BTM的收敛速度,并且不影响最终的主题聚类质量,不仅可以优化短文主题挖掘的时间,同时也可以优化长文本主题挖掘的时间。为了实现上述目的,本专利技术的实施例提出了一种Biterm主题模型的采样加速方法,包括以下步骤:S1:基于Aliasmethod方法,为每个词语创建aliastable,并选取一个Biterm主题模型;S2:从corpusproposal中,为所述Biterm主题模型采样一个新的主题,并计算该主题的接受概率;S3:判断该接受概率是否大于随机获取的随机数r,其中,r大于0且小于1;S4:如果是,则更新所述Biterm主题模型,否则,不更新所述Biterm主题模型;S5:从wordproposal中,为所述Biterm主题模型采样另一个新的主题,并计算该主题的接受概率;S6:判断该接受概率是否大于所述随机数r;S7:如果是,则更新所述Biterm主题模型,否则,不更新所述Biterm主题模型。另外,根据本专利技术上述实施例的Biterm主题模型的采样加速方法还可以具有如下附加的技术特征:在一些示例中,还包括:在连续使用K次aliastable后,更新所述aliastable。在一些示例中,根据主题的采样推断的条件概率得到所述corpusproposal和wordproposal。在一些示例中,所述条件概率为:其中,所述(nz+α)为所述corpusproposal,所述和为所述wordproposal。在一些示例中,构造所述aliastable的时间复杂度为O(K),其中,K为设定的主题数目。在一些示例中,在O(1)时间内为所述Biterm主题模型采样新的主题。在一些示例中,从所述corpusproposal中采样的一个新的主题的接受概率为:在一些示例中,从所述wordproposal中采样的另一个新的主题的接受概率为:根据本专利技术实施例的Biterm主题模型的采样加速方法,基于aliasmethod和MH方法,将采样时间从O(K)降低到常数时间O(1),从而可以优化BTM的采样时间复杂度,大幅度提高BTM的收敛速度及聚类时间,并且不影响最终的主题聚类质量,该方法不仅可以优化短文主题挖掘的时间,同时也可以优化长文本主题挖掘的时间,进而使BTM可以满足大规模数据,以及在线模型的需求。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1(a)和图1(b)分别是BTM和LDA的结构示意图;图2是根据本专利技术一个实施例的Biterm主题模型的采样加速方法的流程图;图3是根据本专利技术另一个实施例的Biterm主题模型的采样加速方法的整体流程图;图4是根据本专利技术一个具体实施例的根据AliasMethod构造aliastable的流程示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。在本专利技术的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。以下结合附图描述根据本专利技术实施例的Biterm主题模型的采样加速方法。图2是根据本专利技术一个实施例的Biterm主题模型的采样加速方法的流程图。图3是根据本专利技术另一个实施例的Biterm主题模型的采样加速方法的整体流程图。如图2所示,并结合图3,该方法包括以下步骤:步骤S1:基于Aliasmethod方法,为每个词语创建aliastable,并选取一个Biterm主题模型。具体地说,将整个语料库转化为bitermset,每次从中选择一个Biterm主题模型。其中,构造aliastable的时间复杂度为O(K),其中,K为设定的主题数目。步骤S2:以corpusproposal作为建议分布采样。从corpusproposal中,为Biterm主题模型采样一个新的主题(newtopic),并计算该主题的接受概率。具体地,在本专利技术的一个实施例中,在O(1)时间内为Biterm主题模型采样新的主本文档来自技高网
...
Biterm主题模型的采样加速方法

【技术保护点】
一种Biterm主题模型的采样加速方法,其特征在于,包括以下步骤:S1:基于Alias method方法,为每个词语创建alias table,并选取一个Biterm主题模型;S2:从corpus proposal中,为所述Biterm主题模型采样一个新的主题,并计算该主题的接受概率;S3:判断该接受概率是否大于随机获取的随机数r,其中,r大于0且小于1;S4:如果是,则更新所述Biterm主题模型,否则,不更新所述Biterm主题模型;S5:从word proposal中,为所述Biterm主题模型采样另一个新的主题,并计算该主题的接受概率;S6:判断该接受概率是否大于所述随机数r;S7:如果是,则更新所述Biterm主题模型,否则,不更新所述Biterm主题模型。

【技术特征摘要】
1.一种Biterm主题模型的采样加速方法,其特征在于,包括以下步骤:S1:基于Aliasmethod方法,为每个词语创建aliastable,并选取一个Biterm主题模型;S2:从corpusproposal中,为所述Biterm主题模型采样一个新的主题,并计算该主题的接受概率;S3:判断该接受概率是否大于随机获取的随机数r,其中,r大于0且小于1;S4:如果是,则更新所述Biterm主题模型,否则,不更新所述Biterm主题模型;S5:从wordproposal中,为所述Biterm主题模型采样另一个新的主题,并计算该主题的接受概率;S6:判断该接受概率是否大于所述随机数r;S7:如果是,则更新所述Biterm主题模型,否则,不更新所述Biterm主题模型。2.根据权利要求1所述的Biterm主题模型的采样加速方法,其特征在于,还包括:在连续使用K次aliastable后,更新所述aliastable。3.根据权利要求1所述的Biterm主题模型的采样加速方法,其特征在于,根据主题的采样推断的条件概率得到所述corpusproposal和wordproposal。4.根据权利要求3所述的Biterm主题模型的采样加速方法,其特征在于,所述条件概率为:其中,所述(nz+α)为所述corpusproposal,所述和为所述wordproposal。5...

【专利技术属性】
技术研发人员:徐华贺星伟邓俊辉孙晓民
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1