当前位置: 首页 > 专利查询>扬州大学专利>正文

一种短文本流的动态主题发现算法制造技术

技术编号:21799364 阅读:27 留言:0更新日期:2019-08-07 10:34
本发明专利技术公开了主题模型领域内的一种短文本流的动态主题发现算法,按如下步骤进行:步骤1、初始化第1时间点下文档集合的每篇文档的主题;步骤2、迭代学习第1时间点文档集合的每篇文档的主题;步骤3、获取第1时间点的主题分布和主题中词的分布;步骤4、初始化第t时间点(t>1)文档集合的每篇文档的主题;步骤5、迭代学习第t时间点文档集合的每篇文档的主题;步骤6、获取第t时间点的主题分布和主题中词的分布;步骤7、删除t‑1时间点的主题;步骤8、对后续时间点下的文档集合,依次采用步骤4、5、6和7进行学习,本发明专利技术能够充分考虑短文本的稀疏性,结合上一时间下的文档的主题分布进行学习,从而能够更有效的发现短文本流中的隐含主题。

A Dynamic Topic Discovery Algorithm for Short Text Stream

【技术实现步骤摘要】
一种短文本流的动态主题发现算法
本专利技术涉及一种主体模型,特别涉及一种短文本流的动态主题发现算法。
技术介绍
近年来,互联网上的短文本流的内容爆炸式的增长,如微博和评论,能够快速对短文本流进行分析的算法短文本流的主题模型也越来越受重视。短文本流的主题模型可以发现短文本流中隐含的主题和文档的主题分布,可以应用于短文本分类、事件检测及跟踪和文档摘要等。短文本流的主题发现有以下几个挑战:(1)短文本的稀释性;(2)文本一直持续的到来,类似于处理静态文本的方法,存储所有文本进行迭代,对短文本流是不可行的;(3)文本流中的主题一直在进化,需要能够自动检测新的主题,移除一直没有更新的主题。现有基于短文本流的主题模型算要么没有很好的解决主题转移的问题,要么没有很有利用不同时间点文本集合主题之间的相关性,导致最后发现的主题很令用户不满意。目前,已有的短文本流的主题模型算法,可以大致分为以下两类:基于动态狄利克雷多项式混合模型和基于狄利克雷过程过程多项式混合模型。这两类算法都采用了狄利克雷分布作为隐含主题的先验分布,然后采用多项式分布进行抽样。但是,第一类算法考了不同时间点文本集合主题之间的相关性,即上一时间点很多主题会在当前时间点继续出现,但由于需要强制指定主题模型的数目,不能很好的解决主题转移的问题。已有的第二类算法不需要强制指定主题模型的数目,但是没有考虑不同时间点文档集合中主题的相关性。
技术实现思路
本专利技术的目的是提供一种短文本流的动态主题发现算法,能够解决短文本的稀释性和主题转移的问题,并充分利用上一时间点的主题和当前时间的主题的相关性,从而有效提高短文本流的主题发现的准确性。本专利技术的目的是这样实现的:一种短文本流的动态主题发现算法,其特征在于,假设短文本流的文档集合D={D1,D2,…,Dt-1,Dt,…},其中Dt表示第t时间到达的文本集合,Dt中的每个主题k,用以下变量表示mt,k、nt,k、doct,k和其中mt,k表示Dt中属于主题k的文档数目,nt,k是在t时间下属于主题k中所有词的总数目,doct,k表示在t时间下主题k中的文档集合,是词w在t时间下属于主题k的总次数;Dt中的主题集合用TSt表示,表示Dt中包含的主题标签,初始内容为空集;所述发现算法按如下步骤进行:步骤1、第1时间点(t=1)的短文档集合为包含了B1篇短文档;新建D1中的主题集合TS1;针对D1,通过初始化方法,依次学习每篇文档dm(1≤m≤B1)的主题;步骤2、迭代学习第1时间点(t=1)的文档集合D1中每篇文档的隐含主题,其中迭代次数i从1到I;I是用户设置的参数;第i次迭代过程中,分别重新学习D1中的每篇文档dm的主题标签,按照以下子步骤进行重新计算:步骤3、假设TS1有K个主题,推理第1时间点(t=1)下,D1中的主题分布θ1和每个主题中词的分布Θ1={φ1,1,φ1,2,…,φ1,k,…,φ1,K};步骤4、处理下一时间点的文档集合,即t=t+1;假设Dt-1的主题集合TSt-1有K个主题;当前时间点t(t≥2)的短文档集合为包含了Bt篇短文档;令TSt等于空集;针对Dt,通过初始化方法,依次学习每篇文档dm(1≤m≤Bt)的主题;步骤5、迭代学习文档集合Dt中每篇文档的数目,其中迭代次数i从1到I;第i次迭代过程中,分别重新学习Dt中的每篇文档dm的主题标签,按照以下步骤进行重新计算;步骤6、计算Dt中主题分布θt和每个主题中词的分布Θt={φt,1,φt,2,…,φt,k,…,φt,K},其中主题分布θt采用式(12)和主题k中词的分布φt,k采用式(13);步骤7、删除Dt-1中对应的主题及每个主题下相应的变量mt,k、nt,k、doct,k和值;步骤8、对后续时间点下的文档集合,依次采用步骤4、5、6和7进行学习。作为本专利技术的进一步限定,步骤1的具体包括:步骤1.1、令第一个文档d1的主题标签k等于0;新建主题k=0及表示主题k=0的变量m1,0、n1,0、doc1,0和采用式(1),修改主题k=0对应的变量m1,0、n1,0、doc1,0和并把主题0加入到主题TS1中,即TS1={0};式(1)中,是文档d1中词的数目,是文档d1中词w的出现数目;步骤1.2、针对D1,依次学习文档dm(2≤m≤B1)对应的主题标签;假设目前主题集合TS1中的主题数目为K;初始化过程中,文档dm从K个主题中选择主题k(1≤k≤K)作为它的主题标签的概率为:式(2)中,表示文档dm的主题标签,α和β是用户设置的参数,是文档dm中词的数目,是文档dm中词w的出现数目,V是词汇表的大小;步骤1.3、初始化过程中,文档dm选择一个新的主题标签K+1作为它的主题标签的概率为:步骤1.4、根据上面K+1个概率值,抽样文档dm的主题标签k;如果k=K+1,新建主题k及表示主题k的变量m1,k、n1,k、doc1,k和其中m1,k、n1,k和的初始值都为0,doc1,k初始为空集,并把k加入到主题集合中,即TS1={TS1,k};最后,采用式(4)对变量m1,k、n1,k、doc1,k和进行修改。作为本专利技术的进一步限定,步骤2具体包括:步骤2.1、假设文档dm原先对应的主题标签为k,先采用式(5),对变量m1,k、n1,k、doc1,k和进行修改;若修改后,doc1,k变成空集,则从主题集合TS1中移除主题标签k,并移除与主题k相关的变量m1,k、n1,k、doc1,k和步骤2.2、利用式(2)和式(3)重新计算文档dm属于已存在主题和新主题的概率,并为文档dm抽样一个新的主题标签k;如果k=K+1,新建主题k及表示主题k的变量m1,k、n1,k、doc1,k和mt,k、nt,k和的初始值都为0,doc1,k初始为空集,并把k加入到主题集合中,即TS1={TS1,k};然后,采用式(4)对变量m1,k、n1,k、doc1,k和进行修改。作为本专利技术的进一步限定,步骤3具体包括:步骤3.1、主题分布θ1={θ1,1,θ1,2,…,θ1,k,…,θ1,K}中θ1,k的计算公式如下:步骤3.2、主题k中词的分布中的计算公式如下:作为本专利技术的进一步限定,步骤4具体包括:步骤4.1、对Dt进行初始化过程中,文档dm从K个主题中选择主题k(1≤k≤K)作为它的主题标签的概率为:式(8)中,mt-1,k表示上一个时间点Dt-1中属于主题k的文档数目,是上一个时间点Dt-1中词w在主题k中的出总共现次数;步骤4.2、初始化过程中,文档dm选择一个新的主题标签K+1作为它的主题标签的概率为:步骤4.3、根据上面K+1个概率值,抽样文档dm的主题标签k;如果TSt不包含主题k,加入到主题集合中,即TSt={TSt,k};然后,采用式(10)对变量mt,k、nt,k、doct,k和进行修改。作为本专利技术的进一步限定,步骤5具体包括:步骤5.1、假设文档dm原先对应的主题标签为k,先采用式(11)对变量mt,k、nt,k、doct,k和进行修改;若修改后,doct,k变成空集,则从主题集合TSt中移除主题标签k,并移除与主题k相关的变量mt,k、nt,k、doct,k和步骤5.2、利用式(8)和式(9)计算文档dm属于TSt中的主题和新主题的概率;步骤5.3本文档来自技高网...

【技术保护点】
1.一种短文本流的动态主题发现算法,其特征在于,假设短文本流的文档集合D={D1,D2,…,Dt‑1,Dt,…},其中Dt表示第t时间到达的文本集合,Dt中的每个主题k,用以下变量表示mt,k、nt,k、doct,k和

【技术特征摘要】
1.一种短文本流的动态主题发现算法,其特征在于,假设短文本流的文档集合D={D1,D2,…,Dt-1,Dt,…},其中Dt表示第t时间到达的文本集合,Dt中的每个主题k,用以下变量表示mt,k、nt,k、doct,k和其中mt,k表示Dt中属于主题k的文档数目,nt,k是在t时间下属于主题k中所有词的总数目,doct,k表示在t时间下主题k中的文档集合,是词w在t时间下属于主题k的总次数;Dt中的主题集合用TSt表示,表示Dt中包含的主题标签,初始内容为空集;所述发现算法按如下步骤进行:步骤1、第1时间点(t=1)的短文档集合为包含了B1篇短文档;新建D1中的主题集合TS1;针对D1,通过初始化方法,依次学习每篇文档dm(1≤m≤B1)的主题;步骤2、迭代学习第1时间点(t=1)的文档集合D1中每篇文档的隐含主题,其中迭代次数i从1到I;I是用户设置的参数;第i次迭代过程中,分别重新学习D1中的每篇文档dm的主题标签,按照以下子步骤进行重新计算:步骤3、假设TS1有K个主题,推理第1时间点(t=1)下,D1中的主题分布θ1和每个主题中词的分布Θ1={φ1,1,φ1,2,…,φ1,k,…,φ1,K};步骤4、处理下一时间点的文档集合,即t=t+1;假设Dt-1的主题集合TSt-1有K个主题;当前时间点t(t≥2)的短文档集合为包含了Bt篇短文档;令TSt等于空集;针对Dt,通过初始化方法,依次学习每篇文档dm(1≤m≤Bt)的主题;步骤5、迭代学习文档集合Dt中每篇文档的数目,其中迭代次数i从1到I;第i次迭代过程中,分别重新学习Dt中的每篇文档dm的主题标签,按照以下步骤进行重新计算;步骤6、计算Dt中主题分布θt和每个主题中词的分布Θt={φt,1,φt,2,…,φt,k,…,φt,K},其中主题分布θt采用式(12)和主题k中词的分布φt,k采用式(13);步骤7、删除Dt-1中对应的主题及每个主题下相应的变量mt,k、nt,k、doct,k和值;步骤8、对后续时间点下的文档集合,依次采用步骤4、5、6和7进行学习。2.根据权利要求1所述的一种短文本流的动态主题发现算法,其特征在于,步骤1的具体包括:步骤1.1、令第一个文档d1的主题标签k等于0;新建主题k=0及表示主题k=0的变量m1,0、n1,0、doc1,0和采用式(1),修改主题k=0对应的变量m1,0、n1,0、doc1,0和并把主题0加入到主题TS1中,即TS1={0};式(1)中,是文档d1中词的数目,是文档d1中词w的出现数目;步骤1.2、针对D1,依次学习文档dm(2≤m≤B1)对应的主题标签;假设目前主题集合TS1中的主题数目为K;初始化过程中,文档dm从K个主题中选择主题k(1≤k≤K)作为它的主题标签的概率为:式(2)中,表示文档dm的主题标签,α和β是用户设置的参数,是文档dm中词的数目,是文档dm中词w的出现数目,V是词汇表的大小;步骤1.3、初始化过程中,文档dm选择一个新的主题标签K+1作为它的主题标签的概率为:步骤1.4、根据上面K+1个概率值,抽样文档dm的主题标签k;如果k=K+1,新建主...

【专利技术属性】
技术研发人员:强继朋李云袁运浩
申请(专利权)人:扬州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1