当前位置: 首页 > 专利查询>四川大学专利>正文

基于主题遗传的在线主题建模方法技术

技术编号:10053931 阅读:112 留言:0更新日期:2014-05-16 02:38
本发明专利技术公开了一种基于主题遗传的在线主题建模方法,包括抓取当前时间片文本数据,按照LDA模型进行主题建模,计算主题强度,主题排名,计算主题的遗传因子,抓取下一个时间片文本数据,转换主题-单词分布向量,计算下一个时间片Dirichlet分布先验参数,采用Gibbs采样方法进行主题建模等步骤。本发明专利技术的有益效果在于:1、本发明专利技术是一种在线主题模型,适合处理时序文本流,可以较好地应用在舆情监控系统中;2、本发明专利技术在保留OLDA模型主题对齐特性的同时,根据主题强度为各个主题设置不同的遗传因子,改善了主题混合和新主题不易及时检测的缺陷;3、本发明专利技术的主题强度计算方法能够有效降低宽泛主题的得分。

【技术实现步骤摘要】
基于主题遗传的在线主题建模方法
本专利技术涉及网络热点主题的发现与演化分析方法,特别是一种基于主题遗传的在线主题建模方法。
技术介绍
针对论坛、微博等新兴媒体的话题发现与演化分析是当前的一个研究热点,它可以为舆情发现和预测提供支持,有利于舆情的及时处置,维护社会稳定。近年来,以LDA(LatentDirichletAllocation)为代表的主题模型得到了深入研究。由于LDA本身具有的话题建模能力,在话题演化领域具有先天的优势。基于LDA的一些扩展模型也在随后被提出,比如反映主题在时间上强度变化的TOT(TopicOverTime)模型、采用状态空间记录主题内容和强度演化信息的DTM(DynamicTopicModel)模型以及考虑多时间粒度主题演化的MTTM(MultiscaleTopicTomography)模型等。但上述模型都需要全局建模,不具有在线处理新文本的能力。在线LDA模型(OnlineLDA,OLDA)模型也是LDA的改进模型,它的主要思想是将主题历史分布作为当前时间窗口模型的先验参数。在实施中,OLDA为每个主题维护一个时间窗口可调的演化矩阵矩阵中的每一列都是对应时间窗口内主题k在单词上的分布。各个时间窗口的分布具有不同权值,用权值向量ωδ表示,δ表示时间窗口大小。在每个时间片的建模过程中,各主题的先验参数用如下方式求出:通过以上方式,OLDA适合文本的在线处理,并具有主题对齐的特性,在主题发现与演化分析中得到了广泛应用。但OLDA的权值向量ωδ是固定值,无法根据主题的动态变化做出调整。而且同一时间片的各个主题共用相同的权重,该值的设定比较困难。若权重设置过小,则前后主题不能对齐;若权重设置过大,则历史数据影响过高,从而导致一些并非同一事件的主题由于共词的出现而被强制对齐在一起。特别是当t时间片有新主题出现时,该主题容易与某个旧主题混合在一起共同与t-1中的相关主题对齐,造成新主题检测的困难。此外,OLDA维持一个增量更新的词表,每个时间片中的新词都被加入词表中,最终会因词表太大而导致内存溢出,并且处理维数的增加使运行时间不断增高。
技术实现思路
本专利技术的目的是提供一种基于主题遗传的在线主题建模方法,本方法的主要思想是将前一个时间片的主题分布“遗传”给当前时间片,作为当前时间片Dirichlet分布(狄利克雷分布)的先验参数。其中不同主题具有不同的遗传度,遗传度根据主题强度排名计算得出,两者成正比关系。实现本专利技术目的的技术方案如下:一种基于主题遗传的在线主题建模方法,包括步骤1:令时间片tn为当前时间片,抓取时间片tn中个文本的数据,得到词表步骤2:按照LDA模型进行主题建模,得到文本的文本-主题分布向量和主题的主题-单词分布向量其中,m为文本序号,k为主题序号,k=1,2,...,K,K为主题总数;步骤3:计算主题强度步骤4:根据主题强度作出主题排名步骤5:根据主题排名计算主题的遗传因子其中,a、b为遗传因子的上、下限;步骤6:抓取下一个时间片tn+1中个文本的数据,得到词表步骤7:将词表上的主题-单词分布向量转换为词表上的主题-单词分布向量步骤8:计算下一个时间片tn+1的主题的Dirichlet分布先验参数其中,是平衡向量,且是tn+1时间片的词表的大小;步骤9:采用Gibbs采样方法进行主题建模,得到文本的文本-主题分布向量和主题的主题-单词分布向量其中,步骤10:令时间片tn+1为当前时间片tn,重复步骤3至步骤9。进一步地,计算主题强度的步骤,包括步骤31:计算文本的文本-主题分布向量的熵值其中,为在第k维上的值,即时间片tn中第m个文本在第k个主题上的分布值;步骤32:对熵值进行正规化处理,得到文档权重步骤33:计算主题强度更进一步地,将词表上的主题-单词分布向量转换为词表上的主题-单词分布向量的步骤,包括步骤71:计算词表与词表的交集,对交集内的所有单词在词表上的主题-单词分布向量中的分布值求和得到步骤72:以作为词表中每个新出现的单词的分布值,写入到词表上的主题-单词分布向量中,其中c为词表中新出现的单词总数;步骤73:将交集内的单词在词表上的主题-单词分布向量中的分布值,写入到词表上的主题-单词分布向量中。具体实施时,可以将时间片的长度设为24小时,主题建模的主题总数K设为100,遗传因子的上限a设为0.6,下限b设为0.1。本专利技术的有益效果在于:1、本专利技术是一种在线主题模型,适合处理时序文本流,可以较好地应用在舆情监控系统中;2、本专利技术在保留OLDA模型主题对齐特性的同时,根据主题强度为各个主题设置不同的遗传因子,改善了主题混合和新主题不易及时检测的缺陷;3、本专利技术的主题强度计算方法能够有效降低宽泛主题的得分。附图说明图1是本专利技术与OLDA的困惑度比较示意图;图2是本专利技术展示几个典型事件的主题强度演化分析的效果图。具体实施方式1)令时间片tn为当前时间片,抓取时间片tn中个文本的数据,文本中各自不同的词组成词表其中,n=1,2,3,...。时间片大小可以根据实际需求设置,比如24小时。文本数据可以是论坛帖子、博客文章、新闻等各类文本。2)按照LDA模型进行主题建模,得到文本的文本-主题分布向量和主题的主题-单词分布向量其中,m为文本序号,k为主题序号,k=1,2,...,KK为主题总数;K由用户指定,且在各个时间片中值都不变;文本-主题分布向量是K维的向量,主题-单词分布向量是维的向量,表示词表的大小。3)计算主题强度,计算步骤如下:a)计算文本的文本-主题分布向量的熵值式中表示向量在第k维上的值,即时间片tn中第m个文本在第k个主题上的分布值。b)对熵值进行正规化处理,得到文档权重分母表示个文档熵值里面的最大值。c)根据主题在各个文档中的分布值和文档权重计算主题强度,主题强度记为表示tn时间片中的第k个主本文档来自技高网
...
基于主题遗传的在线主题建模方法

【技术保护点】

【技术特征摘要】
1.一种基于主题遗传的在线主题建模方法,其特征在于,包括步骤1:令时间片tn为当前时间片,抓取时间片tn中个文本的数据,得到词表步骤2:按照LDA模型进行主题建模,得到文本的文本-主题分布向量和主题的主题-单词分布向量其中,m为文本序号,k为主题序号,k=1,2,..,K,K为主题总数;所述LDA为LatentDirichletAllocation,即隐形狄利克雷分布;步骤3:计算主题强度步骤4:根据主题强度作出主题排名步骤5:根据主题排名计算主题的遗传因子其中,a、b为遗传因子的上、下限;步骤6:抓取下一个时间片tn+1中个文本的数据,得到词表步骤7:将词表上的主题-单词分布向量转换为词表上的主题-单词分布向量步骤8:计算下一个时间片tn+1的主题的Dirichlet分布先验参数其中,是平衡向量,且是tn+1时间片的词表的大小;步骤9:采用Gibbs采样方法进行主题建模,得到文本的文本-主题分布向量和主题的主题-单词分布向量其中,步骤10:令时间片tn+1为当前时间片tn,重复步骤3至步骤9。2.如权利要求1所述的基于主题遗传的在线主题建模方法,其特征在于,所述计算主题强度的步骤,包括步骤31:计算文本的文本-主题分布向量的熵值其中,为在第k维上的值...

【专利技术属性】
技术研发人员:陈兴蜀吴小松王文贤杜敏
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1