当前位置: 首页 > 专利查询>四川大学专利>正文

基于主题遗传的在线主题建模方法技术

技术编号:10053931 阅读:142 留言:0更新日期:2014-05-16 02:38
本发明专利技术公开了一种基于主题遗传的在线主题建模方法,包括抓取当前时间片文本数据,按照LDA模型进行主题建模,计算主题强度,主题排名,计算主题的遗传因子,抓取下一个时间片文本数据,转换主题-单词分布向量,计算下一个时间片Dirichlet分布先验参数,采用Gibbs采样方法进行主题建模等步骤。本发明专利技术的有益效果在于:1、本发明专利技术是一种在线主题模型,适合处理时序文本流,可以较好地应用在舆情监控系统中;2、本发明专利技术在保留OLDA模型主题对齐特性的同时,根据主题强度为各个主题设置不同的遗传因子,改善了主题混合和新主题不易及时检测的缺陷;3、本发明专利技术的主题强度计算方法能够有效降低宽泛主题的得分。

【技术实现步骤摘要】
基于主题遗传的在线主题建模方法
本专利技术涉及网络热点主题的发现与演化分析方法,特别是一种基于主题遗传的在线主题建模方法。
技术介绍
针对论坛、微博等新兴媒体的话题发现与演化分析是当前的一个研究热点,它可以为舆情发现和预测提供支持,有利于舆情的及时处置,维护社会稳定。近年来,以LDA(LatentDirichletAllocation)为代表的主题模型得到了深入研究。由于LDA本身具有的话题建模能力,在话题演化领域具有先天的优势。基于LDA的一些扩展模型也在随后被提出,比如反映主题在时间上强度变化的TOT(TopicOverTime)模型、采用状态空间记录主题内容和强度演化信息的DTM(DynamicTopicModel)模型以及考虑多时间粒度主题演化的MTTM(MultiscaleTopicTomography)模型等。但上述模型都需要全局建模,不具有在线处理新文本的能力。在线LDA模型(OnlineLDA,OLDA)模型也是LDA的改进模型,它的主要思想是将主题历史分布作为当前时间窗口模型的先验参数。在实施中,OLDA为每个主题维护一个时间窗口可调的演化矩阵矩阵中的每一列都是对应本文档来自技高网...
基于主题遗传的在线主题建模方法

【技术保护点】

【技术特征摘要】
1.一种基于主题遗传的在线主题建模方法,其特征在于,包括步骤1:令时间片tn为当前时间片,抓取时间片tn中个文本的数据,得到词表步骤2:按照LDA模型进行主题建模,得到文本的文本-主题分布向量和主题的主题-单词分布向量其中,m为文本序号,k为主题序号,k=1,2,..,K,K为主题总数;所述LDA为LatentDirichletAllocation,即隐形狄利克雷分布;步骤3:计算主题强度步骤4:根据主题强度作出主题排名步骤5:根据主题排名计算主题的遗传因子其中,a、b为遗传因子的上、下限;步骤6:抓取下一个时间片tn+1中个文本的数据,得到词表步骤7:将词表上的主题-单词分布向量转换为词表上的主题-单词分布向量步骤8:计算下一个时间片tn+1的主题的Dirichlet分布先验参数其中,是平衡向量,且是tn+1时间片的词表的大小;步骤9:采用Gibbs采样方法进行主题建模,得到文本的文本-主题分布向量和主题的主题-单词分布向量其中,步骤10:令时间片tn+1为当前时间片tn,重复步骤3至步骤9。2.如权利要求1所述的基于主题遗传的在线主题建模方法,其特征在于,所述计算主题强度的步骤,包括步骤31:计算文本的文本-主题分布向量的熵值其中,为在第k维上的值...

【专利技术属性】
技术研发人员:陈兴蜀吴小松王文贤杜敏
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1