【技术实现步骤摘要】
基于主题遗传的在线主题建模方法
本专利技术涉及网络热点主题的发现与演化分析方法,特别是一种基于主题遗传的在线主题建模方法。
技术介绍
针对论坛、微博等新兴媒体的话题发现与演化分析是当前的一个研究热点,它可以为舆情发现和预测提供支持,有利于舆情的及时处置,维护社会稳定。近年来,以LDA(LatentDirichletAllocation)为代表的主题模型得到了深入研究。由于LDA本身具有的话题建模能力,在话题演化领域具有先天的优势。基于LDA的一些扩展模型也在随后被提出,比如反映主题在时间上强度变化的TOT(TopicOverTime)模型、采用状态空间记录主题内容和强度演化信息的DTM(DynamicTopicModel)模型以及考虑多时间粒度主题演化的MTTM(MultiscaleTopicTomography)模型等。但上述模型都需要全局建模,不具有在线处理新文本的能力。在线LDA模型(OnlineLDA,OLDA)模型也是LDA的改进模型,它的主要思想是将主题历史分布作为当前时间窗口模型的先验参数。在实施中,OLDA为每个主题维护一个时间窗口可调的演化矩阵矩 ...
【技术保护点】
【技术特征摘要】
1.一种基于主题遗传的在线主题建模方法,其特征在于,包括步骤1:令时间片tn为当前时间片,抓取时间片tn中个文本的数据,得到词表步骤2:按照LDA模型进行主题建模,得到文本的文本-主题分布向量和主题的主题-单词分布向量其中,m为文本序号,k为主题序号,k=1,2,..,K,K为主题总数;所述LDA为LatentDirichletAllocation,即隐形狄利克雷分布;步骤3:计算主题强度步骤4:根据主题强度作出主题排名步骤5:根据主题排名计算主题的遗传因子其中,a、b为遗传因子的上、下限;步骤6:抓取下一个时间片tn+1中个文本的数据,得到词表步骤7:将词表上的主题-单词分布向量转换为词表上的主题-单词分布向量步骤8:计算下一个时间片tn+1的主题的Dirichlet分布先验参数其中,是平衡向量,且是tn+1时间片的词表的大小;步骤9:采用Gibbs采样方法进行主题建模,得到文本的文本-主题分布向量和主题的主题-单词分布向量其中,步骤10:令时间片tn+1为当前时间片tn,重复步骤3至步骤9。2.如权利要求1所述的基于主题遗传的在线主题建模方法,其特征在于,所述计算主题强度的步骤,包括步骤31:计算文本的文本-主题分布向量的熵值其中,为在第k维上的值...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。