The invention discloses a public opinion evolution tracking method based on dynamic incremental probability graph model. The method constructs an incremental random graph model to efficiently analyze public opinion topics in large-scale social networks, track their evolution rules and predict future public opinion changes. Specifically, the number of public opinion topics in the next time film is determined dynamically based on the similarity correlation between the relevant documents of each public opinion topic, so that the change of public opinion in the next time can be predicted by the posterior probability of reusing historical public opinion information. This method combines historical public opinion information to form an analysis method of public opinion evolution in time and latitude, and discovers the evolution law of public opinion topics, so as to predict future public opinion and control it. This method can more accurately determine the number of public opinion topics in the model, and can more accurately and efficiently analyze the evolution process of public opinion.
【技术实现步骤摘要】
一种基于动态增量式的概率图模型的舆情演化跟踪方法
本专利技术属于大数据分析与应用
,涉及舆情演化分析,特别涉及一种基于动态增量式的概率图模型的舆情演化跟踪方法。
技术介绍
舆情是由各种社会群体构成的公众在一定的社会空间内,针对热点事件、特定议题和社会现象所持有的多种情绪、态度和意见交错的总和。舆情是围绕特定话题产生的,舆情的演化往往随着话题的发展而变化。借助数据分析的手段发现其话题的变化来预测未来舆情的发展变化,对其进行追踪分析,便于预防突发性事件的发生。随着信息的迅猛增长,由于数据时刻都在更新,所以舆情不断发生演化,用机器学习分析文档数据时,不可能一次性获得所有数据。当数据进行每次更新时,如果重新学习,消耗大量时间的同时也会占用大量存储空间。因此,引入增量学习机制,在保留历史数据的基础上,利用了历史数据的演化结果,预测未来舆情的发展变化。在分析后续文本时,节省了运行时间,提高了机器学习效率。如何快速得知舆情的演变情况是当前的研究热点,现有方法的问题是在利用概率图模型-LDA分析舆情演化过程中,每次都要重新学习,效率和练习性比较差,会消耗大量时间且话题发现有延时,无法及时将话题内容呈现给用户。并且LDA话题数个数的选择对文本数据的释义和话题识别的效果产生极大的影响。LDA模型需人工设置话题数,存在一定盲目性,如果仅靠训练模型不断调整话题数无疑会消耗大量时间,并且会影响话题发现的准确性及内容的可读性。
技术实现思路
为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于动态增量式的概率图模型的舆情演化跟踪方法。为了实现上述目的,本专利技术采用的技术方 ...
【技术保护点】
1.一种基于动态增量式的概率图模型的舆情演化跟踪方法,其特征在于,包括:步骤1,确定LDA话题数;步骤2,基于确定的话题数,根据LDA模型,按照时间片T进行文本划分,文档集合D={(dn1,t1),(dn2,t2),…,(dni,ti),…,(dnn,tn)},dni表示ti时间片的n篇文档,基于历史时间T话题发现的基础上,推断T+1时间片的话题,完成话题演化分析,具体演化步骤如下:步骤2.1,初始化LDA模型的各类参数,初始化时间片T的词语后验概率分布,即某个话题中包括的词语及对应词语概率值,初始化时间片T+1的文本分词结果;步骤2.2,通过吉布斯采样方法,将文档中的每个词随机赋予话题编号;统计每个话题下出现词语的数量和文档下出现话题的数量;根据已知变量得到时间片T+1的文本‑话题概率分布;步骤2.3,将历史时间T片的词语的后验概率分布,乘以时间片T+1的文本‑话题概率分布,计算时间片T+1的话题‑词语概率分布;步骤2.4,根据时间片T+1的话题‑词语概率分布,将该分布中词语的权值即由分布得到的概率值与设定阈值ε进行比较,如果大于ε,则保留T+1时间的关键词及权值,如果小于ε,淘汰T ...
【技术特征摘要】
1.一种基于动态增量式的概率图模型的舆情演化跟踪方法,其特征在于,包括:步骤1,确定LDA话题数;步骤2,基于确定的话题数,根据LDA模型,按照时间片T进行文本划分,文档集合D={(dn1,t1),(dn2,t2),…,(dni,ti),…,(dnn,tn)},dni表示ti时间片的n篇文档,基于历史时间T话题发现的基础上,推断T+1时间片的话题,完成话题演化分析,具体演化步骤如下:步骤2.1,初始化LDA模型的各类参数,初始化时间片T的词语后验概率分布,即某个话题中包括的词语及对应词语概率值,初始化时间片T+1的文本分词结果;步骤2.2,通过吉布斯采样方法,将文档中的每个词随机赋予话题编号;统计每个话题下出现词语的数量和文档下出现话题的数量;根据已知变量得到时间片T+1的文本-话题概率分布;步骤2.3,将历史时间T片的词语的后验概率分布,乘以时间片T+1的文本-话题概率分布,计算时间片T+1的话题-词语概率分布;步骤2.4,根据时间片T+1的话题-词语概率分布,将该分布中词语的权值即由分布得到的概率值与设定阈值ε进行比较,如果大于ε,则保留T+1时间的关键词及权值,如果小于ε,淘汰T+1时刻的结果,保留T时刻的结果,其中阈值ε为微博话题中的词语权值求和取平均。2.根据权利要求1所述基于动态增量式的概率图模型的舆情演化跟踪方法,其特征在于,所述步骤1确定LDA话题数的步骤如下:步骤1.1,首先对文档进行分词处理,使用TF-IDF计算每个词语的权重,通过寻找突变点,得到最具代表性的主题特征词,即选定主题个数的范围;步骤1.2,根据吉布斯采样技术,得到文档-话题分布,即给每条文档赋予话题标签;步骤1.3,将已标记好的文档输入模型中,进行筛选,删除掉那些某话题下文档之间关联性低于设置值的文档,以及只有一个或没有拓扑邻居的话题节点,最后统计筛选后话题的数量,即为确定的话题数。3.根据权利要求2所述基于动态增量式的概率图模型的舆情演化跟踪方法,其特征在于,所述步骤1.1中,采用TF-IDF统计每个主题下的所有词汇值,并从小到进行排序,在该序列中,寻找数值大幅度下降的突变点,确定用来描述主题的特征词的数目。4.根据权利要求2所述基于动态增量式的概率图模型的舆情演化跟踪方法,其特征在于,所述步骤1.2中,通过使用吉布斯采样算法实现对文档赋予话题标签,由于文档难以直接选取话题标签,通过使用该算法给文档近似的抽取话题序列,得到文档-话题分布,最后选取概率最大的一个词语作为其文档的话题标签;所述步骤1.3中,所使用的模型为增量式话题筛选模型,模型介绍如下:首先,输入新...
【专利技术属性】
技术研发人员:王慧,张紫婷,许志伟,刘利民,云静,
申请(专利权)人:内蒙古工业大学,
类型:发明
国别省市:内蒙古,15
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。