一种基于动态增量式的概率图模型的舆情演化跟踪方法技术

技术编号:21343486 阅读:39 留言:0更新日期:2019-06-13 22:27
本发明专利技术公开了一种基于动态增量式的概率图模型舆情演化跟踪方法,该方法构建增量化随机图模型,对大规模社交网络舆情话题进行高效分析,追踪其演化规律,并预测未来舆情变化。具体来说,基于每条舆情话题相关文档间基于相似度的关联度,动态确定下一时间片的舆情话题数,从而通过复用历史舆情信息的后验概率来预测下一时刻舆情变化情况。该方法通过结合历史舆情信息,形成时间纬度上的舆情演化情况分析方法,发现舆情话题的演化规律,以便预测未来舆情并进行管控。本方法可以更加精准地确定模型的舆情话题数,并能够更为准确、高效地分析舆情演化的过程。

A Public Opinion Evolution Tracking Method Based on Dynamic Incremental Probabilistic Graph Model

The invention discloses a public opinion evolution tracking method based on dynamic incremental probability graph model. The method constructs an incremental random graph model to efficiently analyze public opinion topics in large-scale social networks, track their evolution rules and predict future public opinion changes. Specifically, the number of public opinion topics in the next time film is determined dynamically based on the similarity correlation between the relevant documents of each public opinion topic, so that the change of public opinion in the next time can be predicted by the posterior probability of reusing historical public opinion information. This method combines historical public opinion information to form an analysis method of public opinion evolution in time and latitude, and discovers the evolution law of public opinion topics, so as to predict future public opinion and control it. This method can more accurately determine the number of public opinion topics in the model, and can more accurately and efficiently analyze the evolution process of public opinion.

【技术实现步骤摘要】
一种基于动态增量式的概率图模型的舆情演化跟踪方法
本专利技术属于大数据分析与应用
,涉及舆情演化分析,特别涉及一种基于动态增量式的概率图模型的舆情演化跟踪方法。
技术介绍
舆情是由各种社会群体构成的公众在一定的社会空间内,针对热点事件、特定议题和社会现象所持有的多种情绪、态度和意见交错的总和。舆情是围绕特定话题产生的,舆情的演化往往随着话题的发展而变化。借助数据分析的手段发现其话题的变化来预测未来舆情的发展变化,对其进行追踪分析,便于预防突发性事件的发生。随着信息的迅猛增长,由于数据时刻都在更新,所以舆情不断发生演化,用机器学习分析文档数据时,不可能一次性获得所有数据。当数据进行每次更新时,如果重新学习,消耗大量时间的同时也会占用大量存储空间。因此,引入增量学习机制,在保留历史数据的基础上,利用了历史数据的演化结果,预测未来舆情的发展变化。在分析后续文本时,节省了运行时间,提高了机器学习效率。如何快速得知舆情的演变情况是当前的研究热点,现有方法的问题是在利用概率图模型-LDA分析舆情演化过程中,每次都要重新学习,效率和练习性比较差,会消耗大量时间且话题发现有延时,无法及时将话题内容呈现给用户。并且LDA话题数个数的选择对文本数据的释义和话题识别的效果产生极大的影响。LDA模型需人工设置话题数,存在一定盲目性,如果仅靠训练模型不断调整话题数无疑会消耗大量时间,并且会影响话题发现的准确性及内容的可读性。
技术实现思路
为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于动态增量式的概率图模型的舆情演化跟踪方法。为了实现上述目的,本专利技术采用的技术方案是:一种基于动态增量式的概率图模型的舆情演化跟踪方法,包括:步骤1,确定LDA话题数;步骤2,基于确定的话题数,根据LDA模型,按照时间片T进行文本划分,文档集合D={(dn1,t1),(dn2,t2),…,(dni,ti),…,(dnn,tn)},dni表示ti时间片的n篇文档,基于历史时间T话题发现的基础上,推断T+1时间片的话题,完成话题演化分析,具体演化步骤如下:步骤2.1,初始化LDA模型的各类参数,初始化时间片T的词语后验概率分布,即某个话题中包括的词语及对应词语概率值,初始化时间片T+1的文本分词结果;步骤2.2,通过吉布斯采样方法,将文档中的每个词随机赋予话题编号;统计每个话题下出现词语的数量和文档下出现话题的数量;根据已知变量得到时间片T+1的文本-话题概率分布;步骤2.3,将历史时间片T的词语的后验概率分布,乘以时间片T+1的文本-话题概率分布,计算时间片T+1的话题-词语概率分布;步骤2.4,根据时间片T+1的话题-词语概率分布,将该分布中词语的权值(即由分布得到的概率值)与设定阈值ε进行比较,如果大于ε,则保留T+1时间的关键词及权值,如果小于ε,淘汰T+1时刻的结果,保留T时刻的结果,其中阈值ε为微博话题中的词语权值求和取平均。所述步骤1确定LDA话题数的步骤如下:步骤1.1,首先对文档进行分词处理,使用TF-IDF计算每个词语的权重,通过寻找突变点,得到最具代表性的主题特征词,即选定主题个数的范围;步骤1.2,根据吉布斯采样技术,得到文档-话题分布,即给每条文档赋予话题标签;步骤1.3,将已标记好的文档输入模型中,进行筛选,删除掉那些某话题下文档之间关联性低于设置值的文档,以及只有一个或没有拓扑邻居的话题节点,最后统计筛选后话题的数量,即为确定的话题数。所述步骤1.1中,因为要选取合适话题数,就需要进一步为文本集中的每个文本选择最合适的词汇集,这些词汇集合要求能充分代表每个文档的特征,所以采用TF-IDF统计每个主题下的所有词汇值,并从小到进行排序,在该序列中,寻找数值大幅度下降的突变点,确定用来描述主题的特征词的数目。所述步骤1.2中的吉布斯采样技术是一种现有的算法,通过使用该算法实现对文档赋予话题标签。由于文档难以直接选取话题标签,通过使用该算法给文档近似的抽取话题序列,得到文档-话题分布,最后选取概率最大的一个词语作为其文档的话题标签。所述步骤1.3中,所使用的模型为增量式话题筛选模型,模型介绍如下:首先,输入新样本xi,判断是否属于新的话题节点,若是插入成为新的节点,若不是则属于已存在话题节点G中,然后在G中寻找最近的邻居点winner和次近邻居点runner-up;winner和runner-up的计算公式为:其中wi表示节点G中的第i个话题。然后,判断样本与winner的向量距离,若大于阈值或则重新成为一个新的节点,否则更新该节点内文档之间的关系,其中阈值和是自适应的;最后,按照时间片的长度,对该时间片处理过文档关系进行一次删除操作,删除掉那些某话题下文档之间关联性低于设定值的文档,以及只有一个或没有拓扑邻居的话题节点,最后统计筛选后话题的数量,即为确定的话题数。所述更新的规则为:节点内的文档之间的权重开始为零,在不断学习的过程中增强,若这个值超过预先设定的值则被移除。所述步骤2.1,对LDA模型,设置先验参数α、β、话题数目、迭代次数、文档路径及保存的话题热点词数目,LDA模型为增量式的过程,需结合前一时刻的发现结果,即T时间的文本话题发现结果,初始化T+1时间的文本分词结果,结果为dni={wn1,wn2,...,wnj,...,wnm|ti}。其中dni代表n篇文档中的第i篇,wnj代表第n篇文档中的第j个词,ti表示第i时间片。所述步骤2.2,将文档dni中的每个词语随机赋予话题编号zm;统计K个话题的总文档数目和m篇文档中所有被分配了话题k的文档数目根据已知变量得到T+1时间片的文本-话题概率分布,如下公式所示:其中K是根据增量式话题筛选模型确定的该时间片的话题数,i表示第m篇文档中的第n个词语,表示去除下标为i的当前词语的分布情况,αT+1为在时间片T+1中LDA模型设置的先验参数。所述步骤2.3中,历史时间片T的词语的后验概率分布根据上一时间片所得,即某个话题中包括的词语及对应词语概率值。与现有技术相比,本专利技术的有益效果是:本专利技术针LDA模型需人工设置话题数的盲目性,采用一种有效的话题筛选机制,在大范围话题数的基础上,利用每个话题下文档间相互关系紧密程度,在舆情演化分析过程中动态确定话题个数,解决了现有技术中重新训练模型来确定话题数消耗大量时间的问题。本专利技术根据舆情不断演化的特点,将LDA模型增量化,结合历史推演结果,对当前时刻进行舆情演化分析,形成了在时间维度上舆情演化情况的分析方法,进行演化反省,并预测未来舆情。附图说明图1是本专利技术整体流程图。图2是增量式话题筛选模型的过程图。图3是话题演化结果图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术的基于动态增量式的概率图模型舆情演化跟踪方法进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。参考图1,本专利技术一种基于动态增量式的概率图模型的舆情演化跟踪方法,过程如下:1.数据预处理首先,通过网络爬虫技术将获取的数据。采用中科院张华平博士的开源汉语分词工具NLPIR,对其文本数据实现中文分词、去停用词。通过人工设置的正则表达式再次过滤无意义的词及特殊标点符号,使得分词结本文档来自技高网...

【技术保护点】
1.一种基于动态增量式的概率图模型的舆情演化跟踪方法,其特征在于,包括:步骤1,确定LDA话题数;步骤2,基于确定的话题数,根据LDA模型,按照时间片T进行文本划分,文档集合D={(dn1,t1),(dn2,t2),…,(dni,ti),…,(dnn,tn)},dni表示ti时间片的n篇文档,基于历史时间T话题发现的基础上,推断T+1时间片的话题,完成话题演化分析,具体演化步骤如下:步骤2.1,初始化LDA模型的各类参数,初始化时间片T的词语后验概率分布,即某个话题中包括的词语及对应词语概率值,初始化时间片T+1的文本分词结果;步骤2.2,通过吉布斯采样方法,将文档中的每个词随机赋予话题编号;统计每个话题下出现词语的数量和文档下出现话题的数量;根据已知变量得到时间片T+1的文本‑话题概率分布;步骤2.3,将历史时间T片的词语的后验概率分布,乘以时间片T+1的文本‑话题概率分布,计算时间片T+1的话题‑词语概率分布;步骤2.4,根据时间片T+1的话题‑词语概率分布,将该分布中词语的权值即由分布得到的概率值与设定阈值ε进行比较,如果大于ε,则保留T+1时间的关键词及权值,如果小于ε,淘汰T+1时刻的结果,保留T时刻的结果,其中阈值ε为微博话题中的词语权值求和取平均。...

【技术特征摘要】
1.一种基于动态增量式的概率图模型的舆情演化跟踪方法,其特征在于,包括:步骤1,确定LDA话题数;步骤2,基于确定的话题数,根据LDA模型,按照时间片T进行文本划分,文档集合D={(dn1,t1),(dn2,t2),…,(dni,ti),…,(dnn,tn)},dni表示ti时间片的n篇文档,基于历史时间T话题发现的基础上,推断T+1时间片的话题,完成话题演化分析,具体演化步骤如下:步骤2.1,初始化LDA模型的各类参数,初始化时间片T的词语后验概率分布,即某个话题中包括的词语及对应词语概率值,初始化时间片T+1的文本分词结果;步骤2.2,通过吉布斯采样方法,将文档中的每个词随机赋予话题编号;统计每个话题下出现词语的数量和文档下出现话题的数量;根据已知变量得到时间片T+1的文本-话题概率分布;步骤2.3,将历史时间T片的词语的后验概率分布,乘以时间片T+1的文本-话题概率分布,计算时间片T+1的话题-词语概率分布;步骤2.4,根据时间片T+1的话题-词语概率分布,将该分布中词语的权值即由分布得到的概率值与设定阈值ε进行比较,如果大于ε,则保留T+1时间的关键词及权值,如果小于ε,淘汰T+1时刻的结果,保留T时刻的结果,其中阈值ε为微博话题中的词语权值求和取平均。2.根据权利要求1所述基于动态增量式的概率图模型的舆情演化跟踪方法,其特征在于,所述步骤1确定LDA话题数的步骤如下:步骤1.1,首先对文档进行分词处理,使用TF-IDF计算每个词语的权重,通过寻找突变点,得到最具代表性的主题特征词,即选定主题个数的范围;步骤1.2,根据吉布斯采样技术,得到文档-话题分布,即给每条文档赋予话题标签;步骤1.3,将已标记好的文档输入模型中,进行筛选,删除掉那些某话题下文档之间关联性低于设置值的文档,以及只有一个或没有拓扑邻居的话题节点,最后统计筛选后话题的数量,即为确定的话题数。3.根据权利要求2所述基于动态增量式的概率图模型的舆情演化跟踪方法,其特征在于,所述步骤1.1中,采用TF-IDF统计每个主题下的所有词汇值,并从小到进行排序,在该序列中,寻找数值大幅度下降的突变点,确定用来描述主题的特征词的数目。4.根据权利要求2所述基于动态增量式的概率图模型的舆情演化跟踪方法,其特征在于,所述步骤1.2中,通过使用吉布斯采样算法实现对文档赋予话题标签,由于文档难以直接选取话题标签,通过使用该算法给文档近似的抽取话题序列,得到文档-话题分布,最后选取概率最大的一个词语作为其文档的话题标签;所述步骤1.3中,所使用的模型为增量式话题筛选模型,模型介绍如下:首先,输入新...

【专利技术属性】
技术研发人员:王慧张紫婷许志伟刘利民云静
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:内蒙古,15

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1