当前位置: 首页 > 专利查询>云南大学专利>正文

一种基于主题模型的舆情新闻事件跟踪方法技术

技术编号:26791290 阅读:74 留言:0更新日期:2020-12-22 17:06
本发明专利技术公开了一种基于主题模型的舆情新闻事件跟踪方法。针对舆情新闻的稀疏性、时序性、易演化性等特点,给出了一种舆情主题模型MBTM(Minority Biterm Topic Model)的构建方法,然后利用MBTM对舆情新闻数据进行建模、推断隐含主题,进一步设置时间节点,在每个时间节点上对主题‑词分布进行采样,获取对应主题中的词项,再利用JS散度和主题强度两个指标挖掘主题演化轨迹,完成对特定舆情新闻事件的在线跟踪。本发明专利技术在构建MBTM的过程中,使用了一种基于随机更新思想的近似推断方法来更新参数,从而能够精确、高效的实现舆情新闻事件追踪,也为特定领域新闻事件跟踪技术提供参考。

【技术实现步骤摘要】
一种基于主题模型的舆情新闻事件跟踪方法
本专利技术公开了一种基于主题模型的舆情新闻事件跟踪方法,涉及基于主题模型对舆情新闻事件进行隐含主题推断,以及利用JS散度和主题强度进行舆情新闻主题演化轨迹挖掘,实现舆情新闻事件跟踪的方法,属于知识发现领域。
技术介绍
新闻主题检测与跟踪技术是信息处理领域中备受关注的研究热点,其任务是在事件发展初期将新闻媒体信息流作为研究对象,通过监控新闻描述的主题,发现新闻潜在信息并跟踪下去,最后将涉及某个主题的新闻组织起来以新闻线索的方式呈现给用户。随着社交媒体的快速发展,在社交媒体文本内容中利用主题模型进行主题演化跟踪,成为近年来研究的热点,该领域的研究有助于跟踪主题的发展趋势,对突发事件应急监测等实际应用都有重要的指导作用。已有许多公知的新闻主题跟踪方法,例如:庄锅冕等(<专利CN106599181B>,2019)将LDA主题模型应用在新闻热点检测中;李心舒等(<北京邮电大学硕士论文>,2019)结合新闻热点主题特点和大数据处理平台优势,设计并实现了基于Spark的多领域网络新闻热点挖掘系统,有效提本文档来自技高网...

【技术保护点】
1.一种舆情新闻事件跟踪方法,其特征在于执行过程分为以下4个步骤:/n(1)舆情新闻数据在线获取与预处理:首先选取需要进行跟踪的舆情新闻事件,然后持续地从社交网络和新闻网页上爬取该事件的新闻数据,将在线获取的数据进行预处理,去除停用词并进行分词;/n(2)构建MBTM(Minority Biterm Topic Model)并推断舆情新闻事件隐含主题:定义舆情新闻数据词典,提取二元组,给定参数构建MBTM,利用该模型对预处理后的舆情新闻数据进行建模,并推断舆情新闻事件的隐含主题;/n(3)舆情新闻事件主题演化轨迹跟踪:设置时间节点,在每个时间节点处对模型当前的主题-词分布进行采样,获取对应主题...

【技术特征摘要】
1.一种舆情新闻事件跟踪方法,其特征在于执行过程分为以下4个步骤:
(1)舆情新闻数据在线获取与预处理:首先选取需要进行跟踪的舆情新闻事件,然后持续地从社交网络和新闻网页上爬取该事件的新闻数据,将在线获取的数据进行预处理,去除停用词并进行分词;
(2)构建MBTM(MinorityBitermTopicModel)并推断舆情新闻事件隐含主题:定义舆情新闻数据词典,提取二元组,给定参数构建MBTM,利用该模型对预处理后的舆情新闻数据进行建模,并推断舆情新闻事件的隐含主题;
(3)舆情新闻事件主题演化轨迹跟踪:设置时间节点,在每个时间节点处对模型当前的主题-词分布进行采样,获取对应主题中的词项,通过观察不同时间节点对应词项的演变,得到特定舆情新闻事件主题的演化轨迹;
(4)基于JS散度和主题强度的舆情新闻事件主题的演化轨迹分析:计算相邻时间节点主题-词分布间的JS散度,衡量特定舆情新闻事件主题在特定时间段内是否发生演化;将舆情新闻事件的主题强度看作该事件主题在上一个时间节点到当前时间节点内被讨论的次数,计算主题在每个时间节点的强度,从而监控舆情新闻事件的发展情况。


2.根据权利要求1所述的方法,特征在于,所述步骤(2)进一步包括以下具体步骤:
2.1:定义舆情新闻数据词典
获取步骤1.2.2预处理后得到的文字内容,将其中包含的全部词项存储在舆情新闻数据词典中,记为中,词典即为新闻数据中出现的所有词项的集合,其中,S为词典中词项的总数,即词典的大小,词典中没有重复的词项,即;
2.2:提取舆情新闻数据中的二元组
将每条舆情新闻数据作为一个单独的上下文单元,其中任何两个不同的词项构成一个二元组,一个包含3个不同词项的上下文单元将生成3个二元组表示为

(2-1)
按照式2-1的规则提取每条舆情新闻数据文字内容中的二元组,得到二元组集合,其中,|B|为该集合中二元组的个数,bi为第i个二元组,,,,和为二元组bi中的两个词项;二元组的提取过程可以通过对I的一次扫描来完成;
2.3:构建MTBM
用舆情新闻数据词典W中的S个词项来表示K个主题,K为设定的主题总数,,zk为主题的指示变量,k为主题序号,θ为数据集的主题分布,为主题zk的主题-词分布,分别为整个数据集的主题分布和每个主题下的主题-词分布的先验参数,MBTM按照以下生成过程构建:
2.3.1:从参数为α的狄利克雷分布中对所有新闻数据的主题分布θ进行随机采样,从而推断出概率分布中的隐含变量θ、得到具体的概率分布,即有,表示为

(2-2)
其中,α是K维参数,,是Gamma函数,上述过程对应于图2中随机变量间的概率依赖关系;
2.3.2:对每个主题zk,基于参数为的狄利克雷分布对每个主题进行随机采样,得到主题-词分布,简称为词项分布,即有;
2.3.3:对二元组集合中的每个二元组b:基于参数θ的多项式分布,为每个二元组b随机采样一个主题z,即有z~Multinomial(θ),基于参数的多项式分布对词项w1(b)和w2(b)进行随机采样,即有w1(b),w2(b)~Multinomial();
2.4:通过MBTM推断舆情新闻事件的隐含主题
MBTM模型在步骤2.3模型生成过程的基础上,将主题分布θ和每个主题的词项分布通过求边际积分的收缩变分表示方法,从后验分布中去除,收缩变分表示的MBTM图模型如图3所示,只对隐含主题变量z进行推断,z服从于变分多项分布Multinomial,为该多项式分布的变分参数,舆情新闻事件隐含主题按如下步骤进行推断:
2.4.1:随机初始化Nk和Nk,w,令时间步长t=1,对每个二元组b,更新变分参数,首先对于变分参数,使用变分推断中经常使用的坐标上升法,对变分后验分布的变分下限(EvidenceLowerBound,ELBO)进行最大化,该过程采用零阶近似方法,即在近似时只保留零阶泰勒展开,最终得到的近似更新公式为,从而克服变分期望项的较高计算代价带来的困难:

(2-3)
其中,Nk和Nk,w为表示执行更新和恢复参数所需要的全部数据的统计量,当一个新的二元组b出现时,随机地更新统计量,从而迭代地更新变分参数直至收敛;\b表示统计量计数时要去掉当前二元组b;
2.4.2:基于得到的变分参数,按照公式2-4和2-5估计Nk和Nk,w:

(2-4)

(2-5)
2.4.3:按照公式2-6定义Robbins-Monro序列,用来描述当时间步长t改变时,模...

【专利技术属性】
技术研发人员:马子娟岳昆段亮吴鑫然李维华赵天资
申请(专利权)人:云南大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1