事件追踪与变化阶段划分方法、系统及相关设备技术方案

技术编号:20329603 阅读:37 留言:0更新日期:2019-02-13 06:02
本发明专利技术涉及机器学习领域,具体涉及一种事件追踪与变化阶段划分方法、系统及相关设备,旨在提高计算效率。本发明专利技术的方法包括:从多个不同的新闻传播通道中采集新闻数据并存入数据库中;然后进行话题聚类,选择待追踪事件对应的新闻集合,并查找出待追踪事件的起始发布时间;以起始发布时间为起点,绘制待追踪事件在单位时间内的信息量随时间变化的曲线,再进行等时间间隔采样,绘制出平滑后的演化包络线;求出极大值点的个数,进而计算出变化阶段的个数;计算出极大值点和极小值点;在每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段。本发明专利技术提升了算法的效率,降低了时间复杂度、阈值依赖和形状依赖。

【技术实现步骤摘要】
事件追踪与变化阶段划分方法、系统及相关设备
本专利技术涉及机器学习领域,具体涉及一种事件追踪与变化阶段划分方法、系统及相关设备。
技术介绍
互联网时代,人们获取信息的渠道更加多元化,除了传统的纸质媒体之外,各类社交媒体网站也层出不穷,如微博、博客、论坛、Twitter等等。我国正处于经济快速发展的社会转型期,事故灾害事件,公共卫生事件、社会安全事件等社会事件频繁发生。现如今社会媒体网站已逐渐成为人们获取新闻事件的主要渠道。所以,基于社会媒体,对事件进行分析、研究、归纳、挖掘,对舆情及其事件的发展趋势、风向、苗头进行全面的预判分析,提高事件处置的针对性和前瞻性十分必要。以专题事件为对象,分析其内容变迁的研究属于话题检测与追踪的研究范畴,即TopicDetectionandTracking(TDT)。TDT主要是面向新闻媒体的信息流进行话题检测、发现和追踪。传统的TDT一般事先给定若干篇话题隐含的、但彼此是同一话题的先验报道,用以训练话题识别模型,然后利用该模型去甄别语料中的文档,从而获得相关的一系列报道,达到话题追踪的目的。所以,传统TDT需要识别出给定语料中关于某个已知话题的报道。其核心是如何衡量单一新闻文本与专题的相关性。技术层面,通常是借助一定的分类、聚类方法或语言模型来解决。因此传统的TDT无法识别多话题多文档,同时在话题聚类时也会出现噪声抖动的现象,存在聚类依赖现象。变化阶段划分会涉及时态信息。目前主要有三类基于时间的话题模型:后离散时间型、先离散时间型、时间变量结合型。三类模型的核心思想是一致的,即利用主题生成模型获得文档集的主题词集合,并采用一定的策略将时间因素与主题词完成配对,从而得到基于时间的话题动态演化模型。Ha-Thus等人基于微博新闻进行话题演化研究,首先利用LatentDirichletAllocation(LDA)生成主题模型,再通过计算词与话题的后验概率得到词语话题的相关性,并以此为基础求得话题在各个时间窗口的强度从而进行话题追踪。就新闻文档的可获取性而言,更多地只能将新闻的发布时间作为时间因素考虑,一定程度上影响了话题模型的准确性。同时该方法的时间复杂度偏高,实际应用时效率低下,而且在划分阶段时需要求得阈值和顶点,存在阈值依赖和形状依赖的问题。
技术实现思路
为了解决现有技术中的上述问题,本专利技术提出了一种事件追踪与变化阶段划分方法、系统及相关设备,提升了算法的效率,降低了时间复杂度。本专利技术的一方面,提出一种事件追踪与变化阶段划分方法,包括以下步骤:从多个不同的新闻传播通道中采集新闻数据并存入数据库中;对所述数据库中的所述新闻数据进行话题聚类,根据不同话题生成相应新闻集合,进而选择待追踪事件对应的新闻集合,并查找出所述待追踪事件的起始发布时间;以所述起始发布时间为起点,根据所述数据库中的新闻数据绘制所述待追踪事件在单位时间内的信息量随时间变化的曲线;在所述曲线上进行等时间间隔采样,绘制出平滑后的演化包络线;求出所述演化包络线上的极大值点的个数,进而计算出变化阶段的个数;在所述演化包络线上,分别将每个变化阶段等间隔地划分为预设数量的时间段,并计算每个时间段中产生的信息量,进而计算出极大值点和极小值点;在所述演化包络线上每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段。优选地,所述数据库包括:一个汇总数据库和/或与各新闻传播通道一一对应的通道数据库;相应地,“从多个不同的新闻传播通道中采集新闻数据并存入数据库中”的步骤具体包括:从多个预先确定的所述新闻传播通道中采集新闻数据,并存入所述汇总数据库中;和/或将采集的所述新闻数据,依据采集通道的不同分别存入对应的所述通道数据库中;“对所述数据库中的所述新闻数据进行话题聚类”,包括:对所述汇总数据库中的话题进行聚类,或对某一个指定新闻通道所对应的通道数据库中的话题进行聚类。优选地,“对所述数据库中的所述新闻数据进行话题聚类,根据不同话题生成相应新闻集合,进而选择待追踪事件对应的新闻集合,并查找出所述待追踪事件的起始发布时间”的步骤具体包括:从所述数据库中选取第一条新闻数据,通过聚类找到所述数据库中与该新闻数据具有相同话题的新闻数据,作为一个新闻集合;从所述数据库中剩下的新闻数据中选取第一条新闻数据,通过聚类找到所述数据库中与该新闻数据具有相同话题的新闻数据,作为另一个新闻集合;重复执行,直到无法聚类出新的新闻集合,通过极值点去重的方式删除不需要的集合;选择待追踪事件对应的新闻集合,并查找出其中发布时间最早的新闻数据;将该新闻数据的发布时间,作为所述待追踪事件的起始发布时间。优选地,“在所述演化包络线上,分别将每个变化阶段等间隔地划分为预设数量的时间段,并计算每个时间段中产生的信息量,进而计算出极大值点和极小值点”的步骤具体包括:在所述演化包络线上,分别将每个变化阶段等间隔地划分为n个时间段,并计算出每个时间段中产生的信息量ski;将满足下式的ski值对应时间段的中间值在所述演化包络线上的点作为极大值点:将满足下式的ski值对应时间段的中间值在所述演化包络线上的点作为极小值点:其中,ski为第k个变化阶段中第i个时间段所产生的信息量,k=1,2,...,K,i=1,2,...,n;K为事件变化阶段的个数;n为所述预设数量;τA为预设的第一阈值;τB为预设的第二阈值。优选地,“在所述演化包络线上每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段”的步骤具体包括:计算出所述演化包络线上第一个极大值与预设的信息量百分比m的乘积,得到发生阶段分割点M的纵坐标;将所述起始发布时间到所述发生阶段分割点M之间的时间段定义为事件发生阶段;计算出所述演化包络线上最后一个极大值与预设的信息量百分比l的乘积,得到消亡阶段分割点L的纵坐标;将所述消亡阶段分割点L到所述演化包络线结束点之间对应的时间段定义为事件消亡阶段;将所述演化包络线上位于所述发生阶段分割点M与所述消亡阶段分割点L之间的部分,按时间顺序依次选取分割点,从而划分为一组或多组中间阶段;其中,所述中间阶段的组数与极大值点的个数相同,每组所述中间阶段包括:一个发展阶段、一个高峰阶段、一个回落阶段;“将所述演化包络线上位于所述发生阶段分割点M与所述消亡阶段分割点L之间的部分,按时间顺序依次选取分割点,从而划分为一组或多组中间阶段”的步骤具体包括:针对第一个极大值,分别计算出该极大值与预设的信息量百分比r、s、t的乘积,得到三个分割点A1、B1、C1的纵坐标;在所述演化包络线上找到位于第一个极大值点前方的分割点A1,找到位于第一个极大值点后方的分割点B1、C1,进而将所述发生阶段分割点M与分割点A1之间对应的时间段定义为第一个发展阶段,将分割点A1与B1之间对应的时间段定义为第一个高峰阶段,将分割点B1与C1之间对应的时间段定义为第一个回落阶段;针对第二个极大值,分别计算出该极大值与预设的信息量百分比r、s、t的乘积,得到三个分割点A2、B2、C2的纵坐标;在所述演化包络线上找到位于第二个极大值点前方的分割点A2,找到位于第二个极大值点后方的分割点B2、C2,进而将分割点C1与分割点A2之间对应的时间段定义为第二个发展阶段,将分割点A本文档来自技高网
...

【技术保护点】
1.一种事件追踪与变化阶段划分方法,其特征在于,包括以下步骤:从多个不同的新闻传播通道中采集新闻数据并存入数据库中;对所述数据库中的所述新闻数据进行话题聚类,根据不同话题生成相应新闻集合,进而选择待追踪事件对应的新闻集合,并查找出所述待追踪事件的起始发布时间;以所述起始发布时间为起点,根据所述数据库中的新闻数据绘制所述待追踪事件在单位时间内的信息量随时间变化的曲线;在所述曲线上进行等时间间隔采样,绘制出平滑后的演化包络线;求出所述演化包络线上的极大值点的个数,进而计算出变化阶段的个数;在所述演化包络线上,分别将每个变化阶段等间隔地划分为预设数量的时间段,并计算每个时间段中产生的信息量,进而计算出极大值点和极小值点;在所述演化包络线上每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段。

【技术特征摘要】
1.一种事件追踪与变化阶段划分方法,其特征在于,包括以下步骤:从多个不同的新闻传播通道中采集新闻数据并存入数据库中;对所述数据库中的所述新闻数据进行话题聚类,根据不同话题生成相应新闻集合,进而选择待追踪事件对应的新闻集合,并查找出所述待追踪事件的起始发布时间;以所述起始发布时间为起点,根据所述数据库中的新闻数据绘制所述待追踪事件在单位时间内的信息量随时间变化的曲线;在所述曲线上进行等时间间隔采样,绘制出平滑后的演化包络线;求出所述演化包络线上的极大值点的个数,进而计算出变化阶段的个数;在所述演化包络线上,分别将每个变化阶段等间隔地划分为预设数量的时间段,并计算每个时间段中产生的信息量,进而计算出极大值点和极小值点;在所述演化包络线上每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段。2.根据权利要求1所述的事件追踪与变化阶段划分方法,其特征在于,所述数据库包括:一个汇总数据库和/或与各新闻传播通道一一对应的通道数据库;相应地,“从多个不同的新闻传播通道中采集新闻数据并存入数据库中”的步骤具体包括:从多个预先确定的所述新闻传播通道中采集新闻数据,并存入所述汇总数据库中;和/或将采集的所述新闻数据,依据采集通道的不同分别存入对应的所述通道数据库中;“对所述数据库中的所述新闻数据进行话题聚类”,包括:对所述汇总数据库中的话题进行聚类,或对某一个指定新闻通道所对应的通道数据库中的话题进行聚类。3.根据权利要求1所述的事件追踪与变化阶段划分方法,其特征在于,“对所述数据库中的所述新闻数据进行话题聚类,根据不同话题生成相应新闻集合,进而选择待追踪事件对应的新闻集合,并查找出所述待追踪事件的起始发布时间”的步骤具体包括:从所述数据库中选取第一条新闻数据,通过聚类找到所述数据库中与该新闻数据具有相同话题的新闻数据,作为一个新闻集合;从所述数据库中剩下的新闻数据中选取第一条新闻数据,通过聚类找到所述数据库中与该新闻数据具有相同话题的新闻数据,作为另一个新闻集合;重复执行,直到无法聚类出新的新闻集合,通过极值点去重的方式删除不需要的集合;选择待追踪事件对应的新闻集合,并查找出其中发布时间最早的新闻数据;将该新闻数据的发布时间,作为所述待追踪事件的起始发布时间。4.根据权利要求1所述的事件追踪与变化阶段划分方法,其特征在于,“在所述演化包络线上,分别将每个变化阶段等间隔地划分为预设数量的时间段,并计算每个时间段中产生的信息量,进而计算出极大值点和极小值点”的步骤具体包括:在所述演化包络线上,分别将每个变化阶段等间隔地划分为n个时间段,并计算出每个时间段中产生的信息量ski;将满足下式的ski值对应时间段的中间值在所述演化包络线上的点作为极大值点:将满足下式的ski值对应时间段的中间值在所述演化包络线上的点作为极小值点:其中,ski为第k个变化阶段中第i个时间段所产生的信息量,k=1,2,...,K,i=1,2,...,n;K为事件变化阶段的个数;n为所述预设数量;τA为预设的第一阈值;τB为预设的第二阈值。5.根据权利要求1所述的事件追踪与变化阶段划分方法,其特征在于,“在所述演化包络线上每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段”的步骤具体包括:计算出所述演化包络线上第一个极大值与预设的信息量百分比m的乘积,得到发生阶段分割点M的纵坐标;将所述起始发布时间到所述发生阶段分割点M之间的时间段定义为事件发生阶段;计算出所述演化包络线上最后一个极大值与预设的信息量百分比l的乘积,得到消亡阶段分割点L的纵坐标;将所述消亡阶段分割点L到所述演化包络线结束点之间对应的时间段定义为事件消亡阶段;将所述演化包络线上位于所述发生阶段分割点M与所述消亡阶段分割点L之间的部分,按时间顺序依次选取分割点,从而划分为一组或多组中间阶段;其中,...

【专利技术属性】
技术研发人员:曾大军郑晓龙何赛克张曈王乾宇
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1