当前位置: 首页 > 专利查询>天津大学专利>正文

突发事件检测与预测的方法技术

技术编号:19647107 阅读:32 留言:0更新日期:2018-12-05 20:32
一种突发事件检测与预测的方法,包括:数据获取与预处理;文本表示与特征提取;采用ETCBS算法对文本聚类;构建事件生命周期模型。本发明专利技术有效克服由于设定单一阈值而产生的事件无法正确归类,忽略事件发展中的讨论内容的重心与关注点变化的问题,提高对新闻事件预测的准确率。本发明专利技术结合新闻事件的实际特点对传统算法进行改进,对讨论话题范围广泛的文本分类提升效果明显,以及针对不同发展过程的事件预测更加准确。通过对突发事件进行准确预测,紧急处理突发的自然灾害、事故和公共社会事件等,从而大大降低社会损失具有重要意义。

Detection and Prediction of Emergency Events

An emergency detection and prediction method includes: data acquisition and preprocessing; text representation and feature extraction; text clustering using ETCBS algorithm; and building event life cycle model. The invention effectively overcomes the problem that events caused by setting a single threshold can not be classified correctly, ignores the changes of the focus and focus of discussion in the development of events, and improves the accuracy of news event prediction. The invention improves the traditional algorithm according to the actual characteristics of news events, improves the text classification with a wide range of topics, and predicts events more accurately according to different development processes. It is of great significance to deal with unexpected natural disasters, accidents and public social events through accurate prediction of unexpected events, so as to greatly reduce social losses.

【技术实现步骤摘要】
突发事件检测与预测的方法
本专利技术涉及一种话题检测技术与话题跟踪技术。特别是涉及一种突发事件检测与预测的方法。
技术介绍
目前话题检测文本聚类所使用的算法主要分为两类:一类是增量聚类算法。增量聚类是维持或改变K个簇的结构。增量聚类算法只需要对新的数据进行聚类,不需要重新对所有数据聚类,因此在处理大量的新数据时算法执行效率高。增量聚类中典型算法为Single-Pass算法。传统的Single-Pass只设置了单一的固定阈值,现实情况中各类事件文本的相似度最佳聚类阈值不一定是一样的。因此采用Single-Pass算法对文本分类,当文本之间的相似度比较一致时,文本分类结果比较准确。但实际上新闻文本信息量巨大,表达方式存在差异,以及随着事件的进展,重心可能发生变化,因此单一阈值会影响到分类结果的准确性。另一类文本聚类方法是非增量聚类算法。非增量聚类初始化时将抽取的每个文本作为一个簇,剩余文本将其划分到与之距离最近的簇中,重新计算聚类的质心,重复这一过程,直到准则函数收敛。非增量聚类算法包括K-means算法和层次聚类算法等。K-means算法的伸缩性较好,计算复杂度低。缺点在于需要多次读取全部数据,另外只在处理球形的类时效果较好。层次聚类算法需要维持一个相似度矩阵,算法时间复杂度髙,在处理大数据集时效率较低。目前突发事件预测所使用的方法主要分为两类:一种是基于增长率预测。基于增长率预测对发展过程与理想能量变化曲线一致的事件预测准确率高,反之则适应性较低。由于新闻文档的到来时间不具有稳定性,能量值变化与新闻文档的到来呈现不确定性变化,在一阶增长率呈现明显波动变化的情况下,二阶增长率便具有更高的不确定性,难以进行计算。同时,对于每个事件从出现到成为热点事件所经历的时间长度不同,因此通过固定的增长率阈值的方式也会导致那些增长率较低但连续且稳定的热点事件难以被检测出来。另一类是基于时间序列预测。基于时间序列的生长曲线拟合方法能够直观的观察事物的变化情况,预测事物的发展趋势,但是由于数据规模、噪声等问题,很容易产生曲线过拟合的情况。
技术实现思路
本专利技术所要解决的技术问题是,提供一种能够提高对新闻事件预测的准确率的突发事件检测与预测的方法。本专利技术所采用的技术方案是:一种突发事件检测与预测的方法,包括如下步骤:1)数据获取与预处理;2)文本表示与特征提取;3)采用ETCBS算法对文本聚类;4)构建事件生命周期模型。步骤1)包括:(1)获取新闻信息包括新闻标题、新闻URL、新闻发布时间、新闻正文文本内容这四个主要信息:(2)对新闻数据进行降噪、去重和编码处理;(3)对汉字序列进行中文分词,按照中文规范分解为由单独的词语构成的序列。步骤2)包括:(1)采用向量空间模型又称词袋模型表示文本,通过一个向量用于表示文本,其中向量中每个位置表示一个单词,因此向量空间模型还需要一个字典,所述的字典就是向量中每个位置对应单词的集合;(2)特征词的权重采用词频逆文档率计算词语权重做特征提取,词频逆文档率的计算公式如下:TF-IDF(t,d)=TF(t,d)*IDF(t)(1)式中,TF(t)表示词语t在文档d中的频率,IDF(t)表示词语t在文档集合中的逆文档频率,TF-IDF(t,d)表示词语t在文档d中的词频逆文档率;(3)文档d1,d2的相似度采用余弦相似度计算公式如下:Sim(d1,d2)=V(d1)*V(d2)/(|V(d1)|*|V(d2)|)(2)式中,分子部分表示向量间点积,分母部分表示向量间欧几里得长度的乘积。步骤3)包括:(1)初始化文档集合与阈值Thre1、Thre2,设置最大文档相似度为0,输入新文档;(2)计算新文档与各集合的相似度,记录最大文档相似度与当前集合;(3)将最大文档相似度与设定的阈值Thre1与Thre2进行比较;如果最大文档相似度大于Thre1,直接将新文档加入到当前集合中;如果最大文档相似度小于Thre1且大于Thre2,则计算新文档与当前集合中的所有文档的相似度;如果相似度大于Thre1,则将新文档加入到当前集合之中,反之,算法终止。步骤4)包括:(1)确定预测能量区间[FA:FB],FA处在增长率曲线所在最大值处,FB处于能量值函数接近最大值处,选取G(x)函数,本专利技术采用的G(x)函数形式如下式:G(x)=a*x2+b*x+c(3)根据预测事件能量曲线函数值及一阶导数值,求得a=-0.225、b=0.315、c=-0.10025,参数a、b、c反映了G(x)函数变化趋势;(2)考虑能量变化的时间窗口,确定平滑窗口大小,以及对应权重向量C,对增长率进行平滑处理,平滑处理公式如下:其中Tt表示时间窗t处的实际增长率,Ci表示窗口i的增长率在计算中对应的权重;(3)判断事件最新的能量值是否属于区间[FA:FB],若属于,并且当前时间窗口的增长率大于G(x)函数值,则预测结果成为热点事件,反之预测结果不为热点事件。本专利技术的突发事件检测与预测的方法,有效克服由于设定单一阈值而产生的事件无法正确归类,忽略事件发展中的讨论内容的重心与关注点变化的问题。另一方面在于改进突发事件预测中基于增长率预测算法,提高对新闻事件预测的准确率。本专利技术为突发事件检测和预测方法提供了一种新的思路。结合新闻事件的实际特点对传统算法进行改进,对讨论话题范围广泛的文本分类提升效果明显,以及针对不同发展过程的事件预测更加准确。通过对突发事件进行准确预测,紧急处理突发的自然灾害、事故和公共社会事件等,从而大大降低社会损失具有重要意义。附图说明图1是本专利技术突发事件检测与预测的方法的流程图;图2是事件8增长率曲线图;图3是对图2中的增长率曲线平滑处理后的图。具体实施方式下面结合实施例和附图对本专利技术的突发事件检测与预测的方法做出详细说明。如图1所示,本专利技术的突发事件检测与预测的方法,包括如下步骤:1)数据获取与预处理;包括:(1)通过网络爬虫获取新闻数据,本专利技术选取的新闻数据来源有新浪新闻、凤凰资讯和中新网这三个国内主要新闻门户网站。获取新闻信息包括新闻标题、新闻URL、新闻发布时间、新闻正文文本内容这四个主要信息:(2)对新闻数据进行降噪、去重和编码处理;由于本专利技术采用JavaScript正则表达式匹配的方法对噪声进行过滤,主要过滤信息包括爬取站点的布局方式、文章的URL地址和JavaScript脚本代码。去重操作主通过对比新闻的标题、发表事件、正文内容将重复文档删除。采用UTF-8的编码格式保存新闻文本数据。(3)对汉字序列进行中文分词,按照中文规范分解为由单独的词语构成的序列。本专利技术采用北京理工大学张华平博士研制的NLPIR系统进行中文分词。该系统支持多种格式编码,支持用户自定义词库。分词处理后,本专利技术采用四川大学机器智能实验室的停用词表、哈工大停用词表、百度停用词表过滤掉不需要的停用词。2)文本表示与特征提取;包括:(1)采用向量空间模型又称词袋模型表示文本,通过一个向量用于表示文本,其中向量中每个位置表示一个单词,因此向量空间模型还需要一个字典,所述的字典就是向量中每个位置对应单词的集合;向量空间模型的表现形式形如[word1:weight1;word2:weight2;word3:weight3;:::],即一个词语所本文档来自技高网
...

【技术保护点】
1.一种突发事件检测与预测的方法,其特征在于,包括如下步骤:1)数据获取与预处理;2)文本表示与特征提取;3)采用ETCBS算法对文本聚类;4)构建事件生命周期模型。

【技术特征摘要】
1.一种突发事件检测与预测的方法,其特征在于,包括如下步骤:1)数据获取与预处理;2)文本表示与特征提取;3)采用ETCBS算法对文本聚类;4)构建事件生命周期模型。2.根据权利要求1所述的突发事件检测与预测的方法,其特征在于,步骤1)包括:(1)获取新闻信息包括新闻标题、新闻URL、新闻发布时间、新闻正文文本内容这四个主要信息:(2)对新闻数据进行降噪、去重和编码处理;(3)对汉字序列进行中文分词,按照中文规范分解为由单独的词语构成的序列。3.根据权利要求1所述的突发事件检测与预测的方法,其特征在于,步骤2)包括:(1)采用向量空间模型又称词袋模型表示文本,通过一个向量用于表示文本,其中向量中每个位置表示一个单词,因此向量空间模型还需要一个字典,所述的字典就是向量中每个位置对应单词的集合;(2)特征词的权重采用词频逆文档率计算词语权重做特征提取,词频逆文档率的计算公式如下:TF-IDF(t,d)=TF(t,d)*IDF(t)(1)式中,TF(t)表示词语t在文档d中的频率,IDF(t)表示词语t在文档集合中的逆文档频率,TF-IDF(t,d)表示词语t在文档d中的词频逆文档率;(3)文档d1,d2的相似度采用余弦相似度计算公式如下:Sim(d1,d2)=V(d1)*V(d2)/(|V(d1)|*|V(d2)|)(2)式中,分子部分表示向量间点积,分母部分表示向量间欧几里得长度的乘积。4.根据权利要求1所述的突发事件检...

【专利技术属性】
技术研发人员:李雪威沈红倩于瑞国于健赵满坤林榆旺
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1