An emergency detection and prediction method includes: data acquisition and preprocessing; text representation and feature extraction; text clustering using ETCBS algorithm; and building event life cycle model. The invention effectively overcomes the problem that events caused by setting a single threshold can not be classified correctly, ignores the changes of the focus and focus of discussion in the development of events, and improves the accuracy of news event prediction. The invention improves the traditional algorithm according to the actual characteristics of news events, improves the text classification with a wide range of topics, and predicts events more accurately according to different development processes. It is of great significance to deal with unexpected natural disasters, accidents and public social events through accurate prediction of unexpected events, so as to greatly reduce social losses.
【技术实现步骤摘要】
突发事件检测与预测的方法
本专利技术涉及一种话题检测技术与话题跟踪技术。特别是涉及一种突发事件检测与预测的方法。
技术介绍
目前话题检测文本聚类所使用的算法主要分为两类:一类是增量聚类算法。增量聚类是维持或改变K个簇的结构。增量聚类算法只需要对新的数据进行聚类,不需要重新对所有数据聚类,因此在处理大量的新数据时算法执行效率高。增量聚类中典型算法为Single-Pass算法。传统的Single-Pass只设置了单一的固定阈值,现实情况中各类事件文本的相似度最佳聚类阈值不一定是一样的。因此采用Single-Pass算法对文本分类,当文本之间的相似度比较一致时,文本分类结果比较准确。但实际上新闻文本信息量巨大,表达方式存在差异,以及随着事件的进展,重心可能发生变化,因此单一阈值会影响到分类结果的准确性。另一类文本聚类方法是非增量聚类算法。非增量聚类初始化时将抽取的每个文本作为一个簇,剩余文本将其划分到与之距离最近的簇中,重新计算聚类的质心,重复这一过程,直到准则函数收敛。非增量聚类算法包括K-means算法和层次聚类算法等。K-means算法的伸缩性较好,计算复杂度低。缺点在于需要多次读取全部数据,另外只在处理球形的类时效果较好。层次聚类算法需要维持一个相似度矩阵,算法时间复杂度髙,在处理大数据集时效率较低。目前突发事件预测所使用的方法主要分为两类:一种是基于增长率预测。基于增长率预测对发展过程与理想能量变化曲线一致的事件预测准确率高,反之则适应性较低。由于新闻文档的到来时间不具有稳定性,能量值变化与新闻文档的到来呈现不确定性变化,在一阶增长率呈现明显波动变化的 ...
【技术保护点】
1.一种突发事件检测与预测的方法,其特征在于,包括如下步骤:1)数据获取与预处理;2)文本表示与特征提取;3)采用ETCBS算法对文本聚类;4)构建事件生命周期模型。
【技术特征摘要】
1.一种突发事件检测与预测的方法,其特征在于,包括如下步骤:1)数据获取与预处理;2)文本表示与特征提取;3)采用ETCBS算法对文本聚类;4)构建事件生命周期模型。2.根据权利要求1所述的突发事件检测与预测的方法,其特征在于,步骤1)包括:(1)获取新闻信息包括新闻标题、新闻URL、新闻发布时间、新闻正文文本内容这四个主要信息:(2)对新闻数据进行降噪、去重和编码处理;(3)对汉字序列进行中文分词,按照中文规范分解为由单独的词语构成的序列。3.根据权利要求1所述的突发事件检测与预测的方法,其特征在于,步骤2)包括:(1)采用向量空间模型又称词袋模型表示文本,通过一个向量用于表示文本,其中向量中每个位置表示一个单词,因此向量空间模型还需要一个字典,所述的字典就是向量中每个位置对应单词的集合;(2)特征词的权重采用词频逆文档率计算词语权重做特征提取,词频逆文档率的计算公式如下:TF-IDF(t,d)=TF(t,d)*IDF(t)(1)式中,TF(t)表示词语t在文档d中的频率,IDF(t)表示词语t在文档集合中的逆文档频率,TF-IDF(t,d)表示词语t在文档d中的词频逆文档率;(3)文档d1,d2的相似度采用余弦相似度计算公式如下:Sim(d1,d2)=V(d1)*V(d2)/(|V(d1)|*|V(d2)|)(2)式中,分子部分表示向量间点积,分母部分表示向量间欧几里得长度的乘积。4.根据权利要求1所述的突发事件检...
【专利技术属性】
技术研发人员:李雪威,沈红倩,于瑞国,于健,赵满坤,林榆旺,
申请(专利权)人:天津大学,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。