【技术实现步骤摘要】
一种基于自动编码器的突发事件检测与预测方法
本专利技术涉及文本检测与预测领域,尤其涉及一种基于自动编码器的突发事件检测与预测方法。
技术介绍
目前在相关技术中,突发事件的文本表示技术主要是自动编码器(AutoEncoder)。在深度学习中,自动编码器用于训练阶段,对输入的数据进行特征转换,即将数据编码成另一种形式,然后在此基础上进行一系列学习。自动编码器的本质是利用隐藏层的网络节点重构出输入层的神经元,即使神经网络的输出尽可能地与网络的输入信息相似,在训练的过程中,使用反向传播的方法不断优化损失函数以获得更小的损失值。由于隐藏层中神经元之间的竞争,每个神经元变为专门识别特定的数据模式,所以就整体而言,自动编码器可以学习到有意义的文本表示。在图像数据集表示领域,自动编码器已经得到了广泛的应用并得到了比较好的效果。但是,由于文本十分复杂,例如:高维度,稀疏性和幂律词分布等,传统的自动编码器可能更倾向于学习文本的简单表示,它们在文本数据集上的表现尚未得到广泛研究。突发事件的检测技术主要是Single-Pass聚类技术。Single-Pass聚类算法的主要思想是依次来输入 ...
【技术保护点】
1.一种基于自动编码器的突发事件检测与预测方法,其特征在于,所述方法包括以下步骤:对数据文本进行中文分词与停用处理;将处理后的数据文本用文本向量表示,并对文本向量进行降维操作;计算当前文本与每个主题之间的相似度,并将文本与所有主题间的相似度从小到大进行排序,取相似度最大的值与阈值进行比较判断当前文本所属主题或重新建立新主题;计算话题热度值,将属于某一话题的新闻文本的第一次出现的时间窗与预测该话题成为热点话题的时间窗的差值小于指定阈值的事件归类到突发事件中。
【技术特征摘要】
1.一种基于自动编码器的突发事件检测与预测方法,其特征在于,所述方法包括以下步骤:对数据文本进行中文分词与停用处理;将处理后的数据文本用文本向量表示,并对文本向量进行降维操作;计算当前文本与每个主题之间的相似度,并将文本与所有主题间的相似度从小到大进行排序,取相似度最大的值与阈值进行比较判断当前文本所属主题或重新建立新主题;计算话题热度值,将属于某一话题的新闻文本的第一次出现的时间窗与预测该话题成为热点话题的时间窗的差值小于指定阈值的事件归类到突发事件中。2.根据权利要求1所述的一种基于自动编码器的突发事件检测与预测方法,其特征在于,所述计算话题热度值具体为:基于RD的能量衰减计算话题热度值。3.根据权利要求1所述的一种基于自动编码器的突发事件检测与预测方法,其特征在于,所述方法还包括:基于增长率预测突发事件,在判断某一主题是否为突发事件时,将该话题成为热点事件的时间窗与第一次出现属于该话题的新闻文本的时间窗进行对比。4.根据权利要求1所述的一种基于自动编码器的突发事件检测与预测方法,其特征在于,所述对文本向量进行降维操作具体为:在隐藏层加入阈值R,当隐藏层中的失败节点的能量值的绝对值大于给定的阈值R时,则将该节点看作是对自编码网络的学习有作用的;当失败神经元的激活值小于给定阈值R时,将失败神经元的激活值加到成功神经元上,并将失败神经元的值置...
【专利技术属性】
技术研发人员:于健,王帅杰,徐天一,高洁,赵满坤,喻梅,于瑞国,原旭莹,
申请(专利权)人:天津大学,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。