【技术实现步骤摘要】
本发 明涉及主题模型、事件检测领域,尤其涉及一种基于主题模型的网络热点事件检测方法。
技术介绍
随着网络技术的快速发展和广泛应用,互联网逐渐成为人们获知信息的重要渠道,全球范围内每天都会有数以亿计的网络信息涌现,如何在海量网络信息中检测出突发热点事件已经成为了一个新兴的研究课题。传统的主题模型,如 PLSA(Probabilistic Latent Semantic Analysis)、 LDA(Latent Dirichlet Allocation)等,都可以用来对一个文档集进行主题挖掘,它们通过迭代计算,近似的描述出文档集中的每个主题。但是这些主题模型都是基于BOW (Bag Of Words)模型,只考虑了单词和文档的从属关系,忽略了单词和文档的时间信息,所以通过它们建模更容易得到时间无关的静态主题(如体育、娱乐、科技等),但很难得到时间相关的突发事件主题(如日本地震、911袭击等)。为了克服这一不足,Li等人提出了一种基于突发特征的突发热点事件检测方法, 将网络新闻标题聚类成若干个候选主题,然后根据定义的特征规则对候选主题进行筛选, 得到最终的突发事件主 ...
【技术保护点】
1.一种基于主题模型的网络突发热点事件检测方法,其特征在于包括如下步骤:1)首先对文档数据集进行分词处理,得到单词列表、文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵;2)根据文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵计算单词和文档的突发特性,并据此对数据集进行筛选;3)然后对筛选后的数据集进行主题建模得到突发热点事件的特征单词和特征文本;4)根据热点事件的特征单词、单词日期分布矩阵计算热点事件的关注度日期分布。
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。