当前位置: 首页 > 专利查询>浙江大学专利>正文

基于主题模型的网络突发热点事件检测方法技术

技术编号:6971005 阅读:342 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于主题模型的网络突发热点事件检测方法。包括如下步骤:1)首先对文档数据集进行分词处理,得到单词列表、文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵;2)根据网络热点事件涌现过程中相关单词和文档的突发特性对数据集进行筛选;3)然后通过主题建模得到突发热点事件的特征单词和特征文本;4)计算出热点事件的关注度日期分布。和现有技术相比,本发明专利技术使用主题模型进行主题建模,可以更加准确的对主题事件进行描述,其次,本发明专利技术还引入了单词的突发特性计算方法,并据此对数据集进行筛选,从而过滤掉时间无关主题,得到真正的突发热点事件。

【技术实现步骤摘要】

本发 明涉及主题模型、事件检测领域,尤其涉及一种基于主题模型的网络热点事件检测方法。
技术介绍
随着网络技术的快速发展和广泛应用,互联网逐渐成为人们获知信息的重要渠道,全球范围内每天都会有数以亿计的网络信息涌现,如何在海量网络信息中检测出突发热点事件已经成为了一个新兴的研究课题。传统的主题模型,如 PLSA(Probabilistic Latent Semantic Analysis)、 LDA(Latent Dirichlet Allocation)等,都可以用来对一个文档集进行主题挖掘,它们通过迭代计算,近似的描述出文档集中的每个主题。但是这些主题模型都是基于BOW (Bag Of Words)模型,只考虑了单词和文档的从属关系,忽略了单词和文档的时间信息,所以通过它们建模更容易得到时间无关的静态主题(如体育、娱乐、科技等),但很难得到时间相关的突发事件主题(如日本地震、911袭击等)。为了克服这一不足,Li等人提出了一种基于突发特征的突发热点事件检测方法, 将网络新闻标题聚类成若干个候选主题,然后根据定义的特征规则对候选主题进行筛选, 得到最终的突发事件主题。这种方法虽然能够本文档来自技高网...

【技术保护点】
1.一种基于主题模型的网络突发热点事件检测方法,其特征在于包括如下步骤:1)首先对文档数据集进行分词处理,得到单词列表、文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵;2)根据文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵计算单词和文档的突发特性,并据此对数据集进行筛选;3)然后对筛选后的数据集进行主题建模得到突发热点事件的特征单词和特征文本;4)根据热点事件的特征单词、单词日期分布矩阵计算热点事件的关注度日期分布。

【技术特征摘要】

【专利技术属性】
技术研发人员:张寅邵健刘霄吴飞
申请(专利权)人:浙江大学
类型:发明
国别省市:86

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1