突发事件热点话题的识别与评估装置和方法制造方法及图纸

技术编号:8347909 阅读:228 留言:0更新日期:2013-02-21 01:19
一种突发事件热点话题的识别与评估装置和方法,该装置设有文本获取、文本表示、话题聚类和话题评估共四个单元组成部件,本发明专利技术创新特点是:对新闻报道正文的裁剪只提取标题、导语及相关特征等信息,就将其作为热点话题识别的有效样本集;与现有的全文提取进行对比实验的结果表明,两者的结果相近似,但本发明专利技术操作大大简化。还使用改进的特征权值计算模型,与经典模型比较,前者的执行效率更好和文本表示能力适应性更强。对聚类出的话题利用模型评估热度值,所计算出的热点话题符合预期效果,更适应于突发事件新闻报道的特征。总之,本发明专利技术装置和方法在处理突发事件新闻报道文本过程中,其计算复杂度、结果准确性和实时性方面都具有良好性能。

【技术实现步骤摘要】

本专利技术涉及文本数据挖掘领域中的话题检测与跟踪技术,确切的说,涉及一种在突发事件发生后,从互联网相关新闻报道文本中,识别出与突发事件相关联的热点话题,并对识别出的热点话题进行热度评估的装置与方法,用于为后续热点话题的追踪提供识别与评估该热点话题的方法,属于互联网话题检测与跟踪TDT (Topic Detection andTracking)的

技术介绍
话题检测与跟踪TDT技术是一种信息处理技术,旨在依据事件对语言文本信息流进行组织与利用的研究,也是为应对信息过载问题而提出的一项应用研究。TDT检测与跟踪的对象包括从特定时间和地点的事件、直到具备更多相关性外延的话题,相关的理论与·应用研究也从传统的时间识别,跨越到包含突发事件和后续报告的话题检测与跟踪。与一般信息检索或信息过滤不同,TDT关心的话题不是一个大的领域,而是一件非常具体的事情。为了区别语言上的概念,TDT评测对话题(Topic)、事件(Event)、活动(Activity)、报道(Story)和主题(Subject)都给出了下述定义事件(Event):由某些原因和条件所引起、发生在特定时间和特定地点的涉及某本文档来自技高网...

【技术保护点】
一种突发事件热点话题的识别与评估装置,其特征在于:该装置设有下述四个组成部件:文本获取单元、文本表示单元、话题聚类单元和话题评估单元,其中:文本获取单元,用于发生突发事件后,从各大新闻网站采集与该突发事件热点话题相关的新闻报道页面并进行文本处理,形成一组新闻文档集合存储于正文数据库,以供文本表示、话题聚类和话题评估三个单元进行后续处理;设有:页面爬取、正文提取和页面属性提取三个模块,以及爬取信息数据库与正文数据库;文本表示单元,用于完成文档的向量化处理:利用改进的文本特征权值计算方法建立数学模型并进行计算,以形成文本特征权值矩阵;设有:分词及词性标注、命名实体识别、词性/停用词过滤、特征权值计...

【技术特征摘要】

【专利技术属性】
技术研发人员:陈莉萍杜军平宋茂强
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1