【技术实现步骤摘要】
本专利技术涉及文本数据挖掘领域中的话题检测与跟踪技术,确切的说,涉及一种在突发事件发生后,从互联网相关新闻报道文本中,识别出与突发事件相关联的热点话题,并对识别出的热点话题进行热度评估的装置与方法,用于为后续热点话题的追踪提供识别与评估该热点话题的方法,属于互联网话题检测与跟踪TDT (Topic Detection andTracking)的
技术介绍
话题检测与跟踪TDT技术是一种信息处理技术,旨在依据事件对语言文本信息流进行组织与利用的研究,也是为应对信息过载问题而提出的一项应用研究。TDT检测与跟踪的对象包括从特定时间和地点的事件、直到具备更多相关性外延的话题,相关的理论与·应用研究也从传统的时间识别,跨越到包含突发事件和后续报告的话题检测与跟踪。与一般信息检索或信息过滤不同,TDT关心的话题不是一个大的领域,而是一件非常具体的事情。为了区别语言上的概念,TDT评测对话题(Topic)、事件(Event)、活动(Activity)、报道(Story)和主题(Subject)都给出了下述定义事件(Event):由某些原因和条件所引起、发生在特定时 ...
【技术保护点】
一种突发事件热点话题的识别与评估装置,其特征在于:该装置设有下述四个组成部件:文本获取单元、文本表示单元、话题聚类单元和话题评估单元,其中:文本获取单元,用于发生突发事件后,从各大新闻网站采集与该突发事件热点话题相关的新闻报道页面并进行文本处理,形成一组新闻文档集合存储于正文数据库,以供文本表示、话题聚类和话题评估三个单元进行后续处理;设有:页面爬取、正文提取和页面属性提取三个模块,以及爬取信息数据库与正文数据库;文本表示单元,用于完成文档的向量化处理:利用改进的文本特征权值计算方法建立数学模型并进行计算,以形成文本特征权值矩阵;设有:分词及词性标注、命名实体识别、词性/停 ...
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。