【技术实现步骤摘要】
本专利技术涉及数据挖掘、自然语言处理和机器学习领域,尤其涉及一种基于增量聚 类的新闻话题挖掘方法及其装置。
技术介绍
随着互联网技术的迅猛发展,网络信息量正在以指数级速度迅速增长,网络已经 成为公众获取信息的主要来源。信息匮乏的窘境不仅不复存在;反之,信息量过载则成为当 前严重的问题。国外话题检测与跟踪(TDT)研究起步比国内早,是由美国于1997年首先发 起的,当时卡内基梅隆大学(CMU)等一流大学的众多知名学者参与其中,对TDT研究取得了 初步成果,获取了宝贵的经验。对于TDT的研究,国内比国外起步较晚,TDT系统评测会议 从1999年才开始引入汉语。2003年,北京大学的两位学者李保利和俞士汶对话题检测与跟 踪这一领域的研究现状和主要研究任务做了介绍,并重点介绍了 TDT的研究任务和主要技 术手段。目前国内的话题发现系统研究主要集中在微博和各大BBS中,主要是针对微博或 者BBS论坛使用者的情感进行分析,针对Web新闻的热点发现系统的研究比较少。而且现 有的聚类方法虽然有很多,但针对Web新闻的热点发现领域,仍然没有一个聚类算法,能兼 顾效率和 ...
【技术保护点】
一种基于增量聚类的新闻话题挖掘方法,其特征在于,所述挖掘方法包括以下步骤:对输入文本进行预处理;对预处理后文本进行特征提取,建立文本表示模型;计算文本表示模型之间的相似度大小,通过相似度进行话题聚类;对聚类结果进行排名,得到热点话题的中文排名结果;结合英文到中文的机器翻译,获取热点话题的英文排名结果;对中文排名结果和英文排名结果进行加权,获取热点话题的最终排名。
【技术特征摘要】
【专利技术属性】
技术研发人员:于瑞国,喻梅,谢晓东,杨龙,赵满坤,徐天一,
申请(专利权)人:天津大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。