一种基于增量聚类的新闻话题挖掘方法及其装置制造方法及图纸

技术编号：12857732 阅读：114 留言：0更新日期：2016-02-12 15:06

本发明专利技术公开了一种基于增量聚类的新闻话题挖掘方法及其装置，所述挖掘方法包括：对输入文本进行预处理；对预处理后文本进行特征提取，建立文本表示模型；计算文本表示模型之间的相似度大小，通过相似度进行话题聚类；对聚类结果进行排名，得到热点话题的中文排名结果；结合英文到中文的机器翻译，获取热点话题的英文排名结果；对中文排名结果和英文排名结果进行加权，获取热点话题的最终排名。所述挖掘装置包括：建立模块、聚类模块、第一获取模块、第二获取模块和第三获取模块。本发明专利技术可以用于帮助网络新闻用户解决信息过载问题，为互联网监管部门的安全决策提供信息依据，有利于推动社会的长足发展和进步。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据挖掘、自然语言处理和机器学习领域，尤其涉及一种基于增量聚类的新闻话题挖掘方法及其装置。
技术介绍
随着互联网技术的迅猛发展，网络信息量正在以指数级速度迅速增长，网络已经成为公众获取信息的主要来源。信息匮乏的窘境不仅不复存在；反之，信息量过载则成为当前严重的问题。国外话题检测与跟踪（TDT)研究起步比国内早，是由美国于1997年首先发起的，当时卡内基梅隆大学（CMU)等一流大学的众多知名学者参与其中，对TDT研究取得了初步成果，获取了宝贵的经验。对于TDT的研究，国内比国外起步较晚，TDT系统评测会议从1999年才开始引入汉语。2003年，北京大学的两位学者李保利和俞士汶对话题检测与跟踪这一领域的研究现状和主要研究任务做了介绍，并重点介绍了 TDT的研究任务和主要技术手段。目前国内的话题发现系统研究主要集中在微博和各大BBS中，主要是针对微博或者BBS论坛使用者的情感进行分析，针对Web新闻的热点发现系统的研究比较少。而且现有的聚类方法虽然有很多，但针对Web新闻的热点发现领域，仍然没有一个聚类算法，能兼顾效率和...

【技术保护点】
一种基于增量聚类的新闻话题挖掘方法，其特征在于，所述挖掘方法包括以下步骤：对输入文本进行预处理；对预处理后文本进行特征提取，建立文本表示模型；计算文本表示模型之间的相似度大小，通过相似度进行话题聚类；对聚类结果进行排名，得到热点话题的中文排名结果；结合英文到中文的机器翻译，获取热点话题的英文排名结果；对中文排名结果和英文排名结果进行加权，获取热点话题的最终排名。

【技术特征摘要】

【专利技术属性】
技术研发人员：于瑞国，喻梅，谢晓东，杨龙，赵满坤，徐天一，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人