当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于增量聚类的新闻话题挖掘方法及其装置制造方法及图纸

技术编号:12857732 阅读:91 留言:0更新日期:2016-02-12 15:06
本发明专利技术公开了一种基于增量聚类的新闻话题挖掘方法及其装置,所述挖掘方法包括:对输入文本进行预处理;对预处理后文本进行特征提取,建立文本表示模型;计算文本表示模型之间的相似度大小,通过相似度进行话题聚类;对聚类结果进行排名,得到热点话题的中文排名结果;结合英文到中文的机器翻译,获取热点话题的英文排名结果;对中文排名结果和英文排名结果进行加权,获取热点话题的最终排名。所述挖掘装置包括:建立模块、聚类模块、第一获取模块、第二获取模块和第三获取模块。本发明专利技术可以用于帮助网络新闻用户解决信息过载问题,为互联网监管部门的安全决策提供信息依据,有利于推动社会的长足发展和进步。

【技术实现步骤摘要】

本专利技术涉及数据挖掘、自然语言处理和机器学习领域,尤其涉及一种基于增量聚 类的新闻话题挖掘方法及其装置。
技术介绍
随着互联网技术的迅猛发展,网络信息量正在以指数级速度迅速增长,网络已经 成为公众获取信息的主要来源。信息匮乏的窘境不仅不复存在;反之,信息量过载则成为当 前严重的问题。国外话题检测与跟踪(TDT)研究起步比国内早,是由美国于1997年首先发 起的,当时卡内基梅隆大学(CMU)等一流大学的众多知名学者参与其中,对TDT研究取得了 初步成果,获取了宝贵的经验。对于TDT的研究,国内比国外起步较晚,TDT系统评测会议 从1999年才开始引入汉语。2003年,北京大学的两位学者李保利和俞士汶对话题检测与跟 踪这一领域的研究现状和主要研究任务做了介绍,并重点介绍了 TDT的研究任务和主要技 术手段。目前国内的话题发现系统研究主要集中在微博和各大BBS中,主要是针对微博或 者BBS论坛使用者的情感进行分析,针对Web新闻的热点发现系统的研究比较少。而且现 有的聚类方法虽然有很多,但针对Web新闻的热点发现领域,仍然没有一个聚类算法,能兼 顾效率和准确率让其达到一个平衡点。 即,现有的聚类算法多为针对新闻报道的在线聚类,更加注重的是算法的高效性, 虽然提高了聚类算法时间复杂度,但是算法的准确率却不尽人意。
技术实现思路
本专利技术提供了一种基于增量聚类的新闻话题挖掘方法及其装置,本专利技术提高了新 闻挖掘的准确率,详见下文描述: -种基于增量聚类的新闻话题挖掘方法,所述挖掘方法包括以下步骤: 对输入文本进行预处理;对预处理后文本进行特征提取,建立文本表示模型; 计算文本表示模型之间的相似度大小,通过相似度进行话题聚类; 对聚类结果进行排名,得到热点话题的中文排名结果; 结合英文到中文的机器翻译,获取热点话题的英文排名结果; 对中文排名结果和英文排名结果进行加权,获取热点话题的最终排名。 所述对预处理后文本进行特征提取,建立文本表示模型的步骤具体为: 将预处理后文本表示成计算机能够处理、且能够体现出文档特征的表示形式; 使用空间向量模型方法来建立预处理后的文本表示模型。 所述计算文本表示模型之间的相似度大小,通过相似度进行话题聚类的步骤具体 为: 以文档为单位,计算文档向量与话题向量的夹角及其相似度,如果话题集合不为 空,计算这篇报道与话题集合中所有话题之间的夹角,取夹角的最小值记做Smax ; 若Smax小于阈值T2,加入该话题并用这篇报道来更新该话题的特征词与权重; 或, 若Smax不小于阈值Τ2,大于阈值Τ1,在话题集合中创建一个新话题;或, 若Smax介于阈值Τ2与Tl之间,则把报道加入Smax对应的话题中。 -种基于增量聚类的新闻话题挖掘装置,所述挖掘装置包括: 建立模块,用于对输入文本进行预处理;对预处理后文本进行特征提取,建立文本 表不模型; 聚类模块,用于计算文本表示模型之间的相似度大小,通过相似度进行话题聚 类; 第一获取模块,用于对聚类结果进行排名,得到热点话题的中文排名结果; 第二获取模块,用于结合英文到中文的机器翻译,获取热点话题的英文排名结 果; 第三获取模块,用于对中文排名结果和英文排名结果进行加权,获取热点话题的 最终排名。 本专利技术提供的技术方案的有益效果是:本专利技术广泛的应用话题检测与跟踪技术, 如网络舆情信息监控、互联网金融分析、网络论坛信息监控和网络信息安全等,可以搜集来 自各个信息源的众多的、令人眼花缭乱的信息,通过数据挖掘对搜集到的信息进行分析处 理之后可以形成一目了然的、吸引大众的热点话题和找出突发事件,帮助网络新闻用户解 决信息过载问题,为互联网监管部门的安全决策提供信息依据,有利于推动社会的长足发 展和进步。【附图说明】 图1为一种基于增量聚类的新闻话题挖掘方法的流程图; 图2为本方法与传统增量聚类算法的准确率柱形对比图; 图3为本方法与传统增量聚类算法的召回率柱形对比图; 图4为本方法与传统增量聚类算法的F值柱形对比图; 图5为一种基于增量聚类的新闻话题挖掘装置的结构示意图。 附图中,各标号所代表的部件列表如下: 1 :建立模块; 2 :聚类模块; 3 :第一获取模块;4 :第二获取模块; 5 :第三获取模块。【具体实施方式】 为使本专利技术的目的、技术方案和优点更加清楚,下面对本专利技术实施方式作进一步 地详细描述。 热点话题检测的主要任务是从文本类新闻信息中获取新闻热点,并将新闻报道按 照其归属的热点事件分类,应用的技术主要是文本信息处理的相关技术:包括中文分词、文 本特征提取、文本相似度计算、聚类算法等,因此本专利技术实施例直接从文本信息处理涉及到 的几种技术入手展开研究。主要研究内容有以下几个方面: 首先,在中文分词方面,基于统计的分词方法拥有分词准确率高、分词结果歧义少 等优点,但是分词的结果也在一定程度上依赖于训练语料库的规模。对于一些新兴的网络 词汇只有在训练语料库中出现过才可以被识别出来,为了增加对新兴网络词汇的识别率, 必然要加大训练语料库的成本,这又在一定程度上降低了分词的效率。基于词典的机械分 词方法拥有效率高、易于实现的优点,但是由于没有关注词汇与上下文的关系,因而分词结 果准确率要低于基于统计的分词方法。在把二者简单结合后,使中文分词的准确率和效率 都能达到令人满意的结果的同时,又使当前的改进中文分词结果更适用于后续的热点话题 检测任务。 其次,对聚类算法的改进。为满足热点话题检测的需要,并克服经典单遍法 (Single-Pass)处理网络文本过程中易受输入顺序影响和精度较低的不足,本专利技术实施例 提出了一种基于经典Single-Pass聚类算法的改进方法,使其能够在效率与准确率之间达 到平衡,虽然较传统Single-Pass算法而言牺牲了一定的效率但换回了在准确率和召回率 上的提升。 最后,对话题聚类结果进行分析,得出一段时间内新闻的热度排名,并结合机器翻 译技术,把国外新闻门户网站对于中国新闻的报道翻译成中文文本,预处理后聚类得到国 外新闻排行,再通过一定加权方法结合到国内新闻排名中。分析国内外对新闻事件的关注 点不同,并一定程度上分析这种差异的深层原因。 加权方法如下: (^表示话题j的热度当前第1页1 2 3 4 本文档来自技高网...

【技术保护点】
一种基于增量聚类的新闻话题挖掘方法,其特征在于,所述挖掘方法包括以下步骤:对输入文本进行预处理;对预处理后文本进行特征提取,建立文本表示模型;计算文本表示模型之间的相似度大小,通过相似度进行话题聚类;对聚类结果进行排名,得到热点话题的中文排名结果;结合英文到中文的机器翻译,获取热点话题的英文排名结果;对中文排名结果和英文排名结果进行加权,获取热点话题的最终排名。

【技术特征摘要】

【专利技术属性】
技术研发人员:于瑞国喻梅谢晓东杨龙赵满坤徐天一
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1