一种新闻话题检测方法技术

技术编号:21891887 阅读:91 留言:0更新日期:2019-08-17 14:30
本发明专利技术涉及一种新闻话题检测方法包括:步骤1)对新闻语料集进行预处理,对文本信息进行关键词抽取;步骤2)采用抽取出的关键词集,通过聚类的方法,计算新闻报道与话题类簇之间的相似度,得到关键词类簇,选出具有代表性的关键词作为报道事件的关键词。本发明专利技术提供的新闻话题检测方法,提出了改进的相似度计算方法,采用抽取出的关键词集,通过聚类的方法,动态地调整新闻报道与话题的相似度,得到关键词类簇,选出具有代表性的关键词作为报道事件的关键词,用来完成新闻话题的检测,能够对新闻报道中的信息进行准确抽取,能够准确地自动检测新闻报道话题,使得话题能够自动更新并动态演化,检测效果好,可以很好地满足实际应用的需要。

A News Topic Detection Method

【技术实现步骤摘要】
一种新闻话题检测方法
本专利技术属于文本信息处理
,具体涉及一种新闻话题检测方法。
技术介绍
互联网的高速发展使得新闻事件无时无刻不在保持着高速、大量的更新。而门户网站更是为了能够更加快速的传递国内外的重要新闻报道消息,通过各自的网络媒体实时地向用户推送相关消息。借助于互联网,用户可以畅通无阻的接收到来自世界各地的新闻报道,之前信息匮乏的年代一去不复返。根据中国互联网络信息中心发布的《第39次中国互联网络发展状况统计报告》显示,中国网民规模于2016年底已经达到7.31亿,去年网民总共的增加数多达4299万人,互联网的普及也使得2016年的网络普及率上升到了53.2%,根据2015年的数据显示,相比2015年,普及率上升了2.9个百分点。而互联网移动设备的普及,如手机、平板电脑等产品,使得用户在闲暇时间能通过设备获得大量的新闻信息,然而在获得海量新闻报道的同时,用户也在海量的新闻报道中不知所措。尤其是当需要获得特定话题下的相关信息的时候,会出现无法准确快速的获得自己想要的内容,造成用户在面对海量新闻报道时感到茫然与困惑。综上所述,在信息爆炸的今天,新闻报道文本作为记载和传递信息的载体,通过对新闻报道文本的研究,将文本中所包括的信息抽取并总结,帮助用户能够对整个事件有更加清晰、全面的认识。因此准确的有效的文本信息检测与跟踪,可以让用户耗费更少的时间来准确把握当前发生重大事件的走向。而在21世纪,微博、新闻报道站点、个人站点的火速增长,能够迅速、准确的获得当前重大事件的进展情况以及信息流向,对国家和企业来说,有重要意义。随着各个领域的信息化快速发展,新闻话题检测在各个领域均成为了重点的研究方向。在过去,新闻报道信息都是通过人工的手段来进行识别、收集和汇总。这个过程不仅费时费力,而且有时候并没有对事件进行全面的了解,会片面的将旧话题的事件整理到新话题中去,从而导致了一些负面的影响。而在互联网爆炸的今天,人工的速度已然无法满足信息的增长速度。实时的监测新闻报道,能够同时检测多个新闻来源,通过汇总多个新闻来源的新闻报道,根据建立的话题模型,动态的分类新闻报道,将结果推送给订阅该话题的用户,而在这个过程中,如何准确、及时的分类相关报道,成为了研究的重要方向。而因为受到互联网网络信息特性的制约,如:海量无序性,信息表达不规范等问题,都是对新闻报道的信息进行有效抽取和识别过程中所面对的严峻问题。因此,如何对新闻报道中的信息进行抽取,如何能够准确地自动检测新闻报道话题,使得话题能够自动更新并动态演化都是研究过程中亟待解决的问题。
技术实现思路
针对上述现有技术中存在的问题,本专利技术的目的在于提供一种可避免出现上述技术缺陷的新闻话题检测方法。为了实现上述专利技术目的,本专利技术提供的技术方案如下:一种新闻话题检测方法,包括:对文本信息进行关键词抽取、计算新闻报道与话题类簇之间的相似度。进一步地,所述新闻话题检测方法包括:步骤1)对新闻语料集进行预处理,对文本信息进行关键词抽取;步骤2)采用抽取出的关键词集,通过聚类的方法,计算新闻报道与话题类簇之间的相似度,得到关键词类簇,选出具有代表性的关键词作为报道事件的关键词。进一步地,步骤1)包括:采用TFIDF和TextRank两个模型相结合的方法来进行关键词抽取;分别取权值最高的前十个关键词作为个体提取的关键词集,经过加权平均并归一化后,再挑选出权值前十的关键词得到构建模型中的关键词集合;将获得的关键词集进行归一化。进一步地,关键词抽取的方法具体为:对新闻报道进行预处理,将报道转换为词的格式,然后使用TFIDF算法和TextRank算法,设定加权公式,取得关键词的权重,获得每篇报道的关键词集合,完成新闻报道关键词的抽取。进一步地,加权平均公式如下:Wij=(1{Ci∈TFj}αTi+(1{Ci∈TRj})βRi;Wij表示第j个文本中的i个词的权重,Ci表示第i个词是否在TFIDF所计算的关键词集中,TFj表示第j个文本经过TFIDF计算后得到的关键词集,Ti表示在第j个文本的TFIDF关键词集中,词Ci的权重大小;TRj表示第j个文本经过TextRank计算后得到的关键词集,Ri表示在第j个文本的TextRank关键词集中词Ci的权重大小。进一步地,归一化公式为:其中Wij为加权后的关键词的权重,dj表示第j个报道,表示第j个文本所有关键词的权重的和,W′ij为归一化后该关键词的权重。进一步地,对关键词的抽取包括对新闻报道进行时间抽取的步骤,新闻报道中的时间包括绝对时间和相对时间;绝对时间具有时间单位和时间值,能够直接获得时间的准确时间,用如下公式来定义绝对时间:AT={Year:,M:,D:};用一个三元组来表示相对时间,如下:ET=(AT,P,COUNT);其中,AT表示该报道的绝对时间,若句子中没有绝对时间,则采用报道的时间作为绝对时间;P为偏移量,正值则表示是绝对时间以后的时间,负值表示绝对时间以前的时间;COUNT为偏移的数值。进一步地,步骤2)包括:将新闻报道转换为基于权重的特征向量,采用改进的相似度计算方法来计算新闻报道与话题类簇之间的相似度的公式如下:SIM(m,n)=α×sim(m,n)-0.01-β(Time1-Time2);其中,sim(m,n)表示当前新闻报道m与话题类簇n之间的相似度;(Time1-Time2)为当前新闻报道m中事件发生的时间Time1与话题类簇n中种子事件发生的时间Time2之间相隔的天数;α、β为调整因子;0.01为经验值;采用夹角余弦来计算新闻报道w与类簇M的相似度的计算公式如下:sim(w,M)=max(sim(w,Mi)),i=1,2,...,l;其中,w代表新闻报道,M代表话题类簇,l代表类簇M中的事件向量个数。进一步地,所述聚类的方法采用单通道聚类法。进一步地,所述新闻话题检测方法包括:步骤(1)对新闻语料集进行预处理,对文本信息进行关键词抽取;步骤(2)根据时间-事件模型的格式,对报道内容进行向量表示;步骤(3)对新文档进行相似度计算;步骤(4)若相似度大于阈值,则将对象分配到该类簇中;否则,创造出一个新的类簇,将该对象加入到新的类簇中;步骤(5)重复执行步骤(2)-步骤(4)直到数据流结束,过程结束。本专利技术提供的新闻话题检测方法,提出了改进的相似度计算方法,从事件的时间以及关键词的角度出发,采用抽取出的关键词集,通过聚类的方法,根据时间的长短,针对不同的新闻报道,动态地调整新闻报道与话题的相似度,得到关键词类簇,选出具有代表性的关键词作为报道事件的关键词,用来完成新闻话题的检测,能够对新闻报道中的信息进行准确抽取,能够准确地自动检测新闻报道话题,使得话题能够自动更新并动态演化,检测效果好,可以很好地满足实际应用的需要。附图说明图1为本专利技术方法的具体流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本专利技术做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。一种新闻话题检测方法,包括:步骤1)对新闻语料集进行预处理,对文本信息进行本文档来自技高网
...

【技术保护点】
1.一种新闻话题检测方法,其特征在于,包括:对文本信息进行关键词抽取、计算相似度。

【技术特征摘要】
1.一种新闻话题检测方法,其特征在于,包括:对文本信息进行关键词抽取、计算相似度。2.根据权利要求1所述的新闻话题检测方法,其特征在于,所述新闻话题检测方法包括:步骤1)对新闻语料集进行预处理,对文本信息进行关键词抽取;步骤2)采用抽取出的关键词集,通过聚类的方法,计算新闻报道与话题类簇之间的相似度,得到关键词类簇,选出具有代表性的关键词作为报道事件的关键词。3.根据权利要求1-2所述的新闻话题检测方法,其特征在于,步骤1)包括:采用TFIDF和TextRank两个模型相结合的方法来进行关键词抽取;分别取权值最高的前十个关键词作为个体提取的关键词集,经过加权平均并归一化后,再挑选出权值前十的关键词得到构建模型中的关键词集合;将获得的关键词集进行归一化。4.根据权利要求1-3所述的新闻话题检测方法,其特征在于,关键词抽取的方法具体为:对新闻报道进行预处理,将报道转换为词的格式,然后使用TFIDF算法和TextRank算法,设定加权公式,取得关键词的权重,获得每篇报道的关键词集合,完成新闻报道关键词的抽取。5.根据权利要求1-4所述的新闻话题检测方法,其特征在于,加权平均公式如下:Wij=(1{Ci∈TFj}αTi+(1{Ci∈TRj})βRi。6.根据权利要求1-5所述的新闻话题检测方法,其特征在于,归一化公式为:7.根据权利要求1-6所述的新闻话题检测方法,其特征在于,对关键词的抽取包括对新闻报道进行时间抽取的步骤,新闻报道中的时间包括绝对时间和相对时间;绝对时间具有时间单位和时间值,能够直接获得时间的准确时间,用如下公式来定义绝对时间:AT={Year:,...

【专利技术属性】
技术研发人员:吕学强游新冬董志安李宁
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1