一种基于高频共现的热点话题识别方法技术

技术编号:29675093 阅读:30 留言:0更新日期:2021-08-13 21:57
本发明专利技术公开了一种基于高频共现的热点话题识别方法,包括以下步骤:步骤1:预处理与文本表示;步骤2:统计词种,以词种表示文本;步骤3:在文本集合中统计词频,把含有最高频词的文本聚为一类;步骤4:把文本集合中的最高频词语删除后,在该集合中重新统计词频,把含有最高频词的文本聚为一类;步骤5:重复步骤3和步骤4,直到满足3个停止条件之一时得到一个话题聚类;步骤6:减去得到的聚类集合,余下的文本集合重复步骤3、步骤4和步骤5,直到最高词频小于阈值时聚类结束。本发明专利技术从媒体关注和情感倾向两个维度的变化来共同完成热点话题的趋势预测,在国家语言文字舆情监测系统中得到了实际的运用。

【技术实现步骤摘要】
一种基于高频共现的热点话题识别方法
本专利技术涉及热点话题识别
,尤其涉及的是,一种基于高频共现的热点话题识别方法。
技术介绍
热点话题识别属于话题识别的具体运用,话题识别相关的研究主要集中在TDT评测,在TDT中,话题识别任务一般采用自动聚类的策略。传统的聚类策略一般把文本分词后表示成词向量,其本质是基于内容的,聚类形成的报道集合内部具有较高的相似性,数量大的集合可判为热点话题。由于传统的聚类具有时间复杂度高,对初始聚类中心高度敏感等缺陷,在实际热点话题识别中,大部分系统采用了改进型的聚类策略。近年,较多的学者开始注意到提及数、转发数、参与数和评论数等形式特征在热点话题识别中的重要作用,一些新的算法不断被提出来,比如基于时序特征的聚类策略。下面分别从基于内容、基于形式、形式与内容相结合3个方面分别综述。1基于内容的方法基于内容的热点话题识别主要采用k-means、增量和层次聚类的方法。标准的K-Means算法采用随机初始化聚类个数与聚类中心的方法,容易陷入局部最优。为获得最佳聚类个数与最有效的聚类中心,国内外许多学者就这个问题进行了较多的研究。TaoLi等人在2004年对如何自动预测文本集合的聚类个数进行了研究,Likas等人在2003年则对初始聚点的选择提出了新的方案。增量聚类算法中,一般采用single-pass在1998年方法,马国栋在2014年改进了single-pass聚类质心不唯一的缺陷,提高了热点话题识别的速度,但其仅以词数较多的质心为唯一质心的做法仍需进一步研究。层次聚类算法一般采用自下而上的凝聚聚类策略,刘星星2008年提出了一种在多策略优化基础上的增量多层聚类的热点话题发现算法,算法的创新之处在于以凝聚聚类的微类为增量聚类的初始种子,结合了层次聚类与增量聚类的优点,通过腾讯网一年的数据的测试显示该方法具有较好的可行性,该方法时间复杂度较高。此外还有通过关键词或词频的方法,比如周亚东在2007年提出了通过对网络连接中流量的监控,以任意2个高频度词语的同时出现次数为基本热度度量,以此识别热点话题,该方法需在路由器上监测流量数据,主要适用于政府或者学校等网络管理部门。2基于形式特征的方法基于形式特征的方法对文本内容分析较少,代表性的算法是基于话题的提及(mention)数、评论数等时序变化特征的聚类方法。、Yangetal.在2011年在大量的新闻、博客、Twitter数据上对话题的关注度进行了分析,以话题在一定时间范围被提及的数量变化为基础,制定了K-SpectralCentroid(K-SC)算法。实验证明该方法在话题关注度的判别上具有较高的精度,并且能较好地刻画话题的趋势变化。但该方法对初始类矩阵中心高度敏感,并且时间复杂度较高。韩忠明等2012年在Yang等人2011年的基础上提出了WKSC(Wavelet-BasedK_SCAlgorithm)算法,用Haar小波变换将原始时间序列进行压缩,降低原始时间序列的维度;在Haar反小波变换中,将低维聚类返回得到的矩阵中心作为高维聚类的初始矩阵中心,在迭代聚类过程中优化了对初始矩阵中心高敏感性的问题,提高了聚类的效果。该文把话题的热度定义为一定时间间隔内的评论数和相关报道数,而在实际的实验中仅以评论数为热度指标,评论数的变化显示的主要是用户的关注热度,而相关报道显示的是不同媒体的关注热度,因此仅以评论数为热度指标并不能完全反映话题的热度。周而重在2010年提出了基于用户视角的博客热点识别方法,通过话题的持续时间、成长程度、用户参与度和话题的新颖性来度量话题的热度,该方法各参数的获取较为复杂。3内容与形式相结合的方法李恒训在2009年分析了话题热度的决定参数,以主题词为基础结合热点话题决定参数中的形式特征(浏览数、评论数),制定了多维特征融合的热点话题识别方法。该方法以主题词表为基础,通过多重过滤从标题和文本中各选取两个主题词代表整个文本,以获得的主题词为基础查询其他文本的标题,当其他文本的标题中含有所获得的主题词时,则聚为一类。该算法具有较高的时效性和准确度,实用性较强,但其对所获得的主题词的精度要求较高,且对初始主题词表有较大依赖性。罗亚平在2007年对用户浏览行为进行量化,在传统词向量采用TF/IDF值的基础上,添加用户浏览行为信息。该文所指的浏览行为如阅读时间、评论、收藏等,其中用户阅读时间等参数的获取难度较大。彭菲菲在2013年提出了基于特征优化的热点话题过滤算法,该方法以基丁蚁群优化的迭代自适应聚类算法为基础,同时结合不同用户对话题的发布、转发量多个特征,对热点话题进行过滤。以上从内容与形式两个方面综述了热点话题识别方法。基于内容的方法通过相似度计算实现对话题的归类,可获得某个话题相关(相同)的一系列报道的数量,但算法较为复杂,时间复杂度较高。基于形式特征的方法较少分析文本内容,评论数、提及数等参数的动态变化较为直接地显示了新闻的热度变化,在速度上要优于基于内容的方法,在热点话题识别上具有一定的优势,但其显示的仅为单条新闻报道的热度,并不能完全代表整个话题的热度变化,并且,大规模的记录海量网络新闻的时序特征具有相当的难度。归纳起来,当前热点话题识别算法的不足主要有3点:(1)传统的聚类策略时间和空间复杂度较高,不利于实时的热点发现;(2)改进的聚类策略自定义的参数获取复杂,可操作性不强;(3)对判定话题热度的形式特征缺乏系统的研究。因此,现有技术存在缺陷,需要改正。
技术实现思路
本专利技术提供一种基于高频共现的热点话题识别方法,在热点话题识别的基础上,本专利技术从媒体关注和情感倾向两个维度的变化来共同完成热点话题的趋势预测。即媒体对热点话题的关注在当前状态下是趋向于上升,还是趋向于下降,公众对热点话题的情感倾向在时序变化的同时,是趋向于正面,还是趋向于负面。本专利技术的技术方案如下:一种基于高频共现的热点话题识别方法包括以下步骤:步骤1:预处理与文本表示;分词、删除停用词和同义词、异形词替换;步骤2:以词种表示文本;统计词种,以词种表示文本,保证在某个文本集合中,词频的数目即为文本的数目;步骤3:在文本集合中统计词频,把含有最高词频的文本聚为一类;步骤4:把步骤3中获得的文本集合最高频词语删除后,在该类中重新统计词频,把含有最高频词的文本聚为一类;步骤5:重复步骤3和步骤4,直到满足以下3个条件之一:a.最高词频小于阈值;b.重复到指定的次数;c.重复次数达到词数上限,或最高频次为1;步骤6:减去步骤5中获得的聚类集合,余下的文本集合重复步骤3和步骤4,直到最高词频小于阈值,或者文本已经分完。上述中,所述步骤1中的替换是以哈尔滨工业大学同义词词林为基础,并根据具体领域进行了一定的调整。上述中,所述步骤3中的词频数量即为文本数量。上述中,所述步骤3中,统计词频具体为:高频词共现次数越多,所获得的类中的成员相似性度越大,其结果类似于凝聚层次聚类形成的微类。上述中,所述高频词共现是指,在实现本文档来自技高网
...

【技术保护点】
1.一种基于高频共现的热点话题识别方法,其特征在于,包括以下/n步骤:/n步骤1:预处理与文本表示;分词、删除停用词和同义词、异形词替换;/n步骤2:以词种表示文本;统计词种,以词种表示文本,保证在某个文本集合中,词频的数目即为文本的数目;/n步骤3:在文本集合中统计词频,把含有最高词频的文本聚为一类;/n步骤4:把步骤3中获得的文本集合最高频词语删除后,在该类中重新统计词频,把含有最高频词的文本聚为一类;/n步骤5:重复步骤3和步骤4,直到满足以下3个条件之一:/na.最高词频小于阈值;/nb.重复到指定的次数;/nc.重复次数达到词数上限,或最高频次为1;/n步骤6:减去步骤5中获得的聚类集合,余下的文本集合重复步骤3和步骤4,直到最高词频小于阈值,或者文本已经分完。/n

【技术特征摘要】
1.一种基于高频共现的热点话题识别方法,其特征在于,包括以下
步骤:
步骤1:预处理与文本表示;分词、删除停用词和同义词、异形词替换;
步骤2:以词种表示文本;统计词种,以词种表示文本,保证在某个文本集合中,词频的数目即为文本的数目;
步骤3:在文本集合中统计词频,把含有最高词频的文本聚为一类;
步骤4:把步骤3中获得的文本集合最高频词语删除后,在该类中重新统计词频,把含有最高频词的文本聚为一类;
步骤5:重复步骤3和步骤4,直到满足以下3个条件之一:
a.最高词频小于阈值;
b.重复到指定的次数;
c.重复次数达到词数上限,或最高频次为1;
步骤6:减去步骤5中获得的聚类集合,余下的文本集合重复步骤3和步骤4,直到最高词频小于阈值,或者文本已经分完。


2.如权利要求1所述的基于高频共现的...

【专利技术属性】
技术研发人员:程南昌陈凤英杨柳邹煜宋康
申请(专利权)人:中国传媒大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1