一种基于高频共现的热点话题识别方法技术

技术编号：29675093 阅读：41 留言：0更新日期：2021-08-13 21:57

本发明专利技术公开了一种基于高频共现的热点话题识别方法，包括以下步骤：步骤1：预处理与文本表示；步骤2：统计词种，以词种表示文本；步骤3：在文本集合中统计词频，把含有最高频词的文本聚为一类；步骤4：把文本集合中的最高频词语删除后，在该集合中重新统计词频，把含有最高频词的文本聚为一类；步骤5：重复步骤3和步骤4，直到满足3个停止条件之一时得到一个话题聚类；步骤6：减去得到的聚类集合，余下的文本集合重复步骤3、步骤4和步骤5，直到最高词频小于阈值时聚类结束。本发明专利技术从媒体关注和情感倾向两个维度的变化来共同完成热点话题的趋势预测，在国家语言文字舆情监测系统中得到了实际的运用。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于高频共现的热点话题识别方法
本专利技术涉及热点话题识别
，尤其涉及的是，一种基于高频共现的热点话题识别方法。
技术介绍
热点话题识别属于话题识别的具体运用，话题识别相关的研究主要集中在TDT评测，在TDT中，话题识别任务一般采用自动聚类的策略。传统的聚类策略一般把文本分词后表示成词向量，其本质是基于内容的，聚类形成的报道集合内部具有较高的相似性，数量大的集合可判为热点话题。由于传统的聚类具有时间复杂度高，对初始聚类中心高度敏感等缺陷，在实际热点话题识别中，大部分系统采用了改进型的聚类策略。近年，较多的学者开始注意到提及数、转发数、参与数和评论数等形式特征在热点话题识别中的重要作用，一些新的算法不断被提出来，比如基于时序特征的聚类策略。下面分别从基于内容、基于形式、形式与内容相结合3个方面分别综述。1基于内容的方法基于内容的热点话题识别主要采用k-means、增量和层次聚类的方法。标准的K-Means算法采用随机初始化聚类个数与聚类中心的方法，容易陷入局部最优。为获得最佳聚类个数与最有效的聚类中心...

【技术保护点】
1.一种基于高频共现的热点话题识别方法，其特征在于，包括以下/n步骤：/n步骤1：预处理与文本表示；分词、删除停用词和同义词、异形词替换；/n步骤2：以词种表示文本；统计词种，以词种表示文本，保证在某个文本集合中，词频的数目即为文本的数目；/n步骤3：在文本集合中统计词频，把含有最高词频的文本聚为一类；/n步骤4：把步骤3中获得的文本集合最高频词语删除后，在该类中重新统计词频，把含有最高频词的文本聚为一类；/n步骤5：重复步骤3和步骤4，直到满足以下3个条件之一：/na.最高词频小于阈值；/nb.重复到指定的次数；/nc.重复次数达到词数上限，或最高频次为1；/n步骤6：减去步骤5中获得的聚类...

【技术特征摘要】
1.一种基于高频共现的热点话题识别方法，其特征在于，包括以下
步骤：
步骤1：预处理与文本表示；分词、删除停用词和同义词、异形词替换；
步骤2：以词种表示文本；统计词种，以词种表示文本，保证在某个文本集合中，词频的数目即为文本的数目；
步骤3：在文本集合中统计词频，把含有最高词频的文本聚为一类；
步骤4：把步骤3中获得的文本集合最高频词语删除后，在该类中重新统计词频，把含有最高频词的文本聚为一类；
步骤5：重复步骤3和步骤4，直到满足以下3个条件之一：
a.最高词频小于阈值；
b.重复到指定的次数；
c.重复次数达到词数上限，或最高频次为1；
步骤6：减去步骤5中获得的聚类集合，余下的文本集合重复步骤3和步骤4，直到最高词频小于阈值，或者文本已经分完。

2.如权利要求1所述的基于高频共现的...

【专利技术属性】
技术研发人员：程南昌，陈凤英，杨柳，邹煜，宋康，
申请(专利权)人：中国传媒大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人