【技术实现步骤摘要】
一种基于高频共现的热点话题识别方法
本专利技术涉及热点话题识别
,尤其涉及的是,一种基于高频共现的热点话题识别方法。
技术介绍
热点话题识别属于话题识别的具体运用,话题识别相关的研究主要集中在TDT评测,在TDT中,话题识别任务一般采用自动聚类的策略。传统的聚类策略一般把文本分词后表示成词向量,其本质是基于内容的,聚类形成的报道集合内部具有较高的相似性,数量大的集合可判为热点话题。由于传统的聚类具有时间复杂度高,对初始聚类中心高度敏感等缺陷,在实际热点话题识别中,大部分系统采用了改进型的聚类策略。近年,较多的学者开始注意到提及数、转发数、参与数和评论数等形式特征在热点话题识别中的重要作用,一些新的算法不断被提出来,比如基于时序特征的聚类策略。下面分别从基于内容、基于形式、形式与内容相结合3个方面分别综述。1基于内容的方法基于内容的热点话题识别主要采用k-means、增量和层次聚类的方法。标准的K-Means算法采用随机初始化聚类个数与聚类中心的方法,容易陷入局部最优。为获得最佳聚类个数与最有效的聚类中心 ...
【技术保护点】
1.一种基于高频共现的热点话题识别方法,其特征在于,包括以下/n步骤:/n步骤1:预处理与文本表示;分词、删除停用词和同义词、异形词替换;/n步骤2:以词种表示文本;统计词种,以词种表示文本,保证在某个文本集合中,词频的数目即为文本的数目;/n步骤3:在文本集合中统计词频,把含有最高词频的文本聚为一类;/n步骤4:把步骤3中获得的文本集合最高频词语删除后,在该类中重新统计词频,把含有最高频词的文本聚为一类;/n步骤5:重复步骤3和步骤4,直到满足以下3个条件之一:/na.最高词频小于阈值;/nb.重复到指定的次数;/nc.重复次数达到词数上限,或最高频次为1;/n步骤6:减 ...
【技术特征摘要】
1.一种基于高频共现的热点话题识别方法,其特征在于,包括以下
步骤:
步骤1:预处理与文本表示;分词、删除停用词和同义词、异形词替换;
步骤2:以词种表示文本;统计词种,以词种表示文本,保证在某个文本集合中,词频的数目即为文本的数目;
步骤3:在文本集合中统计词频,把含有最高词频的文本聚为一类;
步骤4:把步骤3中获得的文本集合最高频词语删除后,在该类中重新统计词频,把含有最高频词的文本聚为一类;
步骤5:重复步骤3和步骤4,直到满足以下3个条件之一:
a.最高词频小于阈值;
b.重复到指定的次数;
c.重复次数达到词数上限,或最高频次为1;
步骤6:减去步骤5中获得的聚类集合,余下的文本集合重复步骤3和步骤4,直到最高词频小于阈值,或者文本已经分完。
2.如权利要求1所述的基于高频共现的...
【专利技术属性】
技术研发人员:程南昌,陈凤英,杨柳,邹煜,宋康,
申请(专利权)人:中国传媒大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。