一种突发话题检测系统及方法技术方案

技术编号:23604920 阅读:45 留言:0更新日期:2020-03-28 05:57
本发明专利技术公开了一种突发话题检测系统及方法。该方法包括:文本数据输入,文本数据预处理,话题检测及话题突发性评估和突发话题检测结果输出。本发明专利技术能够从批量输入的新闻报道或社交媒体文本信息中,检测出突发话题,并评估其突发性程度,能够观察到事件是何时发生的,何时突然爆发,何时衰退的,并且支持中文、英文文档。

A burst topic detection system and method

【技术实现步骤摘要】
一种突发话题检测系统及方法
本专利技术属于数据处理领域,尤其涉及一种突发话题检测系统及方法。
技术介绍
当今计算机和网络技术技术发展十分迅速,互联网上有着许多的文本数据,例如微博的博文、各个新闻网站的文章等,这些文本数据中可能存在一些突发的话题。突发话题在互联网上的传播速度非常迅速,能够产生巨大的影响力,因此对突发话题进行检测是十分重要的。突发话题的检测是可以人工进行的,但是一方面工作量过于庞大,另一方面无法实时处理新的文本数据。
技术实现思路
本专利技术的目的在于,针对现有技术的不足,提出一种突发话题检测系统及方法,能够从批量输入的新闻报道或社交媒体文本信息中,检测出突发话题,并评估其突发性程度。一种突发话题检测方法,包括:文本数据输入:读取需要进行突发话题检测的文本数据文件。文本数据预处理,包括分词和去除停用词;如果是英文文档,则没有分词步骤;采用word2vector或bert向量方式进行词嵌入。话题检测及话题突发性评估,采用LAD模型算法进行话题检测;采用Kleinberg模型算法进行本文档来自技高网...

【技术保护点】
1.一种突发话题检测方法,其特征在于,包括以下步骤:/nS1:文本数据输入:读取需要进行话题突发性检测的文本数据文件;/nS2:文本数据预处理,包括以下子步骤:/nS21:如果文本数据是中文文档则对文本进行分词处理后进入步骤S22;如果文本是英文文档则直接进入步骤S22;/nS22:去除停用词;/nS3:话题检测及话题突发性评估;/nS4:突发话题检测结果输出。/n

【技术特征摘要】
1.一种突发话题检测方法,其特征在于,包括以下步骤:
S1:文本数据输入:读取需要进行话题突发性检测的文本数据文件;
S2:文本数据预处理,包括以下子步骤:
S21:如果文本数据是中文文档则对文本进行分词处理后进入步骤S22;如果文本是英文文档则直接进入步骤S22;
S22:去除停用词;
S3:话题检测及话题突发性评估;
S4:突发话题检测结果输出。


2.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S2所述文本数据预处理采用word2vector向量方式进行词嵌入。


3.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S2所述文本数据预处理采用bert向量方式进行词嵌入。


4.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S3所述话题检测采用LAD模型算法,得到一个文档在主题空间的一个向量表示,通过计算该向量与之前其他文本在主题空间的向量表示之间的距离,可以判断该文本样本是否属于新的话题。


5.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S3所述话题突发性评估采用Kleinberg模型算法,在LDA模型算法基础上,将一定时间片内出现的话题文档组成一个序列,然后对这个序列进行处理,得到一个新的话题状态序列,通过这个话题状态序列来判断该话题是否属于突发话题。


6.一种突发话题检测系统,其特征在于,包括文本数据输入模块、文本数据预处理模块、突发话题检测算法模块...

【专利技术属性】
技术研发人员:陈泽勇张治同姚松张莉
申请(专利权)人:成都迪普曼林信息技术有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1