【技术实现步骤摘要】
一种突发话题检测系统及方法
本专利技术属于数据处理领域,尤其涉及一种突发话题检测系统及方法。
技术介绍
当今计算机和网络技术技术发展十分迅速,互联网上有着许多的文本数据,例如微博的博文、各个新闻网站的文章等,这些文本数据中可能存在一些突发的话题。突发话题在互联网上的传播速度非常迅速,能够产生巨大的影响力,因此对突发话题进行检测是十分重要的。突发话题的检测是可以人工进行的,但是一方面工作量过于庞大,另一方面无法实时处理新的文本数据。
技术实现思路
本专利技术的目的在于,针对现有技术的不足,提出一种突发话题检测系统及方法,能够从批量输入的新闻报道或社交媒体文本信息中,检测出突发话题,并评估其突发性程度。一种突发话题检测方法,包括:文本数据输入:读取需要进行突发话题检测的文本数据文件。文本数据预处理,包括分词和去除停用词;如果是英文文档,则没有分词步骤;采用word2vector或bert向量方式进行词嵌入。话题检测及话题突发性评估,采用LAD模型算法进行话题检测;采用Klein ...
【技术保护点】
1.一种突发话题检测方法,其特征在于,包括以下步骤:/nS1:文本数据输入:读取需要进行话题突发性检测的文本数据文件;/nS2:文本数据预处理,包括以下子步骤:/nS21:如果文本数据是中文文档则对文本进行分词处理后进入步骤S22;如果文本是英文文档则直接进入步骤S22;/nS22:去除停用词;/nS3:话题检测及话题突发性评估;/nS4:突发话题检测结果输出。/n
【技术特征摘要】
1.一种突发话题检测方法,其特征在于,包括以下步骤:
S1:文本数据输入:读取需要进行话题突发性检测的文本数据文件;
S2:文本数据预处理,包括以下子步骤:
S21:如果文本数据是中文文档则对文本进行分词处理后进入步骤S22;如果文本是英文文档则直接进入步骤S22;
S22:去除停用词;
S3:话题检测及话题突发性评估;
S4:突发话题检测结果输出。
2.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S2所述文本数据预处理采用word2vector向量方式进行词嵌入。
3.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S2所述文本数据预处理采用bert向量方式进行词嵌入。
4.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S3所述话题检测采用LAD模型算法,得到一个文档在主题空间的一个向量表示,通过计算该向量与之前其他文本在主题空间的向量表示之间的距离,可以判断该文本样本是否属于新的话题。
5.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S3所述话题突发性评估采用Kleinberg模型算法,在LDA模型算法基础上,将一定时间片内出现的话题文档组成一个序列,然后对这个序列进行处理,得到一个新的话题状态序列,通过这个话题状态序列来判断该话题是否属于突发话题。
6.一种突发话题检测系统,其特征在于,包括文本数据输入模块、文本数据预处理模块、突发话题检测算法模块...
【专利技术属性】
技术研发人员:陈泽勇,张治同,姚松,张莉,
申请(专利权)人:成都迪普曼林信息技术有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。