当前位置: 首页 > 专利查询>福州大学专利>正文

一种融合全局事件关系信息的微博客事件谣言检测方法技术

技术编号:21184655 阅读:17 留言:0更新日期:2019-05-22 15:15
本发明专利技术涉及一种融合全局事件关系信息的微博客事件谣言检测方法,提供一文本数据预处理模块,用以获得微博客事件的微博文本的段落向量;提供一事件特征自动抽取模块,用以抽取出微博客事件的特征向量;提供一全局事件关系特征抽取模块,用以得到事件全局关系信息的事件向量表示;提供一分类结果输出模块,用以拼接出最终的事件向量并通过分类函数得到微博客事件最终的谣言检测结果;能够较好地进行微博客事件类别的分析且通用性强,能站在在数据使用者的角度进行谣言检测。

A Microblog Event Rumor Detection Method Fusing Global Event Relation Information

The invention relates to a microblog event rumor detection method integrating global event relationship information, providing a text data preprocessing module for obtaining paragraph vectors of microblog event text, an event feature automatic extraction module for extracting feature vectors of microblog event, and a global event relationship feature extraction module for obtaining event-wide. The event vector representation of bureau relationship information; the output module of classification results is provided to stitch up the final event vectors and get the final rumor detection results of microblog events through classification functions; it can better analyze the types of microblog events and has strong versatility, and can stand in the perspective of data users for rumor detection.

【技术实现步骤摘要】
一种融合全局事件关系信息的微博客事件谣言检测方法
本专利技术涉及社交媒体分析和谣言检测领域,特别是一种融合全局事件关系信息的微博客事件谣言检测方法。
技术介绍
近年来,微博客谣言事件检测得到了国内外许多学者和研究机构的高度重视。微博客谣言事件检测利用了微博客事件相关的微博信息和用户信息,进行微博客谣言事件检测,能够站在数据使用者的角度进行谣言检测,提供更加细粒度的信息,有效提高谣言检测系统提供的分析结果的准确程度,有助于为研判人员提供更加有效而准确的信息。这就对微博客谣言事件检测技术提出了一个挑战:如何构建一个有效的微博客谣言事件检测原型系统来满足其需要。因此,人们迫切希望有一种准确高效的微博客谣言事件检测方法。当前,有很多技术方法可用于谣言检测。传统的谣言检测方法从人工定义特征的角度出发,通用性较差。区别于传统的谣言检测方法,如何利用神经网络模型,自动提取微博客事件特征,并整合来自传统模型的潜在特征,是微博客谣言事件检测的问题关键。传统的研究工作主要是基于有监督的机器学习的方法,该方法通过构建微博客事件相关的特征,使用决策树或支持向量机分类器进行事件分类,提高了谣言检测结果。这一类基于特征工程的方法虽然取得了一定的成效,但是需要耗费大量资源,并且受限于人工设计的规则,故而其性能还有待提升。当前,随着深度学习的快速发展,基于神经网络模型在语义表示与谣言检测运用方面更具优势。许多研究者们也将这些模型用于微博客事件分类。神经网络模型与机器学习方法相比,能够自动从数据中学习事件特征,避免了大量的特征工程,在捕获视角和上下文之间复杂的语义关系方面也有更好的拓展性。但传统的神经网络谣言检测模型只是自动提取事件中的时间相关特征用于谣言检测,没有充分考虑先前在机器学习中得到较好谣言检测效果的潜在特征,不能充分利用微博客事件的信息。基于神经网络模型的谣言检测方法未充分考虑事件之间的全局关系信息。
技术实现思路
有鉴于此,本专利技术的目的是提出一种融合全局事件关系信息的微博客事件谣言检测方法,能够自动抽取出有效特征,并对特征进行抽象和组合,最终识别出微博客事件是否是谣言。本专利技术采用以下方案实现:一种融合全局事件关系信息的微博客事件谣言检测方法,提供一文本数据预处理模块,用以获得微博客事件的微博文本的段落向量;提供一事件特征自动抽取模块,用以抽取出微博客事件的特征向量;提供一全局事件关系特征抽取模块,用以得到事件全局关系信息的事件向量表示;提供一分类结果输出模块,用以拼接出最终的事件向量并通过分类函数得到微博客事件最终的谣言检测结果;利用上述各模块进行微博客谣言事件检测的方法具体包括如下步骤:步骤S1:获取微博客事件,所述文本数据预处理模块利用gensim的doc2vec工具对所述微博客事件中的微博文本进行训练得到微博文本段落向量;步骤S2:所述事件特征自动抽取模块将微博客事件中的微博序列按照时间段进行划分并进行特征抽取,抽取出微博客事件的特征向量,从而得到微博客事件的向量表示;步骤S3:利用所述全局事件关系特征抽取模块获取包含事件全局关系信息的事件向量表示;步骤S4:所述分类结果输出模块将所述步骤S2得到的微博客事件的向量与所述步骤S3得到的事件全局关系信息的事件向量进行拼接得到最终的事件向量,并利用sigmoid分类函数对所述最终的事件向量逐一计算,得到微博客事件最终的谣言检测结果。进一步地,所述步骤S1具体还包括以下内容:根据对所述微博客事件按照时间段进行划分,然后将每个时间段的微博文本以及每条微博各作为一段话;预处理后,通过查表即可将每段文本从文本形式转换成文本段落向量形式。进一步地,步骤S2中所述事件特征自动抽取模块包括带有注意力机制的简单循环单元网络层和注意力层;所述带有注意力机制的简单循环单元网络层利用简单循环单元网络对微博序列和时间段序列进行建模,并利用所述注意力层对所述微博序列和所述时间段序列施加微博注意力和时间段注意力,并整合质疑更正信号微博的比例、个人描述的用户比例、平均用户声望、微博数量和认证的用户比例特征,最终得到微博客事件的向量表示。进一步地,所述的注意力层包含softmax层,所述softmax层对由简单循环单元网络层在各个时刻输出的向量进行处理,得到微博序列中每条微博的注意力分布和时间段序列中每个时间段的注意力分布。进一步地,步骤S3中所述全局事件关系特征抽取模块包括张量构建和张量分解两个部分;所述张量构建利用所述微博客事件之间的全局关系信息,构建事件关联矩阵,之后,将所述事件关联矩阵作为张量片,构建出张量;最后,利用Rescal张量分解算法对所述张量进行分解,挖掘事件的全局关系信息,得到包含事件全局关系信息的事件向量表示。进一步地,所述事件关联矩阵具体内容为:包括两个事件的用户群体可信度的差异程度、两个事件的文本可信度的差异程度、两个事件的用户群体的重合度以及两个事件的其他全局关系。进一步地,所述步骤S4具体还包括以下内容:利用sigmoid分类函数对所述最终的事件向量逐一计算,根据设定的阈值得到该微博客事件预测值;在训练阶段,需要利用损失函数计算预测值与目标值的误差,并利用Adam优化算法对所述文本数据预处理模块、所述事件特征自动抽取模块、所述全局事件关系特征抽取模块和所述分类结果输出模块的参数进行迭代更新;若误差不再减小或达到100次迭代次数,则结束训练阶段,否则继续进行下一次的迭代;所述损失函数为:其中,Lj表示的是第j个事件的真实标签,而表示的是第j个事件的预测标签,θ是模型参数集合,该集合中包括了简单循环单元网络层和注意力层以及全连接层的权重;N是训练集中事件的数量。与现有技术相比,本专利技术有以下有益效果:本专利技术能够自动抽取出有效特征,并对特征进行抽象和组合,最终识别出微博客事件是否是谣言。能够较好地进行微博客事件类别的分析且通用性强,能站在在数据使用者的角度进行谣言检测。附图说明图1为本专利技术实施例的总体结构图。具体实施方式下面结合附图及实施例对本专利技术做进一步说明。如图1所示,本实施例提供了一种融合全局事件关系信息的微博客事件谣言检测方法,提供一文本数据预处理模块,用以获得微博客事件的微博文本的段落向量;提供一事件特征自动抽取模块,用以抽取出微博客事件的特征向量;提供一全局事件关系特征抽取模块,用以得到事件全局关系信息的事件向量表示;提供一分类结果输出模块,用以拼接出最终的事件向量并通过分类函数得到微博客事件最终的谣言检测结果;利用上述各模块进行微博客谣言事件检测的方法具体包括如下步骤:步骤S1:获取微博客事件,所述文本数据预处理模块利用gensim的doc2vec工具对所述微博客事件中的微博文本进行训练得到微博文本段落向量;步骤S2:所述事件特征自动抽取模块将微博客事件中的微博序列按照时间段进行划分并进行特征抽取,抽取出微博客事件的特征向量,从而得到微博客事件的向量表示;步骤S3:利用所述全局事件关系特征抽取模块获取包含事件全局关系信息的事件向量表示;步骤S4:所述分类结果输出模块将所述步骤S2得到的微博客事件的向量与所述步骤S3得到的事件全局关系信息的事件向量进行拼接得到最终的事件向量,并利用sigmoid分类函数对所述最终的事件向量逐一计算,得到微博客事件最终的谣言检测结本文档来自技高网
...

【技术保护点】
1.一种融合全局事件关系信息的微博客事件谣言检测方法,其特征在于:提供一文本数据预处理模块,用以获得微博客事件的微博文本的段落向量;提供一事件特征自动抽取模块,用以抽取出微博客事件的特征向量;提供一全局事件关系特征抽取模块,用以得到事件全局关系信息的事件向量表示;提供一分类结果输出模块,用以拼接出最终的事件向量并通过分类函数得到微博客事件最终的谣言检测结果;利用上述各模块进行微博客谣言事件检测的方法具体包括如下步骤:步骤S1:获取微博客事件,所述文本数据预处理模块利用gensim的doc2vec工具对所述微博客事件中的微博文本进行训练得到微博文本段落向量;步骤S2:所述事件特征自动抽取模块将所述微博客事件中的微博序列按照时间段进行划分并进行特征抽取,抽取出所述微博客事件的特征向量,从而得到微博客事件的向量表示;步骤S3:利用所述全局事件关系特征抽取模块获取包含事件全局关系信息的事件向量表示;步骤S4:所述分类结果输出模块将所述步骤S2得到的微博客事件的向量与所述步骤S3得到的事件全局关系信息的事件向量进行拼接得到最终的事件向量,并利用sigmoid分类函数对所述最终的事件向量逐一计算,得到微博客事件最终的谣言检测结果。...

【技术特征摘要】
1.一种融合全局事件关系信息的微博客事件谣言检测方法,其特征在于:提供一文本数据预处理模块,用以获得微博客事件的微博文本的段落向量;提供一事件特征自动抽取模块,用以抽取出微博客事件的特征向量;提供一全局事件关系特征抽取模块,用以得到事件全局关系信息的事件向量表示;提供一分类结果输出模块,用以拼接出最终的事件向量并通过分类函数得到微博客事件最终的谣言检测结果;利用上述各模块进行微博客谣言事件检测的方法具体包括如下步骤:步骤S1:获取微博客事件,所述文本数据预处理模块利用gensim的doc2vec工具对所述微博客事件中的微博文本进行训练得到微博文本段落向量;步骤S2:所述事件特征自动抽取模块将所述微博客事件中的微博序列按照时间段进行划分并进行特征抽取,抽取出所述微博客事件的特征向量,从而得到微博客事件的向量表示;步骤S3:利用所述全局事件关系特征抽取模块获取包含事件全局关系信息的事件向量表示;步骤S4:所述分类结果输出模块将所述步骤S2得到的微博客事件的向量与所述步骤S3得到的事件全局关系信息的事件向量进行拼接得到最终的事件向量,并利用sigmoid分类函数对所述最终的事件向量逐一计算,得到微博客事件最终的谣言检测结果。2.根据权利要求1所述的一种融合全局事件关系信息的微博客事件谣言检测方法,其特征在于:所述步骤S1具体还包括以下内容:根据对所述微博客事件按照时间段进行划分,然后将每个时间段的微博文本以及每条微博各作为一段话;预处理后,通过查表即可将每段文本从文本形式转换成文本段落向量形式。3.根据权利要求1所述的一种融合全局事件关系信息的微博客事件谣言检测方法,其特征在于:步骤S2中所述事件特征自动抽取模块包括带有注意力机制的简单循环单元网络层和注意力层;所述带有注意力机制的简单循环单元网络层利用简单循环单元网络对微博序列和时间段序列进行建模,并利用所述注意力层对所述微博序列和所述时间段序列施加微博注意力和时间段注意力,并整合质疑更正信号微博的比...

【专利技术属性】
技术研发人员:廖祥文黄知陈志豪陈国龙
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1