一种融合全局事件关系信息的微博客事件谣言检测方法技术

技术编号：21184655 阅读：17 留言：0更新日期：2019-05-22 15:15

本发明专利技术涉及一种融合全局事件关系信息的微博客事件谣言检测方法，提供一文本数据预处理模块，用以获得微博客事件的微博文本的段落向量；提供一事件特征自动抽取模块，用以抽取出微博客事件的特征向量；提供一全局事件关系特征抽取模块，用以得到事件全局关系信息的事件向量表示；提供一分类结果输出模块，用以拼接出最终的事件向量并通过分类函数得到微博客事件最终的谣言检测结果；能够较好地进行微博客事件类别的分析且通用性强，能站在在数据使用者的角度进行谣言检测。

A Microblog Event Rumor Detection Method Fusing Global Event Relation Information

The invention relates to a microblog event rumor detection method integrating global event relationship information, providing a text data preprocessing module for obtaining paragraph vectors of microblog event text, an event feature automatic extraction module for extracting feature vectors of microblog event, and a global event relationship feature extraction module for obtaining event-wide. The event vector representation of bureau relationship information; the output module of classification results is provided to stitch up the final event vectors and get the final rumor detection results of microblog events through classification functions; it can better analyze the types of microblog events and has strong versatility, and can stand in the perspective of data users for rumor detection.

全部详细技术资料下载

【技术实现步骤摘要】
一种融合全局事件关系信息的微博客事件谣言检测方法
本专利技术涉及社交媒体分析和谣言检测领域，特别是一种融合全局事件关系信息的微博客事件谣言检测方法。
技术介绍
近年来，微博客谣言事件检测得到了国内外许多学者和研究机构的高度重视。微博客谣言事件检测利用了微博客事件相关的微博信息和用户信息，进行微博客谣言事件检测，能够站在数据使用者的角度进行谣言检测，提供更加细粒度的信息，有效提高谣言检测系统提供的分析结果的准确程度，有助于为研判人员提供更加有效而准确的信息。这就对微博客谣言事件检测技术提出了一个挑战：如何构建一个有效的微博客谣言事件检测原型系统来满足其需要。因此，人们迫切希望有一种准确高效的微博客谣言事件检测方法。当前，有很多技术方法可用于谣言检测。传统的谣言检测方法从人工定义特征的角度出发，通用性较差。区别于传统的谣言检测方法，如何利用神经网络模型，自动提取微博客事件特征，并整合来自传统模型的潜在特征，是微博客谣言事件检测的问题关键。传统的研究工作主要是基于有监督的机器学习的方法，该方法通过构建微博客事件相关的特征，使用决策树或支持向量机分类器进行事件分类，提高了谣言检测结果。这一类基于特征工程的方法虽然取得了一定的成效，但是需要耗费大量资源，并且受限于人工设计的规则，故而其性能还有待提升。当前，随着深度学习的快速发展，基于神经网络模型在语义表示与谣言检测运用方面更具优势。许多研究者们也将这些模型用于微博客事件分类。神经网络模型与机器学习方法相比，能够自动从数据中学习事件特征，避免了大量的特征工程，在捕获视角和上下文之间复杂的语义关系方面也有更好的拓展性。...

【技术保护点】
1.一种融合全局事件关系信息的微博客事件谣言检测方法，其特征在于：提供一文本数据预处理模块，用以获得微博客事件的微博文本的段落向量；提供一事件特征自动抽取模块，用以抽取出微博客事件的特征向量；提供一全局事件关系特征抽取模块，用以得到事件全局关系信息的事件向量表示；提供一分类结果输出模块，用以拼接出最终的事件向量并通过分类函数得到微博客事件最终的谣言检测结果；利用上述各模块进行微博客谣言事件检测的方法具体包括如下步骤：步骤S1：获取微博客事件，所述文本数据预处理模块利用gensim的doc2vec工具对所述微博客事件中的微博文本进行训练得到微博文本段落向量；步骤S2：所述事件特征自动抽取模块将所述微博客事件中的微博序列按照时间段进行划分并进行特征抽取，抽取出所述微博客事件的特征向量，从而得到微博客事件的向量表示；步骤S3：利用所述全局事件关系特征抽取模块获取包含事件全局关系信息的事件向量表示；步骤S4：所述分类结果输出模块将所述步骤S2得到的微博客事件的向量与所述步骤S3得到的事件全局关系信息的事件向量进行拼接得到最终的事件向量，并利用sigmoid分类函数对所述最终的事件向量逐一计算，...

【技术特征摘要】
1.一种融合全局事件关系信息的微博客事件谣言检测方法，其特征在于：提供一文本数据预处理模块，用以获得微博客事件的微博文本的段落向量；提供一事件特征自动抽取模块，用以抽取出微博客事件的特征向量；提供一全局事件关系特征抽取模块，用以得到事件全局关系信息的事件向量表示；提供一分类结果输出模块，用以拼接出最终的事件向量并通过分类函数得到微博客事件最终的谣言检测结果；利用上述各模块进行微博客谣言事件检测的方法具体包括如下步骤：步骤S1：获取微博客事件，所述文本数据预处理模块利用gensim的doc2vec工具对所述微博客事件中的微博文本进行训练得到微博文本段落向量；步骤S2：所述事件特征自动抽取模块将所述微博客事件中的微博序列按照时间段进行划分并进行特征抽取，抽取出所述微博客事件的特征向量，从而得到微博客事件的向量表示；步骤S3：利用所述全局事件关系特征抽取模块获取包含事件全局关系信息的事件向量表示；步骤S4：所述分类结果输出模块将所述步骤S2得到的微博客事件的向量与所述步骤S3得到的事件全局关系信息的事件向量进行拼接得到最终的事件向量，并利用sigmoid分类函数对所述最终的事件向量逐一计算，得到微博客事件最终的谣言检测结果。2.根据权利要求1所述的一种融合全局事件关系信息的微博客事件谣言检测方法，其特征在于：所述步骤S1具体还包括以下内容：根据对所述微博客事件按照时间段进行划分，然后将每个时间段的微博文本以及每条微博各作为一段话；预处理后，通过查表即可将每段文本从文本形式转换成文本段落向量形式。3.根据权利要求1所述的一种融合全局事件关系信息的微博客事件谣言检测方法，其特征在于：步骤S2中所述事件特征自动抽取模块包括带有注意力机制的简单循环单元网络层和注意力层；所述带有注意力机制的简单循环单元网络层利用简单循环单元网络对微博序列和时间段序列进行建模，并利用所述注意力层对所述微博序列和所述时间段序列施加微博注意力和时间段注意力，并整合质疑更正信号微博的比...

【专利技术属性】
技术研发人员：廖祥文，黄知，陈志豪，陈国龙，
申请(专利权)人：福州大学，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人