【技术实现步骤摘要】
一种社交媒体误传信息检测方法
[0001]本专利技术涉及自然语言处理领域和神经网络深度学习领域,提出了一种社交媒体误传信息检测方法。
技术介绍
[0002]当今社交网络飞速发展,虚假信息也变得越来越普遍。虚假信息会误导大众,严重的甚至会影响国际局势,导致无法挽回的严重后果,因此需要对社交网络中的言论进行验证。
[0003]目前社交网络中的言论验证分别人工手动核查和机器自然语言处理。人工手动事实核查声明的真实性十分耗时,涉及大量不同的文档和来源,效率低下。
[0004]自然语言处理可大致分为三步:(一)语料库收集和预处理。语料是自然语言处理所研究的内容,通常使用一个文本集合作为语料库,在事实核查领域中,我们用推文、声明作为语料库。常见的预处理有预料清洗、分词、去停用词等。其中预料清洗是去除噪音,留下有用数据;分词是将文本分为词语;去停用词是去除对文本特征没有任何作用的字词,比如标点符号、语气等。(二)特征工程。这一步是将分词表示为计算机可以理解计算的类型,一般为向量。常用的表示模型有词袋模型和词向量模型。(三) ...
【技术保护点】
【技术特征摘要】
1.一种社交媒体误传信息检测方法,其步骤如下:S1、收集社交媒体的帖子数据及相应的评论数据作为数据集;S2、将评论数据信息分别按照时间顺序和情感顺序排序;S3、将时间序列的时间评论集数据信息、情感序列的情感评论集数据信息分别与帖子数据信息连接,再分别送入级别颗粒度注意力掩盖双向编码器进行预训练,得到时间序列句子向量和情感序列句子向量;S4、将时间序列句子向量和情感序列句子向量连接,通过全连接神经网络进行训练,得到二分类结果。2.根据权利要求1所述的一种社交媒体误传信息检测方法,其特征在于:S1还包括有S11通过聚类算法删去相似的评论数据。3.根据权利要求1所述的一种社交媒体误传信息检测方法,其特征在于:S1中令为原帖子的集合,每个是由中文或英文字符组成,其中是的长度,每个的评论用来表示,其真实性用表示,1表示误传信息,0表示不是,于是数据集可以符号化为,其中每个;给定一个原帖子集合。4.根据权利要求3所述的一种社交媒体误传信息检测方法,其特征在于:S2中设定按时间排序的时间评论集和按情感排序的情感评论集。5.根据权利要求4所述的一种社交媒体误传信息检测方法,其特征在于:S3中将按时间排序的时间评论集与原帖子集合连接后组成训练数据,再通过级别颗粒度注意力掩盖双向编码器LGAM
‑
BERT后得到时间序列句子向量,其中i代表数据集中第i个帖子,d为编码器模型中隐藏层的向量维度数量;将按情感排序的情感评论集与原帖子集合连接后组成训练数据,再通过级别颗粒度注意力掩盖双向编码器LGA...
【专利技术属性】
技术研发人员:王茂林,张鹏,
申请(专利权)人:深圳市金大智能创新科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。