【技术实现步骤摘要】
一种基于内容及特征差异性的谣言检测方法及系统
[0001]本专利技术涉及一种基于内容及特征差异性的谣言检测方法及系统。
技术介绍
[0002]信息化时代下,越来越多的人们在社交媒体上分享、获取信息,这些信息中往往夹杂着谣言,极大地影响了人们的日常生活,有的甚至造成了社会的恐慌,影响了社会稳定。
[0003]目前针对谣言检测的方式大多分为基于传统机器学习模型的谣言检测方法,以及基于深度学习模型的谣言检测方法。
[0004]基于传统机器学习模型的谣言检测方法大多将研究工作的重心置于对事件的内容特征、用户特征以及传播特征的人工特征设计。主要通过人为地对事件的内容、用户及传播设计特征的方式计算特征,并使用传统机器学习分类器完成对事件的分类。比如中国专利:一种基于LDA和随机森林的微博谣言识别方法(专利申请号:201711483228.0),使用线性判别分析模型提取人工设计的特征,通过随机森林分类器模型完成微博事件的分类。但是该专利存在着不足:1、手工设计特征的方式仅能提取表层的特征,特征表征能力较差,并且泛化能力较弱 ...
【技术保护点】
【技术特征摘要】
1.一种基于内容及特征差异性的谣言检测方法,其特征在于,包括以下步骤:步骤1:通过爬虫技术,获取社交媒体平台的事件信息,构建事件数据集E={e1,e2,e3,...,e
N
},e
N
表示第N个事件,N取值为自然数;步骤2:将获取的事件的文本信息,按照类别分为原文文本信息和评论文本信息,通过预处理方法分别得到事件的原文句向量和评论句向量;步骤3:对于事件的原文句向量,通过事件原文处理模型,得到事件原文表征特征;步骤4:对于事件的评论句向量,通过事件评论处理模型,得到事件评论表征特征;步骤5:将步骤3得到的事件原文表征特征和步骤4得到的事件评论表征特征,通过事件分类输出模型得到对事件的预测分类,来判断事件是否为谣言。2.根据权利要求1所述的方法,其特征在于,步骤2包括:将谣言检测任务定义为:第i个事件e
i
的文本信息按照类别分为原文文本信息和评论文本信息,表示为e
i
={m
0i
,m
1i
,m
2i
,m
3i
,...,m
Mi
},其中m
0i
为e
i
的原文文本信息,{m
1i
,m
2i
,m
3i
,...,m
Mi
}为e
i
的评论文本信息,M为e
i
的评论文本信息数量,m
Mi
表示e
i
的第M个评论文本信息,i取值为[1,N]。3.根据权利要求2所述的方法,其特征在于,步骤2还包括:对于事件ei的所有文本信息,先进行预处理,包括数据清理、数据增强以及向量化处理三个部分,在数据清理部分,通过正则化表达式去除文本数据中的网址、数字、@转发信息;在数据增强部分,对数据集中的原文文本数据,以及部分事件评论数过少的文本数据进行增强;在向量化处理部分,通过BERT预训练模型将事件e
i
的文本信息{m
0i
,m
1i
,m
2i
,m
3i
,...,m
Mi
},分别转化为维数固定为768的句向量{v
0i
,v
1i
,v
2i
,v
3i
,...,v
Mi
},v
0i
表示事件原文句向量,{v
1i
,v
2i
,v
3i
,...,v
Mi
}表示事件评论句向量,v
Mi
表示ei的第M个评论句向量。4.根据权利要求3所述的方法,其特征在于,步骤3包括:对文本卷积神经网络模型的卷积层进行改进,将卷积核的长度设置为与句向量等长的768,并将宽度固定为1来保证事件句向量的结构特征完整性;根据事件原文句向量v
0i
和数据增强后增加的句向量构建输入矩阵I0,首先通过卷积层,使用改进后的卷积核进行卷积计算,得到卷积层输出的特征列向量,再以竖直方向进行拼接后得到卷积层输出的特征列向量矩阵T
0i
:T
0i
=f(W0×
I0+b0)其中W0为权重矩阵,b0为偏置量,f为Relu激活函数;然后通过池化层,使用最大池化方法,对特征列向量矩阵的每一列保留数值最大的特征,得到事件e
i
的原文表征特征p
0i
。5.根据权利要求4所述的方法,其特征在于,步骤4包括:根据事件e
i
的评论句向量{v
1i
,v
2i
,v
3i
,...,v
Mi
}构建输入矩阵I1,通过评论特征序列构建层,得到事件评论特征序列{s
1i
,s
2i
,s
3i
,...,s
Mi
},s
Mi
表示e
i
的第M个评论特征序列;所述评论特征序列构建层具体表现为:将事件e
i
的评论句向量{v
1i
,v
2i
,v
3i
,...,v
Mi
},首先通过卷积层,使用改进后的卷积核进行卷积计算,得到卷积层输出的特征列向量,再以竖直方向进行拼接后得到特征列向量矩阵T
1i
:T
1i
=f(W1×
I1+b1)其中W1为权重矩阵,b1为偏置量;最后对特征列向量矩阵T
1i
以水平方向进行拆分,得到事件评论特征序列{s
1i
,s
2i
,s
3i
,...,s
Mi
};
接着通过双向门控循环单元将事件e
i
的评论特征序列{s
1i
,s
2i
,s
3i
,...,s
Mi
}在前向以及后向两个方向进行学习,分别得到前向隐藏层特征{h
f1,i
,h
f2,i
,h
f3,i
,...,h
fM,i
}以及后向隐藏层特征{h
b1,i
,h
b2,i
,h
b3,i
,...,h
bM,i
},接着将每个事件评论特征序列对应的两个隐藏层特征拼接后得到双向门控循环单元的输出特征{h
1i
,h
2i
,h
3i
,...,h
Mi
},最后通过注意力层对输出特征进行注意力权重分配,得到事件e
i
的评论表征特征p
1i
::h
ij
=(h
fj,i
,h
bj,i
),j∈[1,M]u
ij
=tanh(W
a
h
ij
+b
a
)p
1i
=∑a
ij
·
h
ij
其中,表示为前向门控循环单元对输入特征s
ij
的训练;表示为后向门控循环单元对输入特征s
ij
的训练;s
ij
表示e
i
的第j个评论特征序列;h
fj,i
表示第i个事件、第j个评论信息在前向门控循环单元的隐藏特征;h
bj,i
表示第i个事件、第j个评论信息在后向门控循环单元的隐藏特征;h
ij
表示第i个事件、第j个评论信息的双向门控循环单元输出特征;u
ij
表示h
ij
的注意力层隐藏特征,W
a
为权重矩阵,b
a
为偏置量,tanh为激活函数;a
ij
表示u
ij
的注意力权重值,其中u
w
为权值矩阵;p
1i
表示第i个事件评论表征特征。6.根据权利要求5所述的方法,其特征在于,步骤5包括:将事件e
i
的原文表征特征p
0i
和评论表征特征p
1i
进行特征拼接,得到事件e
i
的表征特征p
i
,通过全连接层将表征特征与分类类别L={R,N}进行全连接,其中R表示谣言,N表示非谣言,分别得到对于事件在谣言类别以及非谣言类别的评估值,最后通过softmax函数,得到对事件分类的预测值,选取预测值中最大的类别作为事件的分类,完成谣言检测任务:p
i
=(p
0i
,p
1i
)。7.一种基于内容及特征差异性的谣言检测系统,其特征在于,包括事件信息获取模块、事件预处理模块和事件检测模块;所述事件信息获取模块使用爬虫技术,将Python作为爬虫语言,Scrapy作为爬虫框架,获取社交媒体平台以键值对形式存储的json格式事件信息...
【专利技术属性】
技术研发人员:王昕岩,陈乔,魏康,顾耀,曹成钱,丁悦,
申请(专利权)人:中通服咨询设计研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。