System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及虚假新闻检测领域,具体为一种基于情感-风格去偏的多领域虚假新闻检测方法。
技术介绍
1、近年来,随着社交媒体的快速发展,民众获取新闻的途径也从纸质媒体转移到社交媒体,与此同时,虚假新闻夹杂在社交媒体中广泛传播,这种传播严重地威胁到社会经济地良性发展。因此,虚假新闻的自动检测对于维持在线新闻生态系统的稳定至关重要。
2、基于机器学习以及深度学习的方法从新闻文本中提取特征并利用分类模型对虚假新闻进行检测。然而,现实场景下虚假新闻涵盖多个领域,训练和测试数据分布具有差异性,如果不区分领域差异会导致模型泛化能力低。因此,研究者尝试构建多领域虚假新闻检测数据集,通过建模领域差异或者利用对抗训练混淆不同领域,尝试解决在不同领域中检测虚假新闻的问题。但是仅从新闻文本提取内容特征检测导致模型预测效果不佳。考虑到新闻存在显著的领域差异,如词汇、情绪、风格等。各个领域的写作风格、词汇用法、情绪的分布会有很大的不同。有研究者结合情感以及风格特征,基于多视角提取文本特征,并利用领域适配器建模不同特征之间的差异。但这种方法存在着无意中捕获甚至放大情感以及风格偏差的风险。因此,有必要提出设计良好的多领域模型来缓解领域差异带来的影响。情感特征和风格特征在不同领域之间和标签之间的相关性是不同的。因此,如果一个模型倾向于根据有偏差的统计信息不公平地预测包含这些辅助特征的新闻到特定的真实性标签,那么在应用于其他领域的数据时,模型泛化能力会变差。
3、综上所述,虚假新闻检测是一个重要的研究方向,可以通过基于内容、基于社交上下文、
技术实现思路
1、本专利技术的目的是针对现有技术的缺陷,提供一种基于情感-风格去偏的多领域虚假新闻检测方法,以解决上述
技术介绍
提出的问题。
2、为实现上述目的,本专利技术提供如下技术方案:一种基于情感-风格去偏的多领域虚假新闻检测方法,按如下步骤完成判断该新闻是否为虚假新闻:
3、s1:接收新闻内容输入,将输入新闻内容经过bert模型处理,获得词嵌入向量;
4、s2:将词嵌入向量通过双向lstm处理,提取新闻的顺序特征;
5、s3:使用语义网络和领域网络分别处理新闻内容,得到新闻的语义特征和领域特定特征;
6、s4:通过混合专家系统处理低级语义特征,情感特征以及风格特征,获得进一步的语义特征rsem,风格特征rstl以及情感特征remo;
7、s5:将语义特征、情感特征和风格特征输入跨视角融合模块实现自适应跨视图表示;
8、s6:根据跨视角表示,通过检测模型判断新闻的真假性;
9、s7:对情感特征remo进行平均融合得到femo,并且得到情感对于新闻的预测值;对风格特征rstl进行平均融合得到fstl,并且得到风格对于新闻的预测值;
10、s8:利用对抗训练去除情感特征和风格特征与新闻之间的虚假相关性,获得无偏的虚假新闻检测模型;
11、作为本专利技术的一种优选技术方案:所述虚假新闻检测问题的建模包含以下步骤:
12、k1:将新闻p的文本内容使用bert预训练模型编码为长度为t的标记序列;
13、k2:从新闻p中提取情感特征e和风格特征s,其中情感特征e和风格特征s都是数值特征;
14、k3:将新闻p的域标签g作为输入,结合情感特征e和风格特征s,使用多任务学习的方法,训练一个多领域虚假新闻检测模型;
15、k4:对于新闻p,输入其文本标记序列、情感特征e和风格特征s,结合其域标签g,使用训练好的多领域虚假新闻检测模型,输出其真假标签y;
16、k5:对于多个域标签,重复步骤k3和k4,得到每个域下的真假标签y,最终将多个域下的真假标签y结合起来,得到新闻p的最终真假标签;
17、k6:对于新闻p的每个域标签,使用一组混指标准确率、召回率、f1分数等,评估该域下的虚假新闻检测性能。
18、作为本专利技术的一种优选技术方案:所述多视角协同的具体提取流程包含如下步骤:
19、(a):设置超参数t,表示专家网络中的专家个数;
20、(b):构建混合专家网络,包括语义网络、情感网络、风格网络和领域网络;
21、(c):将输入新闻文本转换为词向量w;
22、(d):对于每个专家网络执行以下操作:
23、(d1):确定各个专家网络模型结构以及其中的可学习参数θi;
24、(d2):利用词向量w和可学习参数θi,计算专家网络的输出表示ri;
25、(e):根据各个专家网络的输出表示ri,获得输入新闻文本的多视角特征表示;
26、其中,每个专家网络都有自己擅长的领域,善于提取某一领域的特征。
27、作为本专利技术的一种优选技术方案:所述s5中跨视角融合的具体流程步骤为:
28、s51:接收多个视图的输入数据,其中每个视图表示一个特定的数据特征,包括但不限于语义、情感和风格;
29、s52:为每个视图计算对应的权重系数,其中wsem,wemo和wstl分别表示语义、情感和风格视图的权重系数;
30、s53:计算跨视图交互表示z,通过将不同视图的权重系数与对应的视图表示相乘并求和得到,其中计算公式为:
31、
32、其中ksem,kemo,kstl分别代表语义网络,情感网络以及风格网络中的专家个数,语义特征为情感特征为风格特征为
33、s54:设置多头跨视角融合,每个头自适应地学习一种跨视图表示,生成一组跨视图表示集合其中h代表跨视图表示的数量;
34、s55:根据生成的跨视图表示集合对输入数据进行分类或回归任务处理并输出结果。
35、作为本专利技术的一种优选技术方案:所述s6中检测器模块的具体特征为:
36、s61:采用不同的专家网络获取新闻文章的跨视图表示;
37、s62:将领域标签输入领域门,以建模领域差异,得到权重分数,权重函数表示为softmax(mlp(g));
38、s63:根据计算得到的权重分数聚合跨视图表示,公式为:w=softmax(mlp(g));
39、s64:将聚合后的跨视图表示输入一个具有softmax输出层的多层感知分类器,进行虚假新闻的二分类。
40、作为本专利技术的一种优选技术方案:所述s7中去偏模块的具体工作流程为:
41、s71:通过平均融合将混合专家获得的一组情感特征进行融合得到融合特征femo;
42、s72:利用多层感知机(mlp)作为情感的去偏预测器来估计依赖性ye=mlpe(femo)。
43、s73本文档来自技高网...
【技术保护点】
1.一种基于情感-风格去偏的多领域虚假新闻检测方法,其特征在于:其采用因果学习的办法对情感和风格特征进行去偏解决多领域虚假新闻检测问题,具体包括以下步骤完成判断该新闻是否为虚假新闻:
2.根据权利要求1所述的一种基于情感-风格去偏的多领域虚假新闻检测方法,其特征在于:所述解决虚假新闻检测问题中,其建模包含以下步骤:
3.根据权利要求1所述的一种基于情感-风格的多领域虚假新闻检测方法,其特征在于:所述多视角特征提取的办法:其具体提取流程包含如下步骤:
4.根据权利要求1所述的一种基于多视角协同的多领域虚假新闻检测方法,其特征在于:所述S5中跨视角融合模块的具体操作流程步骤包含为:
5.根据权利要求1所述的一种基于多视角协同的多领域虚假新闻检测方法,其特征在于:所述S6中检测模型模块的具体工作流程为:
6.根据权利要求1所述一种基于情感-风格的多领域虚假新闻检测方法,其特征在于:所述S7中去偏模块的具体工作流程为:
7.根据权利要求1所述一种基于情感-风格的多领域虚假新闻检测方法,其特征在于:所述S8中对抗训练的
...【技术特征摘要】
1.一种基于情感-风格去偏的多领域虚假新闻检测方法,其特征在于:其采用因果学习的办法对情感和风格特征进行去偏解决多领域虚假新闻检测问题,具体包括以下步骤完成判断该新闻是否为虚假新闻:
2.根据权利要求1所述的一种基于情感-风格去偏的多领域虚假新闻检测方法,其特征在于:所述解决虚假新闻检测问题中,其建模包含以下步骤:
3.根据权利要求1所述的一种基于情感-风格的多领域虚假新闻检测方法,其特征在于:所述多视角特征提取的办法:其具体提取流程包含如下步骤:
4.根据权利要求...
【专利技术属性】
技术研发人员:李慧,蒋园园,朱亮,王晨曦,李鑫,左宇航,张丽玲,郭玥,
申请(专利权)人:江苏海洋大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。