当前位置: 首页 > 专利查询>南开大学专利>正文

一种基于孪生网络的知识感知虚假新闻检测方法技术

技术编号:39130769 阅读:11 留言:0更新日期:2023-10-23 14:50
一种基于孪生网络的知识感知虚假新闻检测方法。首先,基于新闻本文抽取知识图谱中的相关知识,构造新闻样本对和知识样本对,构建新闻孪生网络判断新闻样本对是否相似,构建知识孪生网络判断新闻对应的知识对是否相似。其次,对新闻文本进行编码,并使用训练好的新闻孪生网络和知识孪生网络中的分支分别对新闻、知识进行编码,获得新闻孪生表示和知识孪生表示。最后,将新闻表示、新闻孪生表示、知识表示三者相融合,进行虚假新闻检测任务。本发明专利技术一方面通过构建的新闻孪生网络来捕捉新闻之间的相似性或差异性特征,另一方面使用构建的知识孪生网络解决新闻文本中实体提及带来的歧义问题,并捕捉新闻对应知识反应新闻真假性的特征。特征。特征。

【技术实现步骤摘要】
一种基于孪生网络的知识感知虚假新闻检测方法


[0001]本专利技术属于人工智能领域,具体涉及社交网络数据,对社交媒体中出现的新闻,提出了一种基于孪生网络的知识感知虚假新闻检测方法。

技术介绍

[0002]当前的信息化时代,互联网实现跨越式发展。社交媒体凭借信息丰富、信息分享方便、传播快速且广泛等特点,使其成为大多数人获取和交流信息的平台。随着时代的发展,公众获取新闻的渠道也发生了变化。在前互联网时代,主要通过官方媒体获取新闻。在目前所处的移动互联网时代,专业媒体、自媒体、微信、微博、抖音、今日头条等都成为新闻发布和传播的平台。
[0003]随着网络媒体数量的增加,网络新闻用户规模也呈现逐年递增的趋势。由于社交网络使用方便,用户数量逐年增长,越来越多的用户在网络上发布和传播新闻,使得社交媒体上的虚假新闻数量飞速增长。虚假新闻通过扭曲真实事实或根据个人意愿随意编造产生,由于编写者往往会紧贴当下的热点事件,所以虚假新闻能够激发用户共情,更容易被用户转发和分享。虚假新闻具有传播速度快、传播影响强的特点,它的广泛传播会给社会和民众造成极大的负面影响,如影响媒体的权威性和公信力,破坏健康的网络舆论环境,损坏相关组织或个人的利益等。因此,进行社交媒体虚假新闻检测是一个亟需研究的问题。
[0004]虚假新闻检测目前的方法主要包括手工构建特征并输入到分类器模型中进行分类预测,以及使用各种深度神经网络自动提取新闻中的特征并完成新闻分类。由于新闻蕴含丰富的信息,仅通过新闻文本难以判定新闻的真假,越来越多的研究者开始关注新闻文本特征之外的信息,如用户的基本信息、社交网络特征等,希望能够更加充分的利用各类特征,从而在实际应用中进一步提高虚假新闻检测的准确性。
[0005]尽管已有的虚假新闻检测方法取得了比较好的检测效果,但它们往往忽略了人们在判断新闻真假时通常会用的外部知识。虚假新闻检测是一项复杂并且很具有挑战性的任务,由于新闻本身具有的及时性、蕴含信息丰富等特点,使得仅根据新闻本身很难对新闻内容进行较好的理解。为解决上述问题,在虚假新闻检测中引入外部知识十分必要。此外,考虑到同类别的新闻之间存在相似性特征,不同类新闻之间存在差异性特征,且每条新闻对应的知识在一定程度上反应新闻的真假性。因此,本专利技术提出一个两阶段的基于孪生网络的知识感知虚假新闻检测方法,利用构建的孪生网络捕捉相同类别的新闻或实体知识之间存在的相似性特征以及不同类别的新闻或实体知识之间存在的差异性特征,并将这些特征与新闻相融合,辅助进行虚假新闻检测。
[0006]综上所述,基于孪生网络的知识感知虚假新闻检测是一项创新的研究问题,具有重要的研究意义和应用价值。

技术实现思路

[0007]本专利技术的目的是解决现有的虚假新闻检测方法中对新闻文本理解不充分的问题。
为捕捉并融合同类别的新闻之间存在相似性特征,不同类新闻之间存在的差异性特征,以及每条新闻对应的知识在一定程度上反应新闻的真假性特征,创新性的提出了一种基于孪生网络的知识感知虚假新闻检测方法。本方法以深度神经网络为框架,捕捉同类别新闻或实体之间存在相似性特征,不同类别或实体之间存在差异性特征,这些特征反映同类新闻之间的共性以及不同类新闻之间的差异性,并通过有效的方式将新闻或实体之间的相似性特征以及差异性特征融合到新闻文本,对新闻文本的真实性进行分类。
[0008]本专利技术的技术方案
[0009]基于孪生网络的知识感知虚假新闻检测方法,该方法的详细内容如下:
[0010]第1、数据集获取;
[0011]本专利技术中使用的数据集均为英文数据集,新闻内容来自Twitter平台。通过对爬取的新闻数据进行观察,发现数据中包含一些符号组合,特殊字符,重复新闻等问题。针对这些问题,本专利技术分别设计不同的过滤规则,使用正则表达式等方式对新闻数据进行清洗和过滤。
[0012]完成数据清洗工作后,对新闻文本进行过滤停用词处理。停用词是指新闻文本中出现频率较高但其本身并不具备丰富含义的词。停用词主要为语言中包含的功能词,与其他词相比没有实际的含义,如句子中的“the”、“on”、“which”等词。适当的去掉停用词,可以提升关键词出现的频率,使得句子中的关键词更为突出。
[0013]对社交媒体上的新闻进行处理后,抽取出新闻源文本S和真实性标签y作为新闻样本,构造新闻数据集。
[0014]第2、根据新闻文本,通过实体链接识别出新闻中的实体提及并链接到知识图谱中对应实体,并抽取实体作为外部知识;
[0015]根据实体链接工具tagme识别出新闻中的实体提及并链接到知识图谱中的对应实体;如新闻中的实体提及“Oxxx”与知识图谱中的实体“Barack Oxxx”相对应。通过实体链接后,可以获得新闻文本对应的实体序列E={e1,e2,

,e
n
}。
[0016]定义1:实体链接,定义如下:
[0017]将文本中所提及的实体链接到知识库中相应实体的过程。实体链接的输入通常包括实体的指代(提及)和上下文,以及待链接的知识库;实体链接的输出是实体提及所对应的知识库中的实体。
[0018]定义2:知识图谱,定义如下:
[0019]知识图谱是一种以实体为节点,以关系为边的有向图,边可以描述两个实体之间的关系。知识图谱以三元组的形式存储。
[0020]第3、构造新闻样本对和实体样本对;
[0021]样本对的形式为三元组(x1,x2,c)组成,其中x1和x2是一对样本,c∈{0,1}表示x1和x2是相似的(c=1)还是不同的(c=0)。本方法中采用样本组合的方式构造样本对,对于新闻样本对的构造,将同类别的两条新闻构造成相似新闻样本对,用(S
i,
S j
,C=1)表示,即两条新闻均为真新闻或均为假新闻。不同类别的两条新闻构造成不相似新闻样本对,用(S
m
,S
n
,C=0)表示,即两条新闻一条为真新闻,一条为假新闻。对于实体对的构造,选用同类别新闻对应的实体序列构造为相似实体对,用(E
i
,E
j
,C=1)表示,即两个实体序列样本均来自真新闻或均来自假新闻对应的实体序列。选用不同类别对应的实体序列构造为不相似实体
对,用(S
m
,S
n
,C=0),即两个实体序列一个来自真新闻对应的实体序列,另一个来自假新闻对应的实体序列。
[0022]在进行样本对构造时,当新闻中的真新闻数量为a,假新闻数量为b时,通过样本组合的方式构造样本对,可以得到相似样本对的数量为不相似样本对的数量为可以看到,当数据集样本数量较多时,构造的样本对数量十分庞大,此时,用所有样本对训练神经网络是不可行的。因此,对于规模较大的数据集,本方法选取数据集中的部分样本进行样本对构造。
[0023]第4、构建新闻孪生网络,进行新闻样本对相似性判断任务;
[0024]孪生网络由两个神经网络分支组成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于孪生网络的知识感知虚假新闻检测方法,该方法通过一个两阶段的虚假新闻检测模型同时充分挖掘同类新闻或对应知识之间的相似性特征、不同类新闻或对应知识之间的差异性特征,并将这些特征与新闻本身的特征相融合,来进行虚假新闻检测任务;第一阶段为基于孪生网络来判断样本对是否相似任务:首先,判断新闻样本对是否相似,即是否为同一类别,通过训练新闻孪生网络完成此任务;其次,判断新闻对应的实体构成的样本对是否相似,即是否为同类别新闻对应的实体序列,并以此为目标训练实体孪生网络;通过第一阶段的训练,获得捕捉同类别新闻或实体序列间的相似性信息、不同类别新闻或实体序列间的差异性信息的神经网络;第二阶段为虚假新闻检测任务:首先,通过Transformer编码器对新闻文本进行编码,获得新闻表示;其次,使用阶段一训练好的新闻孪生网络和实体孪生网络分支分别对新闻、实体序列进行编码,获得新闻孪生表示和知识孪生表示;最后,将新闻表示、新闻孪生表示和知识孪生表示相融合,通过分类器获得新闻的类别;该方法的具体步骤如下:第1、数据集获取;第2、根据新闻文本,通过实体链接识别出新闻中的实体提及并链接到知识图谱中的对应实体,并抽取实体作为外部知识;第3、构造新闻样本对和实体样本对;第4、构建新闻孪生网络,进行新闻样本对相似性判断任务;第5、构建实体孪生网络,进行实体样本对相似性判断任务;第6、构建虚假新闻检测模型:第6.1编码新闻表示;第6.2通过训练好的新闻孪生网络分支编码新闻,获取新闻孪生表示;第6.3通过训练好的实体孪生网络分支编码实体,获取实体孪生表示;第7、融合新闻表示、新闻孪生表示和实体孪生表示,通过深度神经分类器进行分类。2.根据权利要求1所述的方法,其特征在于,第1步所述的数据集获取的方法是:收集社交网络中的新闻并抽取出新闻的文本内容S和真实性标签y作为数据集样本。3.根据权利要求1所述的方法,其特征在于,第2步所述的根据新闻文本,通过实体链接识别出新闻中的实体提及并链接到知识图谱中的对应实体,并抽取实体作为外部知识的方法是:给定一条长度为n的新闻文本S={w1,w2,

,w
n
},w
i
为新闻文本中的第i个单词,基于S,根据实体链接识别出新闻中的实体提及并链接到知识图谱中的对应实体,通过对新闻S进行实体链接操作,识别出新闻中的实体提及,将实体提及链接到知识图谱中的对应实体后,获得新闻文本对应的实体序列E={e1,e2,

,e
n
}。4.根据权利要求1所述的方法,其特征在于,第3步所述的构造新闻样本对和实体样本对的方法是:通过样本组合的方式构造样本对,对于新闻样本对的构造,将同类别的两条新闻构造成相似新闻样本对,用(S
i
,S
j
,C=1)表示,即两条新闻均为真新闻或均为假新闻,不同类别的两条新闻构造成不相似新闻样本对,用(S
m
,S
n
,C=0)表示,即两条新闻一条为真新闻,一条为假新闻,对于实体对的构造,选用同类别新闻对应的实体序列构造为相似实体对,用
(E
i
,E
j
,C=1)表示,即两个实体序列样本均来自真新闻或均来自假新闻对应的实体序列,选用不同类别对应的实体序列构造为不相似实体对,用(S
m
,S
n
,C=0),即两个实体序列一个来自真新闻对应的实体序列,另一个来自假新闻对应的实体序列。5.根据权利要求1所述的...

【专利技术属性】
技术研发人员:陈晨顿雅倩袁晓洁
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1