基于传播森林的虚假信息检测方法、装置及设备制造方法及图纸

技术编号:37777999 阅读:14 留言:0更新日期:2023-06-09 09:08
本发明专利技术公开了一种基于传播森林的虚假信息检测方法、装置及设备,所述方法包括:针对待检测的源博文集合,获取每一源博文在社交网络中博文的传播数据,传播数据包括:传播内容和传播关系;提取传播内容的文本特征;将源博文集合根据文本特征划分为K个类簇后,计算传播原型并构建传播树;基于传播原型和传播树,构建传播森林;聚合传播森林中的节点邻域表示,以得到节点的嵌入表示;针对源博文节点与后续传播博文节点,分别根据相应的文本特征和嵌入表示,计算增强嵌入表示;对源博文节点与后续传播博文节点的增强嵌入表示应用检测模型进行分类,得到源博文集合中各源博文的虚假检测结果。本发明专利技术可以提高虚假信息检测任务的性能。能。能。

【技术实现步骤摘要】
基于传播森林的虚假信息检测方法、装置及设备


[0001]本专利技术涉及数据挖掘
,具体涉及一种基于传播森林的虚假信息检测方法、装置及设备。

技术介绍

[0002]近年来,得益于社交媒体的便利性,滋生了大量的虚假信息。这些虚假信息呈现多线程传播模式,为网络生态带来了巨大的危害和负面影响,严重影响了社会安定和人们日常生活。因此,如何及时准确地检测出虚假信息是社交网络分析领域中一个迫切需要的研究课题,有重要的研究意义和现实应用意义。
[0003]大多数虚假信息发布都是围绕一个特定的热点话题或舆论事件,故在语义层面,不同的虚假信息之间存在潜在的语义关联。此外,许多虚假信息在实际传播中,背后都是由庞大的恶意组织所牵引,这使得大多数虚假信息的传播模式是相似的。因此,如何巧妙地利用多条虚假信息传播线相似的语义关联与传播模式,对于实现更准确的虚假信息检测具有积极作用。
[0004]现有的检测方法仅仅关注于单个信息传播的深度建模,忽略了不同信息传播背后共享的传播模式;或仅关注细粒度(如单词级别)的语义关联,由于单词在不同上下文语境下呈现不同的含义,这样的做法会引入噪声语义信息,甚至限制现有虚假信息检测方法的性能。

技术实现思路

[0005]本专利技术针对主要的技术问题是如何利用多条虚假信息传播线相似的语义关联与传播模式。本专利技术提供一种基于传播森林的虚假信息检测方法、装置及设备,以提高虚假信息检测任务的性能。
[0006]本专利技术的具体技术方案如下:
[0007]根据本公开实施例的第一方面,本专利技术提供的技术方案提供一种基于传播森林的虚假信息检测方法,所述方法包括以下步骤:
[0008]针对待检测的源博文集合,获取每一源博文在社交网络中博文的传播数据;其中,所述传播数据包括:传播内容和传播关系;
[0009]提取所述传播内容的文本特征;
[0010]将所述源博文集合根据文本特征划分为K个类簇后,将每一类簇的中心向量作为传播原型,并基于每一类簇对应的所述文本特征和所述传播关系,构建该类簇传播树;
[0011]基于所述传播原型和所述传播树,构建传播森林;其中,所述传播森林的节点包括:源博文节点、传播原型节点和所述传播树中的后续传播博文节点,所述传播森林的边包括:基于所述类簇的伪标签定义所述源博文节点和所述传播原型节点间的连接、所述源博文节点和后续传播博文节点间的连接和所述后续传播博文节点间对应的连接,所述源博文节点和所述后续传播博文节点的初始表示为文本特征,所述传播原型节点的初始表示为所
述类簇的中心向量;
[0012]聚合所述传播森林中的节点邻域表示,以得到所述节点的嵌入表示;
[0013]针对所述源博文节点与所述后续传播博文节点,分别根据相应的文本特征和嵌入表示,计算增强嵌入表示;
[0014]对所述源博文节点与所述后续传播博文节点的增强嵌入表示应用检测模型进行分类,得到所述源博文集合中各源博文的虚假检测结果。
[0015]进一步地,所述后续传播博文节点包括转发节点和评论节点中至少一种。
[0016]进一步地,所述将所述源博文集合根据文本特征划分为K个类簇后,将每一类簇的中心向量作为传播原型,包括:
[0017]随机初始化K个向量;其中每一向量对应于一传播原型
[0018]针对所述文本特征集合中的每一文本特征,将所述文本特征分配到在语义空间中距离最近的传播原型以生成若干类簇其中,t表示迭代轮数;
[0019]根据每一类簇中的文本特征,计算该类簇的中心向量,以得到传播原型
[0020]基于所述文本特征的分布与各传播原型计算损失函数φ;
[0021]在所述损失函数φ未收敛的情况下,令t=t+1,并返回至所述针对所述文本特征集合中的每一文本特征,将所述文本特征分配到在语义空间中距离最近的传播原型以生成若干类簇
[0022]在所述损失函数φ收敛的情况下,获取所述传播原型。
[0023]进一步地,所述损失函数其中,表示类簇中所述文本特征的数量,为所述类簇中的所述文本特征,β表示平滑项。
[0024]进一步地,所述聚合所述传播森林中的节点邻域表示,以得到所述节点的嵌入表示,包括:
[0025]利用图卷积网络聚合传播森林中节点的邻域信息,得到节点表示
[0026]利用图卷积层将所述节点表示传递到所述传播树中,得到所述节点的嵌入表示。
[0027]进一步地,所述针对所述源博文节点与所述后续传播博文节点,分别根据文本特征和嵌入表示,计算增强嵌入表示,包括:
[0028]计算所述源博文节点的增强嵌入表示其中,W
e
表示第一可学习的参数,b
e
表示第二可学习的参数,x
i
表示所述源博文节点x
i
对应的所述文本特征,表示所述源博文节点x
i
对应的所述嵌入表示;
[0029]计算所述后续传播博文节点的增强嵌入表示其中,c
ij

示所述后续传播博文节点c
ij
对应的所述文本特征,所述表示所述后续传播博文节点c
ij
对应的所述嵌入表示。
[0030]根据本公开实施例的第二方面,本专利技术提供的技术方案提供一种基于传播森林的虚假信息检测装置,所述装置包括:
[0031]数据采集模块,用于针对待检测的源博文集合,获取每一源博文在社交网络中博文的传播数据;其中,所述传播数据包括:传播内容和传播关系;
[0032]数据处理模块,用于提取所述传播内容的文本特征;将所述源博文集合根据文本特征划分为K个类簇后,将每一类簇的中心向量作为传播原型,并基于每一类簇对应的所述文本特征和所述传播关系,构建该类簇的传播树;
[0033]传播森林构建模块,用于将所述传播数据中源博文根据其文本特征集合划分为K个类簇后,将每一类簇的中心向量作为传播原型,并基于所述传播原型和所述传播树,构建传播森林;其中,所述传播森林的节点包括:源博文节点、传播原型节点和所述传播树下的后续传播博文节点,所述传播森林的边包括:基于所述类簇的伪标签定义所述源博文节点和所述传播原型节点间的连接、所述源博文节点和后续传播博文节点间的连接和所述后续传播博文节点间对应的连接,所述源博文节点和所述后续传播博文节点的初始表示为文本特征,所述传播原型节点的初始表示为所述类簇的中心向量;
[0034]向量表示增强模块,用于聚合所述传播森林中的节点邻域表示,以得到所述节点的嵌入表示;针对所述源博文节点与所述后续传播博文节点,分别根据相应的文本特征和嵌入表示,计算增强嵌入表示;
[0035]信息检测模块,用于对所述源博文节点与所述后续传播博文节点的增强嵌入表示,结合原始虚假信息模型进行分类,得到所述源博文集合中各源博文的虚假检测结果。
[0036]根据本公开实施例的第三方面,本专利技术提供一种电子设备,所述电子设备包括存储器和处理器,所述存储器中存储本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于传播森林的虚假信息检测方法,其特征在于,所述方法包括:针对待检测的源博文集合,获取每一源博文在社交网络中博文的传播数据;其中,所述传播数据包括:传播内容和传播关系;提取所述传播内容的文本特征;将所述源博文集合根据文本特征划分为K个类簇后,将每一类簇的中心向量作为传播原型,并基于每一类簇对应的所述文本特征和所述传播关系,构建该类簇传播树;基于所述传播原型和所述传播树,构建传播森林;其中,所述传播森林的节点包括:源博文节点、传播原型节点和所述传播树中的后续传播博文节点,所述传播森林的边包括:基于所述类簇的伪标签定义所述源博文节点和所述传播原型节点间的连接、所述源博文节点和后续传播博文节点间的连接和所述后续传播博文节点间对应的连接,所述源博文节点和所述后续传播博文节点的初始表示为文本特征,所述传播原型节点的初始表示为所述类簇的中心向量;聚合所述传播森林中的节点邻域表示,以得到所述节点的嵌入表示;针对所述源博文节点与所述后续传播博文节点,分别根据相应的文本特征和嵌入表示,计算增强嵌入表示;对所述源博文节点与所述后续传播博文节点的增强嵌入表示应用检测模型进行分类,得到所述源博文集合中各源博文的虚假检测结果。2.如权利要求1所述的方法,其特征在于,所述后续传播博文节点包括转发节点和评论节点中至少一种。3.如权利要求1所述的方法,其特征在于,所述将所述源博文集合根据文本特征划分为K个类簇后,将每一类簇的中心向量作为传播原型,包括:随机初始化K个向量;其中每一向量对应于一传播原型针对所述文本特征集合中的每一文本特征,将所述文本特征分配到在语义空间中距离最近的传播原型以生成若干类簇其中,t表示迭代轮数;根据每一类簇中的文本特征,计算该类簇的中心向量,以得到传播原型基于所述文本特征的分布与各传播原型计算损失函数φ;在所述损失函数φ未收敛的情况下,令t=t+1,并返回至所述针对所述文本特征集合中的每一文本特征,将所述文本特征分配到在语义空间中距离最近的传播原型以生成若干类簇在所述损失函数φ收敛的情况下,获取所述传播原型。4.如权利要求3所述的方法,其特征在于,所述损失函数其中,表示类簇中所述文本特征的数量,为所述类簇中的所述文本特征,β表示平滑项。5.如权利要求1所述的方法,其特征在于,所述聚合所述传播森林中的节点邻域表示,以得到所述节点的嵌入表示,包括:利用图卷积网络聚合传播森林中节点的邻域信息,得到节点表示
利用图卷积层将所述节点表示传递到所述传播树中,得到所述节点的嵌入表示。6.如权利要求1所述的方法,其特征在于,所述针对所述源博文节点与所...

【专利技术属性】
技术研发人员:周薇卫玲蔚胡斗赖彦彤虎嵩林
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1