【技术实现步骤摘要】
基于传播森林的虚假信息检测方法、装置及设备
[0001]本专利技术涉及数据挖掘
,具体涉及一种基于传播森林的虚假信息检测方法、装置及设备。
技术介绍
[0002]近年来,得益于社交媒体的便利性,滋生了大量的虚假信息。这些虚假信息呈现多线程传播模式,为网络生态带来了巨大的危害和负面影响,严重影响了社会安定和人们日常生活。因此,如何及时准确地检测出虚假信息是社交网络分析领域中一个迫切需要的研究课题,有重要的研究意义和现实应用意义。
[0003]大多数虚假信息发布都是围绕一个特定的热点话题或舆论事件,故在语义层面,不同的虚假信息之间存在潜在的语义关联。此外,许多虚假信息在实际传播中,背后都是由庞大的恶意组织所牵引,这使得大多数虚假信息的传播模式是相似的。因此,如何巧妙地利用多条虚假信息传播线相似的语义关联与传播模式,对于实现更准确的虚假信息检测具有积极作用。
[0004]现有的检测方法仅仅关注于单个信息传播的深度建模,忽略了不同信息传播背后共享的传播模式;或仅关注细粒度(如单词级别)的语义关联,由于单词在不同 ...
【技术保护点】
【技术特征摘要】
1.一种基于传播森林的虚假信息检测方法,其特征在于,所述方法包括:针对待检测的源博文集合,获取每一源博文在社交网络中博文的传播数据;其中,所述传播数据包括:传播内容和传播关系;提取所述传播内容的文本特征;将所述源博文集合根据文本特征划分为K个类簇后,将每一类簇的中心向量作为传播原型,并基于每一类簇对应的所述文本特征和所述传播关系,构建该类簇传播树;基于所述传播原型和所述传播树,构建传播森林;其中,所述传播森林的节点包括:源博文节点、传播原型节点和所述传播树中的后续传播博文节点,所述传播森林的边包括:基于所述类簇的伪标签定义所述源博文节点和所述传播原型节点间的连接、所述源博文节点和后续传播博文节点间的连接和所述后续传播博文节点间对应的连接,所述源博文节点和所述后续传播博文节点的初始表示为文本特征,所述传播原型节点的初始表示为所述类簇的中心向量;聚合所述传播森林中的节点邻域表示,以得到所述节点的嵌入表示;针对所述源博文节点与所述后续传播博文节点,分别根据相应的文本特征和嵌入表示,计算增强嵌入表示;对所述源博文节点与所述后续传播博文节点的增强嵌入表示应用检测模型进行分类,得到所述源博文集合中各源博文的虚假检测结果。2.如权利要求1所述的方法,其特征在于,所述后续传播博文节点包括转发节点和评论节点中至少一种。3.如权利要求1所述的方法,其特征在于,所述将所述源博文集合根据文本特征划分为K个类簇后,将每一类簇的中心向量作为传播原型,包括:随机初始化K个向量;其中每一向量对应于一传播原型针对所述文本特征集合中的每一文本特征,将所述文本特征分配到在语义空间中距离最近的传播原型以生成若干类簇其中,t表示迭代轮数;根据每一类簇中的文本特征,计算该类簇的中心向量,以得到传播原型基于所述文本特征的分布与各传播原型计算损失函数φ;在所述损失函数φ未收敛的情况下,令t=t+1,并返回至所述针对所述文本特征集合中的每一文本特征,将所述文本特征分配到在语义空间中距离最近的传播原型以生成若干类簇在所述损失函数φ收敛的情况下,获取所述传播原型。4.如权利要求3所述的方法,其特征在于,所述损失函数其中,表示类簇中所述文本特征的数量,为所述类簇中的所述文本特征,β表示平滑项。5.如权利要求1所述的方法,其特征在于,所述聚合所述传播森林中的节点邻域表示,以得到所述节点的嵌入表示,包括:利用图卷积网络聚合传播森林中节点的邻域信息,得到节点表示
利用图卷积层将所述节点表示传递到所述传播树中,得到所述节点的嵌入表示。6.如权利要求1所述的方法,其特征在于,所述针对所述源博文节点与所...
【专利技术属性】
技术研发人员:周薇,卫玲蔚,胡斗,赖彦彤,虎嵩林,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。