基于风格引导的双线性神经网络虚假新闻检测方法及系统技术方案

技术编号:22055696 阅读:89 留言:0更新日期:2019-09-07 15:24
本发明专利技术提出一种基于风格引导的双线性神经网络虚假新闻检测方法及系统,包括:获取待网络虚假新闻检测的新闻文本,通过神经网络量化该新闻文本的语言风格特征,得到该新闻文本的风格向量,将该新闻文本输入文本特征提取器,得到该新闻文本的文本向量;将该风格向量和该文本向量输入双线性神经网络,该双线性神经网络包括双线性函数,用于建模该风格向量和该文本向量之间的相关性,以得到该新闻文本的的风格‑文本特征矩阵,使用该风格‑文本特征矩阵中最大分数向量组成引导向量,并将该引导向量输入至全连接层,判定该新闻文本的虚假新闻标签。本发明专利技术依据虚假新闻共性的语言风格来引导深度学习模型的学习过程,提升了模型的识别准确度与泛化性能。

False News Detection Method and System Based on Style-Guided Bilinear Neural Network

【技术实现步骤摘要】
基于风格引导的双线性神经网络虚假新闻检测方法及系统
本专利技术涉及大数据挖掘中新闻检测领域,并特别涉及一种基于风格引导的双线性神经网络虚假新闻检测方法及系统。
技术介绍
社交媒体的快速发展已经改变了人们的日常生活,用户可以方便自由的从社交媒体上发布与获取信息。然而,社交媒体的蓬勃发展也为虚假新闻的滋生与传播提供了沃土。据统计,仅在2016年美国总统大选期间就有529件有关总统候选人的虚假新闻产生,被传播高达三千七百万次。虚假新闻已经严重污染了网络社交环境,影响了用户的日常生活,因此亟需对网络社交媒体上的虚假新闻进行自动化检测。在现有研究中,研究者通常关注在新闻内容及相应的社交关系上。Martin等人利用诸如引用词个数、新闻中URL个数等领域相关信息来进行虚假新闻检测,Jin等人通过检测发现新闻相关评论下的不同观点间是否有冲突来判定新闻的真实性。Castillo等人从新闻内容、用户主页和新闻传播网络等方面提取了大量的手工特征来刻画虚假新闻,取得了较为不错的结果。与传统手工刻画虚假新闻的特征不同,基于深度学习的方法无需再进行复杂的特征工程。Ma等人将虚假新闻的社交属性看作变长的时间序列,并使用循环神经网络(RNN)来处理,其识别准确度较传统方法有了较大提升。Guo等人认为虚假新闻事件、相关新闻及其评论之间存在着层次关系,并提出了层次注意力模型来处理这种层次关系,实验表明,该方法在识别虚假新闻上具有较为突出的能力。专利技术人在进行虚假新闻检测研究时发现,现有方法往往过于依赖于新闻本身,而缺乏对虚假新闻这一类新闻共性的分析,导致现有方法在新产生的新闻上的识别准确度难以达到预期水平。
技术实现思路
针对以上问题,本专利技术提出了一种利用风格引导的深度学习虚假新闻检测算法。该方法通过显式的使用虚假新闻共有的风格特征来对深度学习模型的学习过程进行引导,保证模型可以获取到虚假新闻整体的共性特征,提升了模型在新产生新闻上的检测效果。其中“显式的”的反义对应于“隐式的”,“隐式的”是指模型当中包含这些信息,但是这些信息在外界并不能观察到;“显式的”的含义是被特别的使用、突出该信息来对模型进行引导。针对现有技术的不足,本专利技术提出一种基于风格引导的双线性神经网络虚假新闻检测方法,其中包括:步骤1、获取待网络虚假新闻检测的新闻文本,通过神经网络量化该新闻文本的语言风格特征,得到该新闻文本的风格向量,将该新闻文本输入文本特征提取器,得到该新闻文本的文本向量;步骤2、将该风格向量和该文本向量输入双线性神经网络,该双线性神经网络包括双线性函数,用于建模该风格向量和该文本向量之间的相关性,以得到该新闻文本的的风格-文本特征矩阵,使用该风格-文本特征矩阵中最大分数向量组成引导向量,并将该引导向量输入至全连接层,判定该新闻文本的虚假新闻标签。所述的基于风格引导的双线性神经网络虚假新闻检测方法,其中该步骤1包括:步骤11、将该新闻文本转化为词汇向量拼接而成的向量矩阵x1:n=x1⊕x2⊕…⊕xn,其中⊕表示拼接操作,xi表示该新闻文本中第i个词所对应的词汇向量,x1:n表示长度为n的该向量矩阵;步骤12、该文本特征提取器为长短期记忆网络,该向量矩阵输入至该长短期记忆网络,得到该向量矩阵中每一个词汇向量的隐状态ht=H(ht-1,xt),t小于等于n,ht为第t个词汇向量的隐状态;步骤13、通过注意力机制来为每一个隐状态分配权重ui=tanh(Wwhi+bw),其中W*表示权重矩阵,bw表示偏置,αi为经过归一化后第i个隐状态的权重;步骤14、通过加权求和该权重αi和该隐状态ht,得到该文本向量ft为该文本向量。所述的基于风格引导的双线性神经网络虚假新闻检测方法,其中得到该风格-文本特征矩阵的方法如下:fs为该风格向量,ft为该文本向量,B为该双线性函数,为fb该风格-文本特征矩阵。所述的任意一种基于风格引导的双线性神经网络虚假新闻检测方法,其中该文本特征提取器为长短期记忆网络或双向长短期记忆网络。所述的基于风格引导的双线性神经网络虚假新闻检测方法,其中步骤2包括:使用最大池化函数筛选出该风格-文本特征矩阵中最大分数向量组成引导向量。本专利技术还提出了一种基于风格引导的双线性神经网络虚假新闻检测系统,其中包括:模块1、获取待网络虚假新闻检测的新闻文本,通过神经网络量化该新闻文本的语言风格特征,得到该新闻文本的风格向量,将该新闻文本输入文本特征提取器,得到该新闻文本的文本向量;模块2、将该风格向量和该文本向量输入双线性神经网络,该双线性神经网络包括双线性函数,用于建模该风格向量和该文本向量之间的相关性,以得到该新闻文本的的风格-文本特征矩阵,使用该风格-文本特征矩阵中最大分数向量组成引导向量,并将该引导向量输入至全连接层,判定该新闻文本的虚假新闻标签。所述的基于风格引导的双线性神经网络虚假新闻检测系统,其中该模块1包括:模块11、将该新闻文本转化为词汇向量拼接而成的向量矩阵x1:n=x1⊕x2⊕…⊕xn,其中⊕表示拼接操作,xi表示该新闻文本中第i个词所对应的词汇向量,x1:n表示长度为n的该向量矩阵;模块12、该文本特征提取器为长短期记忆网络,该向量矩阵输入至该长短期记忆网络,得到该向量矩阵中每一个词汇向量的隐状态ht=H(ht-1,xt),t小于等于n,ht为第t个词汇向量的隐状态;模块13、通过注意力机制来为每一个隐状态分配权重ui=tanh(Wwhi+bw),其中W*表示权重矩阵,bw表示偏置,αi为经过归一化后第i个隐状态的权重;模块14、通过加权求和该权重αi和该隐状态ht,得到该文本向量ft为该文本向量。所述的基于风格引导的双线性神经网络虚假新闻检测系统,其中得到该风格-文本特征矩阵的系统如下:fs为该风格向量,ft为该文本向量,B为该双线性函数,为fb该风格-文本特征矩阵。所述的任意一种基于风格引导的双线性神经网络虚假新闻检测系统,其中该文本特征提取器为长短期记忆网络或双向长短期记忆网络。所述的基于风格引导的双线性神经网络虚假新闻检测系统,其中模块2包括:使用最大池化函数筛选出该风格-文本特征矩阵中最大分数向量组成引导向量。由以上方案可知,本专利技术的优点在于:由于利用语言风格特征引导神经网络学习方法的提出,本专利技术与现有技术相比,在新生新闻事件上具有更高的识别准确度。以往的不加干预的、单纯使用复杂的深度学习模型自主学习虚假新闻的特征的方法往往学习到的是事件相关的特征,这些特征难以迁移利用到新生事件中去,导致模型在新生事件上的泛化性能较差。不同于此,本专利技术显式的利用依据专家知识获取虚假新闻中共性的语言风格特征来引导深度学习模型的学习过程,使深度学习模型聚焦在虚假新闻的共性特征上,使得模型所获取的特征在新生事件上也具有很好的迁移性,大大提升了模型的识别准确度与泛化性能。附图说明图1为知识引导的学习框架图;图2为基于风格引导的双线性神经网络算法流程图。具体实施方式本专利技术的目的是提供一种知识引导的虚假新闻检测方法,主要解决的问题为如何利用虚假新闻共性的语言风格特征引导模型获取更具泛化性的特征,以提高模型在新产生新闻上的检测效果。本专利技术关键点包括:1、语言风格量化:语言风格指语言的表达形式,主要表现在词汇、语法、修辞手段等分布差异上,语言风格关注于本文档来自技高网
...

【技术保护点】
1.一种基于风格引导的双线性神经网络虚假新闻检测方法,其特征在于,包括:步骤1、获取待网络虚假新闻检测的新闻文本,通过神经网络量化该新闻文本的语言风格特征,得到该新闻文本的风格向量,将该新闻文本输入文本特征提取器,得到该新闻文本的文本向量;步骤2、将该风格向量和该文本向量输入双线性神经网络,该双线性神经网络包括双线性函数,用于建模该风格向量和该文本向量之间的相关性,以得到该新闻文本的的风格‑文本特征矩阵,使用该风格‑文本特征矩阵中最大分数向量组成引导向量,并将该引导向量输入至全连接层,判定该新闻文本的虚假新闻标签。

【技术特征摘要】
1.一种基于风格引导的双线性神经网络虚假新闻检测方法,其特征在于,包括:步骤1、获取待网络虚假新闻检测的新闻文本,通过神经网络量化该新闻文本的语言风格特征,得到该新闻文本的风格向量,将该新闻文本输入文本特征提取器,得到该新闻文本的文本向量;步骤2、将该风格向量和该文本向量输入双线性神经网络,该双线性神经网络包括双线性函数,用于建模该风格向量和该文本向量之间的相关性,以得到该新闻文本的的风格-文本特征矩阵,使用该风格-文本特征矩阵中最大分数向量组成引导向量,并将该引导向量输入至全连接层,判定该新闻文本的虚假新闻标签。2.如权利要求1所述的基于风格引导的双线性神经网络虚假新闻检测方法,其特征在于,该步骤1包括:步骤11、将该新闻文本转化为词汇向量拼接而成的向量矩阵x1:n=x1⊕x2⊕…⊕xn,其中⊕表示拼接操作,xi表示该新闻文本中第i个词所对应的词汇向量,x1:n表示长度为n的该向量矩阵;步骤12、该文本特征提取器为长短期记忆网络,该向量矩阵输入至该长短期记忆网络,得到该向量矩阵中每一个词汇向量的隐状态ht=H(ht-1,xt),t小于等于n,ht为第t个词汇向量的隐状态;步骤13、通过注意力机制来为每一个隐状态分配权重ui=tanh(Wwhi+bw),其中W*表示权重矩阵,bw表示偏置,αi为经过归一化后第i个隐状态的权重;步骤14、通过加权求和该权重αi和该隐状态ht,得到该文本向量ft为该文本向量。3.如权利要求1所述的基于风格引导的双线性神经网络虚假新闻检测方法,其特征在于,得到该风格-文本特征矩阵的方法如下:fs为该风格向量,ft为该文本向量,B为该双线性函数,为fb该风格-文本特征矩阵。4.如权利要求1所述的任意一种基于风格引导的双线性神经网络虚假新闻检测方法,其特征在于,该文本特征提取器为长短期记忆网络或双向长短期记忆网络。5.如权利要求1所述的基于风格引导的双线性神经网络虚假新闻检测方法,其特征在于,步骤2包括:使用最大池化函数筛选出该风格-文本特征矩阵中最大分数向量组成引导向量。...

【专利技术属性】
技术研发人员:曹娟王佳臣谢添李锦涛郭俊波
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1