一种基于新闻-评论关联性分析的虚假新闻识别方法技术

技术编号:25550856 阅读:29 留言:0更新日期:2020-09-08 18:50
本发明专利技术属于新闻检测领域,具体涉及一种基于新闻‑评论关联性分析的虚假新闻识别方法,包括:基于新闻中各文本子句内容构建二维新闻特征矩阵,以及根据各条评论的内容构建该条评论的一维特征向量,并将每条初始评论作为根节点、每条回复评论作为子节点构建多个评论树;将每个评论树中每个节点特征向量与其父节点上下文关联特征向量结合,计算该评论树中所有叶子节点上下文关联特征向量并加权计算,得到评论树特征向量,所有评论树特征向量构成二维评论特征矩阵;匹配新闻特征矩阵与评论特征矩阵间的关联性,得到新闻特征向量和评论特征向量,以判断新闻真实性。本发明专利技术充分利用新闻文本及其在传播过程中产生的信息,精确度强,适应大规模社交网络。

【技术实现步骤摘要】
一种基于新闻-评论关联性分析的虚假新闻识别方法
本专利技术属于新闻检测领域,更具体地,涉及一种基于新闻-评论关联性分析的虚假新闻识别方法。
技术介绍
网络技术的蓬勃发展使得信息的获取成本越来越低,网络技术无处不在也为社交网络的兴起提供了基础。用户可以轻松便捷的从社交网络中获取和发布信息,这种便利性降低了虚假新闻产生和传播的门槛。虚假新闻会利用信息披露的不及时性,通过社交网络的疯狂传播造成严重的舆论压力和社会恐慌。虚假新闻严重影响社交网络环境,制造群体焦虑,因此对于社交网络中虚假新闻的有效识别是当前社会背景下亟待解决的问题。虚假新闻的识别工作主要针对新闻文本。主要涉及两方面,(1)对新闻中所涉及到的知识提取,与知识图库进行比较;(2)对文本语句进行语法分析,对其中涉及到的表述是否经常出现不确定的描述来进行判断。随着社交网络的兴起,如何合理的利用社交网络信息,提高新闻真实性识别能力,成为了最值得探讨的问题。所以最近开始有分析方法将重点放在传播过程或评论文本上,(1)从宏观和微观领域分析传播过程,根据其传播规模推断新闻真实性;(2)根据传播路径中用户的受信任程度,获得传播网络中用户质量的评级,进而判断新闻的真实性;(3)根据评论中观点的冲突程度分析新闻的真实性,引发激烈讨论且具有冲突意见的观点能够让人对信息的真实性产生足够的怀疑,通过模仿人类理解信息的过程,获得了一定的效果。然而现有方法只注重新闻文本或只关注传播过程的形式,它过于依赖于新闻内容本身,而且对于当前知识匮乏的全新领域,很难有良好的适应性。社交机器人的出现会对传播网络的构建具有一定的干扰性,它增强的曝光率会增强整个网络中用户的传播行为,所以抛开新闻自身,只关注传播过程的方法也具有一定的局限性。
技术实现思路
本专利技术提供一种基于新闻-评论关联性分析的虚假新闻识别方法,用以解决现有虚假新闻识别中片面倚重新闻文本或传播网络而造成识别精度低的技术问题。本专利技术解决上述技术问题的技术方案如下:一种基于新闻-评论关联性分析的虚假新闻识别方法,包括:S1、基于待识别新闻的内容构建其新闻特征矩阵,以及基于待识别新闻的每条评论的内容构建该条评论的特征向量;同时根据评论间回复关系,将每条初始评论作为根节点、每条回复评论作为子节点构建多个评论树;S2、将每个评论树中每个节点的所述特征向量与其父节点的上下文关联特征向量相关联,通过递归计算得到该评论树所有叶子节点的上下文关联特征向量并进行加权计算,得到该评论树的特征向量;S3、匹配所述新闻特征矩阵与所有评论树的特征向量之间的关联性,得到考虑评论的新闻子句间注意力权重,用于对所述新闻特征矩阵中各文本子句对应的向量之间进行加权得到新闻特征向量,以及得到考虑新闻的评论树间注意力权重,用于对各评论树的特征向量之间进行加权得到评论特征向量,基于新闻特征向量和评论特征向量判断新闻的真实性。本专利技术的有益效果是:本方法充分利用新闻和评论信息中引发讨论的内容作为识别新闻真实性的关键内容,基于两者核心观点的匹配程度推断出新闻文本的真实性。其中,构建每条初始评论的评论树,每条初始评论作为根节点、每个回复评论作为子节点,每条评论信息都依赖于其父节点中所包含的语境信息,因此通过将每个评论树中每个节点的特征向量与其父节点的关联上下文信息的特征向量相结合,以计算该节点的关联上下文信息的特征向量,又由于每个叶子节点代表一次讨论的结束,因此,对每个评论树中所有叶子节点的关联上下文信息的特征向量之间进行加权计算,最终得到该评论树(也即每条初始评论)的一维特征向量,该方法得到的每个初始评论的一维特征向量充分融合了该次讨论的关键信息,信息利用率高,以保证了新闻判断的精确性。另外,本方法还对新闻特征矩阵与所有评论树特征向量之间的关联性进行匹配,将两者充分匹配考虑,以分别产生考虑评论的新闻子句间注意力权重以及考虑新闻的评论树间注意力权重,使得最终得到的新闻特征向量和评论特征向量能够有效用于新闻识别。本方法克服现有技术片面倚重新闻文本或传播网络的现象,可以结合评论中的关键信息,尤其是评论回复讨论过程中引入的更多关键信息,新闻判断精确度高,且能够适应大规模社交网络中的虚假新闻识别。上述技术方案的基础上,本专利技术还可以做如下改进。进一步,所述新闻特征矩阵的构建方法具体为:获取待识别新闻的文本内容并对其分句分词,将分词后的单词进行词向量转换;采用循环神经网络将所有所述词向量转换为关联上下文信息的隐状态向量;采用注意力机制,对所述分句得到的每个子句所对应的所有所述隐状态向量进行加权,将该子句表示为一维特征向量,所有子句的特征向量构成待识别新闻的二维新闻特征矩阵。本专利技术的进一步有益效果是:循环神经网络能够通过迭代的形式有效保留语境信息,使得单词之间都能相互关联。对于语义的理解过程,文本序列中的不同信息有不同程度的影响,注意力机制能够在较长的文本序列中从不同的角度进行观察,发现文本序列中最关键的信息并赋予更高的权重,使其在后续的表征向量中起到更重要的作用,因此,利用循环神经网络和注意力机制能够更精准的获得文本中所表达的信息,提升模型的预测效果。进一步,所述基于待识别新闻的每条评论的内容构建该条评论的一维特征向量,具体为:获取每条评论的文本内容并对其分词,将分词后的单词进行词向量转换;采用循环神经网络将所有所述词向量转换为关联上下文信息的隐状态向量;采用注意力机制,对所有所述隐状态向量进行加权,将该条评论表示成一维特征向量。本专利技术的进一步有益效果是:由于评论信息相对新闻文本长度较短,因此不再进行句子级别的拆分,直接将评论看作一句将评论文本转化成向量表示,用于后续的新闻与评论的关联。进一步,所述S1中,所有所述循环神经网络为双向长短期记忆网络。本专利技术的进一步有益效果是:双向长短期记忆网络能够有效获取到上下文语境信息,同时拥有选择记忆和选择遗忘的能力,能够更好地保留距离较远的关键语境信息。在输入文本序列较长的训练模型中,长短期记忆网络能够有效的解决梯度消失问题,获得更好的训练效果,保证本专利技术方法能够适应大规模社交网络中的虚假新闻识别。进一步,所述S2中,采用门循环单元通过递归计算,得到所述所有叶子节点的上下文关联特征向量。本专利技术的进一步有益效果是:相较于其它循环神经网络方法,在树状结构层次较深时也即讨论量大时,门循环单元能够利用重置门控与更新门控有效解决模型训练时的梯度消失问题,有利于本专利技术方法能够适应大规模社交网络中的虚假新闻识别。同时它利用两个门控就能有效获取评论树中的有效讨论信息,减少模型参数,有效提高训练速度。进一步,所述S2中,每个评论树的特征向量构建方法为:基于门循环单元,对每个评论树自顶向下,将当前节点的所述特征向量与其父节点的隐状态向量相结合,计算该节点的用于保留父节点部分隐状态信息的重置门控以及用于调节父节点隐状态信息保留比例的更新门控,通过递归处理,计算出该评论树中所有节点的隐状态向量;使用池化方法处理该评论树所有叶子节点的隐状态向量,得到该评论树的特征向量本文档来自技高网
...

【技术保护点】
1.一种基于新闻-评论关联性分析的虚假新闻识别方法,其特征在于,包括:/nS1、基于待识别新闻内容构建其新闻特征矩阵,以及基于待识别新闻的每条评论的内容构建该条评论的特征向量;同时根据评论间回复关系,将每条初始评论作为根节点、每条回复评论作为子节点构建多个评论树;/nS2、将每个评论树中每个节点的所述特征向量与其父节点的上下文关联特征向量相关联,通过递归计算得到该评论树所有叶子节点的上下文关联特征向量并进行加权计算,得到该评论树的特征向量;/nS3、匹配所述新闻特征矩阵与所有评论树的特征向量之间的关联性,得到考虑评论的新闻子句间注意力权重,用于对所述新闻特征矩阵中各文本子句对应的向量之间进行加权得到新闻特征向量,以及得到考虑新闻的评论树间注意力权重,用于对各评论树的特征向量之间进行加权得到评论特征向量,基于新闻特征向量和评论特征向量判断新闻的真实性。/n

【技术特征摘要】
1.一种基于新闻-评论关联性分析的虚假新闻识别方法,其特征在于,包括:
S1、基于待识别新闻内容构建其新闻特征矩阵,以及基于待识别新闻的每条评论的内容构建该条评论的特征向量;同时根据评论间回复关系,将每条初始评论作为根节点、每条回复评论作为子节点构建多个评论树;
S2、将每个评论树中每个节点的所述特征向量与其父节点的上下文关联特征向量相关联,通过递归计算得到该评论树所有叶子节点的上下文关联特征向量并进行加权计算,得到该评论树的特征向量;
S3、匹配所述新闻特征矩阵与所有评论树的特征向量之间的关联性,得到考虑评论的新闻子句间注意力权重,用于对所述新闻特征矩阵中各文本子句对应的向量之间进行加权得到新闻特征向量,以及得到考虑新闻的评论树间注意力权重,用于对各评论树的特征向量之间进行加权得到评论特征向量,基于新闻特征向量和评论特征向量判断新闻的真实性。


2.根据权利要求1所述的一种基于新闻-评论关联性分析的虚假新闻识别方法,其特征在于,所述新闻特征矩阵的构建方法具体为:
获取待识别新闻的文本内容并对其分句分词,将分词后的单词进行词向量转换;采用循环神经网络将所有所述词向量转换为关联上下文信息的隐状态向量;采用注意力机制,对所述分句得到的每个子句所对应的所有所述隐状态向量进行加权,将该子句表示为一维特征向量,所有子句的特征向量构成待识别新闻的二维新闻特征矩阵。


3.根据权利要求2所述的一种基于新闻-评论关联性分析的虚假新闻识别方法,其特征在于,所述根据待识别新闻的每条评论的内容构建该条评论的一维特征向量,具体为:
获取每条评论的文本内容并对其分词,将分词后的单词进行词向量转换;采用循环神经网络将所有所述词向量转换为关联上下文信息的隐状态向量;采用注意力机制,对所有所述隐状态向量进行加权,将该条评论表示成一维特征向量。


4.根据权利要求3所述的一种基于新闻-评论关联性分析的虚假新闻识别方法,其特征在于,所述S1中的所有所述循环神经网络为双向长短期记忆网络。


5.根据权利要求1至4任一项所述的一种基于新闻-评论关联性分析的虚假新闻识别方法,其特征在于,所述S2中,采用门循环单元通过递归计算,得到所述所有叶子节点的上下文关联特征向量。


6.根据权利要求5所述的一种基于新闻-评论关联性分析的虚假新闻识别方法,其特征在于,所述S2中,每个评论树的特征向量构建方法为:
基于门循环单元,对每个评论树自顶向下,...

【专利技术属性】
技术研发人员:李玉华张文杰李瑞轩辜希武
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1