一种基于会话语境感知的谣言检测方法技术

技术编号:38398302 阅读:11 留言:0更新日期:2023-08-07 11:11
本申请涉及一种基于会话语境感知的谣言检测方法,该方法包括:获取原帖、原贴对应的评论以及评论的语义信息;并将原帖与原贴对应的评论进行拼接,得到拼接文本;对拼接文本进行编码,得到词嵌入;并将词嵌入输入至多评论注意力机制粒度掩码BERT模型,得到模型输出;根据模型输出得到最终会话编码;最终会话编码为以各所述原贴对应的评论为节点的传播图;基于传播图,并根据评论的语义信息,计算出各节点对应的融合评论立场的语义特征;将融合评论立场的语义特征输入至图卷积网络,输出谣言分类结果。该方法能够提高谣言检测的精度,并在谣言传播的早期阶段仍能具有良好的检测能力。言传播的早期阶段仍能具有良好的检测能力。言传播的早期阶段仍能具有良好的检测能力。

【技术实现步骤摘要】
一种基于会话语境感知的谣言检测方法


[0001]本申请涉及谣言检测
,特别是涉及一种基于会话语境感知的谣言检测方法。

技术介绍

[0002]文本分类是自然语言处理中最为重要的子任务之一,而谣言检测则是文本分类任务中的一种特殊任务。基于深度学习的方法在谣言检测方面取得了不错的效果,但在谣言传播早期等特征内容较少的时候,仍然难以准确识别,其主要面临着以下问题:1、传统的基于文本的谣言检测方法在提取特征的时候,只利用原帖的文本来进行特征提取。而在谣言检测任务中,对于原帖的评论同样包含了很多信息,可以从评论对于原帖的情感倾向等信息中获取到关于原帖是否真实的信息。在面对一条来自未知领域的帖子时,能够根据了解该领域的其他用户的评论来度量原帖的真实性。此外,在进行特征提取的时候,使用普通的注意力机制会在不同帖子特征提取的过程中产生相互干扰,影响最终判断精度。
[0003]2、传统的谣言检测方法直接使用评论文本进行特征提取只能捕获到基础的语义信息,而没有注意到评论的立场会对父节点的语义产生影响。例如:评论中表达支持立场的,会让父节点的可信度增加;表达反对立场的,会让父节点的可信度降低。而众多评论立场不一,需要对这些评论立场的影响进行综合计量,以重新调整父节点的语义特征。
[0004]3、传统的基于文本的谣言检测方法在利用谣言语义特征的时候,没有使用到谣言局部传播过程中的结构特征,这些传播结构在面对谣言传播早期出现的评论少、传播结构简单、关注度低等特点时,能够起到至关重要的信息增强作用。而只利用文本语义特征来进行谣言检测是远远不够的,浪费了结构特征会导致最终检测精度不高。

技术实现思路

[0005]基于此,有必要针对上述技术问题提供一种基于会话语境感知的谣言检测方法。
[0006]本专利技术提供了一种基于会话语境感知的谣言检测方法,该方法包括:S1:获取原帖、原贴对应的评论以及评论的语义信息;并将所述原帖与所述原贴对应的评论进行拼接,得到拼接文本;S2:对所述拼接文本进行编码,得到词嵌入;并将所述词嵌入输入至多评论注意力机制粒度掩码BERT模型,得到模型输出;根据所述模型输出得到最终会话编码;所述最终会话编码为以各所述原贴对应的评论为节点的传播图;S3:基于所述传播图,并根据所述评论的语义信息,计算出各节点对应的融合评论立场的语义特征;S4:将所述融合评论立场的语义特征输入至图卷积网络,输出谣言分类结果。
[0007]优选的,S1中,得到拼接文本的过程包括:所述原帖和所述原帖对应的评论组成帖子文本集合;采用分割字符、结尾符号以
及拼接运算符对帖子文本集合中的所有文本进行拼接,得到所述拼接文本,计算公式为:;其中,表示第i个原帖的拼接文本;cls表示分割字符;||表示拼接运算符;sep表示结尾符号;表示第i个原帖的文本内容;表示第i个原帖对应的第1条评论的文本内容。
[0008]优选的,S2中,对所述拼接文本进行编码,得到词嵌入包括:对所有所述拼接文本进行词编码,并融入分割编码和位置编码,得到词嵌入;计算公式为:;其中,E(V
c
)表示词嵌入;E
tok
(
·
)表示词编码;E
seg
(
·
)表示分割编码;E
pos
(
·
)表示位置编码;V
c
表示所有拼接文本。
[0009]优选的,S2中,所述词嵌入输入至多评论注意力机制粒度掩码BERT模型包括编码器,所述编码器包括n层,在前k层设置有注意力掩码机制,在n

k层设置有标准注意力机制;所述词嵌入作为编码器的输入,得到模型输出;计算公式为:;其中,表示第a层的模型输出;AtM()表示注意力掩码机制计算公式;At()表示标准注意力机制计算公式;表示第a

1层的模型输出;表示训练得到的查询权重矩阵;表示训练得到的键权重矩阵;表示值权重矩阵。
[0010]优选的, 所述注意力掩码机制计算公式表示为:;其中,Q表示词嵌入与查询权重矩阵相乘得到的查询矩阵;K表示词嵌入与键权重矩阵相乘得到的键矩阵;V表示词嵌入与值权重矩阵相乘得到的值矩阵;T表示转置;d表示维度;M表示设置的掩码屏蔽矩阵;所述标准注意力机制计算公式表示为:。
[0011]优选的,S2中,对于多评论注意力机制粒度掩码BERT模型最后一层得到的所述模型输出,剔除其中分割字符对应的特征,得到所述最终会话编码;第i个原帖的所述最终会话编码表示为:;表示第i个原帖的传播图中的第1个节点;表示第i个原帖的传播图中的第n
i
个节点;n
i
表示第i个原帖对应的评论的数量。
[0012]优选的,S3中,得到各节点对应的融合评论立场的语义特征的过程包括:S3.1:将原帖的所述传播图作为树,其中的每条评论形成的节点均为上一级文本的子节点;则所述树表示为:;其中,X为评论的语义信息,E为所有边的集合;将第i个原帖的传播图中的所有节点与其对应的评论的语义信息融合,得到立场信息;计算公
式为:;其中,表示第i个原帖的所述传播图中第g个节点的立场信息;x
g
表示第g个节点对应的评论的语义信息;x
h
表示第h个节点对应的评论的语义信息;N(g)表示第g个节点的所有子节点的集合;S3.2:将第g个节点的立场信息融入其父节点中,得到第一融合特征;计算公式为:;其中,表示第g个节点的父节点的第一融合特征;||表示拼接运算符;表示第g个节点与第h个节点之间的边;S3.3:采用线性层对所述第g个节点的父节点的第一融合特征进行降维,得到第个节点对应的融合评论立场的语义特征;计算公式为:;其中,表示第个节点对应的融合评论立场的语义特征;表示激活函数;W1和b1为不同的可训练参数;S3.4:重复执行S3.1

S3.3直至计算完原帖的传播图中所有的节点对应的融合评论立场的语义特征,结束循环;第i个原帖的传播图中所有的节点对应的融合评论立场的语义特征表示为:;表示第i个原帖的传播图中的第1个节点对应的融合评论立场的语义特征;表示第i个原帖的传播图中的第N个节点对应的融合评论立场的语义特征。
[0013]优选的,S4中,将所述融合评论立场的语义特征输入至图卷积网络,输出谣言分类结果包括:S4.1:将计算出的所述融合评论立场的语义特征与原贴的传播图的邻接矩阵一同输入至图卷积网络中,进行快速卷积操作;图卷积网络中每层的快速卷积操作公式为:;其中,表示第+1层的输出;表示激活函数;,表示相加矩阵;A表示原帖的传播图的邻接矩阵,I
Z
表示融合评论立场的语义特征的自传递矩阵;表示相加矩阵中各个元素的度;表示第层的输出;表示第层的权重矩阵;S4.2:经过图卷积网络的层快速卷积操作后,得到融合增强特征表示;计算公式为:;其中,S
i
表示第i个原帖的融合增强特征表示;GCN()表示图卷积网络;表示第i个原帖的传播图中所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于会话语境感知的谣言检测方法,其特征在于,包括:S1:获取原帖、原贴对应的评论以及评论的语义信息;并将所述原帖与所述原贴对应的评论进行拼接,得到拼接文本;S2:对所述拼接文本进行编码,得到词嵌入;并将所述词嵌入输入至多评论注意力机制粒度掩码BERT模型,得到模型输出;根据所述模型输出得到最终会话编码;所述最终会话编码为以各所述原贴对应的评论为节点的传播图;S3:基于所述传播图,并根据所述评论的语义信息,计算出各节点对应的融合评论立场的语义特征;S4:将所述融合评论立场的语义特征输入至图卷积网络,输出谣言分类结果。2.根据权利要求1所述的基于会话语境感知的谣言检测方法,其特征在于,S1中,得到拼接文本的过程包括:所述原帖和所述原帖对应的评论组成帖子文本集合;采用分割字符、结尾符号以及拼接运算符对帖子文本集合中的所有文本进行拼接,得到所述拼接文本,计算公式为:;其中,表示第i个原帖的拼接文本;cls表示分割字符;||表示拼接运算符;sep表示结尾符号;表示第i个原帖的文本内容;表示第i个原帖对应的第1条评论的文本内容。3.根据权利要求2所述的基于会话语境感知的谣言检测方法,其特征在于,S2中,对所述拼接文本进行编码,得到词嵌入包括:对所有所述拼接文本进行词编码,并融入分割编码和位置编码,得到词嵌入;计算公式为:;其中,E(V
c
)表示词嵌入;E
tok
(
·
)表示词编码;E
seg
(
·
)表示分割编码;E
pos
(
·
)表示位置编码;V
c
表示所有拼接文本。4.根据权利要求3所述的基于会话语境感知的谣言检测方法,其特征在于,S2中,所述词嵌入输入至多评论注意力机制粒度掩码BERT模型包括编码器,所述编码器包括n层,在前k层设置有注意力掩码机制,在n

k层设置有标准注意力机制;所述词嵌入作为编码器的输入,得到模型输出;计算公式为:;其中,表示第a层的模型输出;AtM()表示注意力掩码机制计算公式;At()表示标准注意力机制计算公式;表示第a

1层的模型输出;表示训练得到的查询权重矩阵;表示训练得到的键权重矩阵;表示值权重矩阵。5.根据权利要求4所述的基于会话语境感知的谣言检测方法,其特征在于,所述注意力掩码机制计算公式表示为:;
其中,Q表示词嵌入与查询权重矩阵相乘得到的查询矩阵;K表示词嵌入与键权重矩阵相乘得到的键矩阵;V表示词嵌入与值权重矩阵相乘得到的值矩阵;T表示转置;d表示维度;M表示设置的掩码屏蔽矩阵;所述标准注意力机制计算公式表示为:。6.根据权利要求4所述的基于会话语境感知的谣言检测方法,其特征在于,S2中,对于多评论注意力机制粒度掩码BERT模型最后一层得到的所述模型输出,剔除其中分割字符对应的特征,得到所述最终会话编码;第i个原帖的所述最终会话编码表示为:;表示第i个原帖的传播图中的第1个节点;表示第i个原帖的传播图中的第n
i
个节点;n
i
表示第i个原帖对应的评论的数量。7.根据权利要求6所述的基于会话语境感知的谣言检测方法,其特征在于,S3中,得到各节点对应的融合评论立场的语义特征的过程包括:S3.1:将原帖的所述传播图作为树,其中的每条评论...

【专利技术属性】
技术研发人员:黄惟康占英刘优徐伯辰肖峰王青袁泽丰李芳芳
申请(专利权)人:长沙市智为信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1