一种基于会话语境感知的谣言检测方法技术

技术编号：38398302 阅读：11 留言：0更新日期：2023-08-07 11:11

本申请涉及一种基于会话语境感知的谣言检测方法，该方法包括：获取原帖、原贴对应的评论以及评论的语义信息；并将原帖与原贴对应的评论进行拼接，得到拼接文本；对拼接文本进行编码，得到词嵌入；并将词嵌入输入至多评论注意力机制粒度掩码BERT模型，得到模型输出；根据模型输出得到最终会话编码；最终会话编码为以各所述原贴对应的评论为节点的传播图；基于传播图，并根据评论的语义信息，计算出各节点对应的融合评论立场的语义特征；将融合评论立场的语义特征输入至图卷积网络，输出谣言分类结果。该方法能够提高谣言检测的精度，并在谣言传播的早期阶段仍能具有良好的检测能力。言传播的早期阶段仍能具有良好的检测能力。言传播的早期阶段仍能具有良好的检测能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于会话语境感知的谣言检测方法

[0001]本申请涉及谣言检测
，特别是涉及一种基于会话语境感知的谣言检测方法。

技术介绍

[0002]文本分类是自然语言处理中最为重要的子任务之一，而谣言检测则是文本分类任务中的一种特殊任务。基于深度学习的方法在谣言检测方面取得了不错的效果，但在谣言传播早期等特征内容较少的时候，仍然难以准确识别，其主要面临着以下问题：1、传统的基于文本的谣言检测方法在提取特征的时候，只利用原帖的文本来进行特征提取。而在谣言检测任务中，对于原帖的评论同样包含了很多信息，可以从评论对于原帖的情感倾向等信息中获取到关于原帖是否真实的信息。在面对一条来自未知领域的帖子时，能够根据了解该领域的其他用户的评论来度量原帖的真实性。此外，在进行特征提取的时候，使用普通的注意力机制会在不同帖子特征提取的过程中产生相互干扰，影响最终判断精度。
[0003]2、传统的谣言检测方法直接使用评论文本进行特征提取只能捕获到基础的语义信息，而没有注意到评论的立场会对父节点的语义产生影响。例如：评论中表达支持立场的，会让父节点的可信度增加；表达反对立场的，会让父节点的可信度降低。而众多评论立场不一，需要对这些评论立场的影响进行综合计量，以重新调整父节点的语义特征。
[0004]3、传统的基于文本的谣言检测方法在利用谣言语义特征的时候，没有使用到谣言局部传播过程中的结构特征，这些传播结构在面对谣言传播早期出现的评论少、传播结构简单、关注度低等特点时，能够起到至关重要的信息增强作用。而只利用文本语义特征来进行...

【技术保护点】

【技术特征摘要】
1.一种基于会话语境感知的谣言检测方法，其特征在于，包括：S1：获取原帖、原贴对应的评论以及评论的语义信息；并将所述原帖与所述原贴对应的评论进行拼接，得到拼接文本；S2：对所述拼接文本进行编码，得到词嵌入；并将所述词嵌入输入至多评论注意力机制粒度掩码BERT模型，得到模型输出；根据所述模型输出得到最终会话编码；所述最终会话编码为以各所述原贴对应的评论为节点的传播图；S3：基于所述传播图，并根据所述评论的语义信息，计算出各节点对应的融合评论立场的语义特征；S4：将所述融合评论立场的语义特征输入至图卷积网络，输出谣言分类结果。2.根据权利要求1所述的基于会话语境感知的谣言检测方法，其特征在于，S1中，得到拼接文本的过程包括：所述原帖和所述原帖对应的评论组成帖子文本集合；采用分割字符、结尾符号以及拼接运算符对帖子文本集合中的所有文本进行拼接，得到所述拼接文本，计算公式为：；其中，表示第i个原帖的拼接文本；cls表示分割字符；||表示拼接运算符；sep表示结尾符号；表示第i个原帖的文本内容；表示第i个原帖对应的第1条评论的文本内容。3.根据权利要求2所述的基于会话语境感知的谣言检测方法，其特征在于，S2中，对所述拼接文本进行编码，得到词嵌入包括：对所有所述拼接文本进行词编码，并融入分割编码和位置编码，得到词嵌入；计算公式为：；其中，E(V
c
)表示词嵌入；E
tok
(
·
)表示词编码；E
seg
(
·
)表示分割编码；E
pos
(
·
)表示位置编码；V
c
表示所有拼接文本。4.根据权利要求3所述的基于会话语境感知的谣言检测方法，其特征在于，S2中，所述词嵌入输入至多评论注意力机制粒度掩码BERT模型包括编码器，所述编码器包括n层，在前k层设置有注意力掩码机制，在n
‑
k层设置有标准注意力机制；所述词嵌入作为编码器的输入，得到模型输出；计算公式为：；其中，表示第a层的模型输出；AtM()表示注意力掩码机制计算公式；At()表示标准注意力机制计算公式；表示第a
‑
1层的模型输出；表示训练得到的查询权重矩阵；表示训练得到的键权重矩阵；表示值权重矩阵。5.根据权利要求4所述的基于会话语境感知的谣言检测方法，其特征在于，所述注意力掩码机制计算公式表示为：；
其中，Q表示词嵌入与查询权重矩阵相乘得到的查询矩阵；K表示词嵌入与键权重矩阵相乘得到的键矩阵；V表示词嵌入与值权重矩阵相乘得到的值矩阵；T表示转置；d表示维度；M表示设置的掩码屏蔽矩阵；所述标准注意力机制计算公式表示为：。6.根据权利要求4所述的基于会话语境感知的谣言检测方法，其特征在于，S2中，对于多评论注意力机制粒度掩码BERT模型最后一层得到的所述模型输出，剔除其中分割字符对应的特征，得到所述最终会话编码；第i个原帖的所述最终会话编码表示为：；表示第i个原帖的传播图中的第1个节点；表示第i个原帖的传播图中的第n
i
个节点；n
i
表示第i个原帖对应的评论的数量。7.根据权利要求6所述的基于会话语境感知的谣言检测方法，其特征在于，S3中，得到各节点对应的融合评论立场的语义特征的过程包括：S3.1：将原帖的所述传播图作为树，其中的每条评论...

【专利技术属性】
技术研发人员：黄惟，康占英，刘优，徐伯辰，肖峰，王青，袁泽丰，李芳芳，
申请(专利权)人：长沙市智为信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人