当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于超图注意力网络的社交媒体贴文真实性检测方法技术

技术编号:29673540 阅读:11 留言:0更新日期:2021-08-13 21:55
本发明专利技术涉及贴文检测的技术领域,公开了一种基于超图注意力网络的社交媒体贴文真实性检测方法,具体包括如下步骤:S1:对社交媒体贴文文本数据的数据预处理,划分为会话,回复分支,帖子的层级结构;S2:对经S1处理后的社交媒体贴文文本数据进行帖子属性特征提取;S3:对经S1处理后的社交媒体贴文文本数据进行帖子文本嵌入;S4:将S2和S3得到的向量拼接,作为超图结构的图节点;S5:将回复分支作为超边,超边与图节点组成的集合,共同构成超图,将超图结构的特征输入图注意力网络学习,从而构建超图注意力网络模型;S6:将S5中超图注意力网络模型用于预测源帖的真实性。本发明专利技术构建超图注意力模型,提高模型表达能力。

【技术实现步骤摘要】
一种基于超图注意力网络的社交媒体贴文真实性检测方法
本专利技术涉及贴文检测的
,尤其涉及一种基于超图注意力网络的社交媒体贴文真实性检测方法。
技术介绍
随着互联网上社交媒体的快速发展,诸如Twitter,微博,Facebook这样的社交媒体平台成为了信息传播和信息共享的主要工具。社交媒体打破了人与人之间的物理距离障碍,凭借其参与、公开、交流、对话、连通性、社区化的六大特性,提高了相互交流的频率、加快了相互交流的速度、扩展了相互交流的广度与深度。根据2020年全球数字报告,全球有38亿人正在使用社交媒体平台,其中Twitter的日活跃用户已达到1.45亿,微博的平均日活跃用户达到2.29亿。虽然社交媒体给人们的生活提供了便利,但是在此背景下,由于媒体大批量地生产信息,高速率地传播信息,引发了大数据背景下的信息泛滥的问题。同时,社交媒体平台传播贴文的低成本性也在一定程度上加大了贴文检测的难度。此时,如果没有准确的工具来检测信息的真实性,就可能造成未经核实的信息衍生并传播的问题。贴文检测变得越来越重要,具有一定准确性的贴文检测可以在许多方面造福于个人甚至于整个社会。识别贴文能够帮助社交媒体供应商对其业务范围进行优化调整。但在社交媒体时代,贴文检测仍面临着很多现实的挑战。首先,贴文是由传播源展开,由不同回复分支传播的发散结构。到目前为止,为了拟合这种传播结构,还有很多工作要做。由于社交媒体数据的表现形式多样化,内容质量参差不齐等原因,贴文是通过各种社交媒体渠道传播的对事实,事件或公共利益问题的未经证实的陈述或诠释。如何依据贴文文本内容及其传播途径来对贴文进行准确检测已经引起了研究者们的广泛关注。虽然现有研究在贴文检测任务上取得了一些成绩,但当前贴文检测任务还存在以下的几个问题:(1)现有方法较少地考虑了贴文特殊的会话结构以及贴文扩散式的传播方式。存在对贴文的传播结构建模不充分的问题。(2)带有标签的贴文数据中存在数据不平衡的问题。
技术实现思路
本专利技术的目的是提供一种基于超图注意力网络的社交媒体贴文真实性检测方法,本专利技术构建了一个会话-分支-tweet的超图注意力模型(CBT-HGAT),用于从贴文传播和散布中获取结构特征以检测贴文,从而提高模型的表达能力。为达到上述目的而采用了一种基于超图注意力网络的社交媒体贴文真实性检测方法,具体包括如下步骤:S1:对社交媒体贴文文本数据的数据预处理,划分为会话,回复分支,帖子的层级结构,源帖子用s表示,回复分支由branch表示,一条源帖子和多个回复分支[branch1,branch2,...,branchn]共同构成一个会话,其中n表示会话中分支数量;回复分支中的回复帖用r表示,每条回复分支用[s,r1,r2,...,rm]表示,其中m表示回复分支中的帖子数量;S2:对经S1处理后的社交媒体贴文文本数据进行帖子属性特征提取,表示为向量的形式;S3:对经S1处理后的社交媒体贴文文本数据进行帖子文本嵌入,获得每条帖子的向量表示;S4:将S2和S3得到的向量拼接,作为超图结构的图节点;S5:将回复分支branch作为连接多个图节点的超边,超边的集合与S4中的图节点组成的集合,共同构成一个超图结构,将超图结构的特征向量表示输入图注意力网络学习,从而构建一个基于会话-回复分支-帖子的超图注意力网络模型;S6:将S5中超图注意力网络模型有监督学习从而形成一个分类器,用于预测源帖子的真实性标签Labelrumor,则分类器的定义为:{s,r1,r2,...,rm}→Labelrumor;真实性标签Labelrumor分为“真”、“假”、“未认定”这三个类别:(1)。作为本专利技术基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S1中,具体包括以下步骤:S1.1:进行数据清洗和数据标准化的步骤,数据清洗包括去除代码标签和删除无关的干扰符号,至少包括:换行符“\n”,制表符“
”,同时,删除与上下文无关的句柄符号“@user”,数据标准化包括使用python第三方库emoji将emoji表情符号转化为英文表达;使用python语言中的tweet预处理库tweet-processor将上下文语料中的URL标准化为“urlurlurl”,将图片转化为“picpicpic”;使用python语言中的NLTK和spaCy库删除停用词并为上下文语料分词;S1.2:将原始语料组织成会话的形式,具体做法为从原始语料中获取每个会话的分支结构,通过分支结构梳理帖子的组成结构,并按每个分支中的帖子ID对其进行排序,将会话中的分支用“$branch$”分隔,分支中的帖子用“”分隔,以区分会话中的层级关系,将语料组织为每行一个会话的形式。作为本专利技术基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S2中:将提取的帖子属性特征包括:内容特征、情感特征、虚假信息特征和相关特征;所述内容特征包括:是否包含符号;内容长度;帖子中大写字母占字符数的比例;以“wh”开头的单词数;所述情感特征包括:帖子中包含的否定词数量;帖子中表示可能性的标签数量;所述虚假信息特征包括:帖子中的表示“fake”的同义词数量;帖子中的“fake”的反义词数量;判断帖子中是否包含“rumor”或“gossip”或“hoax”之类的词;所述相关特征包括:当前帖子和源帖子之间的余弦相似度特征;当前帖子和当前帖子的前一条帖子的序列之间的余弦相似度特征。作为本专利技术基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S2中:内容特征中:是否包含符号包括:问号,感叹号,句号,#号标签,URL或图片;以“wh”开头的单词包括:“what”,“when”,“why”和“where”;情感特征中:否定词包括:not”,“no”,“nobody”,“nothing”,“none”和“never”;可能性的标签包括:“WRB”,“WP$”,“WP”,“WDT”,“VBZ”,“VBP”,“VBN”和“VBG”;虚假信息特征中:“fake”的同义词包括:“bogus”,“deceitful”,“dishonest”,“distorted”,“erroneous”;“fake”的反义词包括:“accurate”,“authentic”,“correct”,“fair”,“faithful”和“frank”。作为本专利技术基于超图注意力网络的社交媒体贴文真实性检测方法进一步的改进,S3中:采用预训练模型BERT,在帖子层级结构对每条帖子进行嵌入表示,具体为使用BERT的MLM来掩盖帖子中部分单词,通过预测这些被掩盖的单词,获得每条帖子的向量表示;在BERT预训练前,使用特殊标记“[CLS]”和“[SEP]”来分隔每条帖子,在帖子的开头放置“[CLS]”,在帖子的末尾放置“[SEP]”,将语料组织为“本文档来自技高网
...

【技术保护点】
1.一种基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,具体包括如下步骤:/nS1:对社交媒体贴文文本数据的数据预处理,划分为会话,回复分支,帖子的层级结构,源帖子用s表示,回复分支由branch表示,一条源帖子和多个回复分支[branch

【技术特征摘要】
1.一种基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,具体包括如下步骤:
S1:对社交媒体贴文文本数据的数据预处理,划分为会话,回复分支,帖子的层级结构,源帖子用s表示,回复分支由branch表示,一条源帖子和多个回复分支[branch1,branch2,...,branchn]共同构成一个会话,其中n表示会话中分支数量;回复分支中的回复帖用r表示,每条回复分支用[s,r1,r2,...,rm]表示,其中m表示回复分支中的帖子数量;
S2:对经S1处理后的社交媒体贴文文本数据进行帖子属性特征提取,表示为向量的形式;
S3:对经S1处理后的社交媒体贴文文本数据进行帖子文本嵌入,获得每条帖子的向量表示;
S4:将S2和S3得到的向量拼接,作为超图结构的图节点;
S5:将回复分支branch作为连接多个图节点的超边,超边的集合与S4中的图节点组成的集合,共同构成一个超图结构,将超图结构的特征向量表示输入图注意力网络学习,从而构建一个基于会话-回复分支-帖子的超图注意力网络模型;
S6:将S5中超图注意力网络模型有监督学习从而形成一个分类器,用于预测源帖子的真实性标签Labelrumor,则分类器的定义为:{s,r1,r2,...,rm}→Labelrumor;真实性标签Labelrumor分为“真”、“假”、“未认定”这三个类别:

(1)。


2.根据权利要求1所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,S1中,具体包括以下步骤:
S1.1:进行数据清洗和数据标准化的步骤,数据清洗包括去除代码标签和删除无关的干扰符号,至少包括:换行符“\n”,制表符“\t”,同时,删除与上下文无关的句柄符号“@user”,数据标准化包括使用python第三方库emoji将emoji表情符号转化为英文表达;使用python语言中的tweet预处理库tweet-processor将上下文语料中的URL标准化为“urlurlurl”,将图片转化为“picpicpic”;使用python语言中的NLTK和spaCy库删除停用词并为上下文语料分词;
S1.2:将原始语料组织成会话的形式,具体做法为从原始语料中获取每个会话的分支结构,通过分支结构梳理帖子的组成结构,并按每个分支中的帖子ID对其进行排序,将会话中的分支用“$branch$”分隔,分支中的帖子用“\t”分隔,以区分会话中的层级关系,将语料组织为每行一个会话的形式。


3.根据权利要求1所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,S2中:
将提取的帖子属性特征包括:内容特征、情感特征、虚假信息特征和相关特征;
所述内容特征包括:是否包含符号;内容长度;帖子中大写字母占字符数的比例;以“wh”开头的单词数;
所述情感特征包括:帖子中包含的否定词数量;帖子中表示可能性的标签数量;
所述虚假信息特征包括:帖子中的表示“fake”的同义词数量;帖子中的“fake”的反义词数量;判断帖子中是否包含“rumor”或“gossip”或“hoax”之类的词;
所述相关特征包括:当前帖子和源帖子之间的余弦相似度特征;当前帖子和当前帖子的前一条帖子的序列之间的余弦相似度特征。


4.根据权利要求3所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,S2中:
内容特征中:
是否包含符号包括:问号,感叹号,句号,#号标签,URL或图片;
以“wh”开头的单词包括:“what”,“when”,“why”和“where”;
情感特征中:
否定词包括:not”,“no”,“nobody”,“nothing”,“none”和“never”;
可能性的标签包括:“WRB”,“WP$”,“WP”,“WDT”,“VBZ”,“VBP”,“VBN”和“VBG”;
虚假信息特征中:
“fake”的同义词包括:“bogus”,“deceitful”,“dishonest”,“distorted”,“erroneous”;
“fake”的反义词包括:“accurate”,“authentic”,“correct”,“fair”,“faithful”和“frank”。


5.根据权利要求1所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,S3中:
采...

【专利技术属性】
技术研发人员:李芳芳宁肯张盼曦李伟
申请(专利权)人:中南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1