【技术实现步骤摘要】
一种基于超图注意力网络的社交媒体贴文真实性检测方法
本专利技术涉及贴文检测的
,尤其涉及一种基于超图注意力网络的社交媒体贴文真实性检测方法。
技术介绍
随着互联网上社交媒体的快速发展,诸如Twitter,微博,Facebook这样的社交媒体平台成为了信息传播和信息共享的主要工具。社交媒体打破了人与人之间的物理距离障碍,凭借其参与、公开、交流、对话、连通性、社区化的六大特性,提高了相互交流的频率、加快了相互交流的速度、扩展了相互交流的广度与深度。根据2020年全球数字报告,全球有38亿人正在使用社交媒体平台,其中Twitter的日活跃用户已达到1.45亿,微博的平均日活跃用户达到2.29亿。虽然社交媒体给人们的生活提供了便利,但是在此背景下,由于媒体大批量地生产信息,高速率地传播信息,引发了大数据背景下的信息泛滥的问题。同时,社交媒体平台传播贴文的低成本性也在一定程度上加大了贴文检测的难度。此时,如果没有准确的工具来检测信息的真实性,就可能造成未经核实的信息衍生并传播的问题。贴文检测变得越来越重要,具有一定准确性的贴文检测可以在许多方面造福于个人甚至于整个社会。识别贴文能够帮助社交媒体供应商对其业务范围进行优化调整。但在社交媒体时代,贴文检测仍面临着很多现实的挑战。首先,贴文是由传播源展开,由不同回复分支传播的发散结构。到目前为止,为了拟合这种传播结构,还有很多工作要做。由于社交媒体数据的表现形式多样化,内容质量参差不齐等原因,贴文是通过各种社交媒体渠道传播的对事实,事件或公共利益问题的未经证实的 ...
【技术保护点】
1.一种基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,具体包括如下步骤:/nS1:对社交媒体贴文文本数据的数据预处理,划分为会话,回复分支,帖子的层级结构,源帖子用s表示,回复分支由branch表示,一条源帖子和多个回复分支[branch
【技术特征摘要】
1.一种基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,具体包括如下步骤:
S1:对社交媒体贴文文本数据的数据预处理,划分为会话,回复分支,帖子的层级结构,源帖子用s表示,回复分支由branch表示,一条源帖子和多个回复分支[branch1,branch2,...,branchn]共同构成一个会话,其中n表示会话中分支数量;回复分支中的回复帖用r表示,每条回复分支用[s,r1,r2,...,rm]表示,其中m表示回复分支中的帖子数量;
S2:对经S1处理后的社交媒体贴文文本数据进行帖子属性特征提取,表示为向量的形式;
S3:对经S1处理后的社交媒体贴文文本数据进行帖子文本嵌入,获得每条帖子的向量表示;
S4:将S2和S3得到的向量拼接,作为超图结构的图节点;
S5:将回复分支branch作为连接多个图节点的超边,超边的集合与S4中的图节点组成的集合,共同构成一个超图结构,将超图结构的特征向量表示输入图注意力网络学习,从而构建一个基于会话-回复分支-帖子的超图注意力网络模型;
S6:将S5中超图注意力网络模型有监督学习从而形成一个分类器,用于预测源帖子的真实性标签Labelrumor,则分类器的定义为:{s,r1,r2,...,rm}→Labelrumor;真实性标签Labelrumor分为“真”、“假”、“未认定”这三个类别:
(1)。
2.根据权利要求1所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,S1中,具体包括以下步骤:
S1.1:进行数据清洗和数据标准化的步骤,数据清洗包括去除代码标签和删除无关的干扰符号,至少包括:换行符“\n”,制表符“\t”,同时,删除与上下文无关的句柄符号“@user”,数据标准化包括使用python第三方库emoji将emoji表情符号转化为英文表达;使用python语言中的tweet预处理库tweet-processor将上下文语料中的URL标准化为“urlurlurl”,将图片转化为“picpicpic”;使用python语言中的NLTK和spaCy库删除停用词并为上下文语料分词;
S1.2:将原始语料组织成会话的形式,具体做法为从原始语料中获取每个会话的分支结构,通过分支结构梳理帖子的组成结构,并按每个分支中的帖子ID对其进行排序,将会话中的分支用“$branch$”分隔,分支中的帖子用“\t”分隔,以区分会话中的层级关系,将语料组织为每行一个会话的形式。
3.根据权利要求1所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,S2中:
将提取的帖子属性特征包括:内容特征、情感特征、虚假信息特征和相关特征;
所述内容特征包括:是否包含符号;内容长度;帖子中大写字母占字符数的比例;以“wh”开头的单词数;
所述情感特征包括:帖子中包含的否定词数量;帖子中表示可能性的标签数量;
所述虚假信息特征包括:帖子中的表示“fake”的同义词数量;帖子中的“fake”的反义词数量;判断帖子中是否包含“rumor”或“gossip”或“hoax”之类的词;
所述相关特征包括:当前帖子和源帖子之间的余弦相似度特征;当前帖子和当前帖子的前一条帖子的序列之间的余弦相似度特征。
4.根据权利要求3所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,S2中:
内容特征中:
是否包含符号包括:问号,感叹号,句号,#号标签,URL或图片;
以“wh”开头的单词包括:“what”,“when”,“why”和“where”;
情感特征中:
否定词包括:not”,“no”,“nobody”,“nothing”,“none”和“never”;
可能性的标签包括:“WRB”,“WP$”,“WP”,“WDT”,“VBZ”,“VBP”,“VBN”和“VBG”;
虚假信息特征中:
“fake”的同义词包括:“bogus”,“deceitful”,“dishonest”,“distorted”,“erroneous”;
“fake”的反义词包括:“accurate”,“authentic”,“correct”,“fair”,“faithful”和“frank”。
5.根据权利要求1所述的基于超图注意力网络的社交媒体贴文真实性检测方法,其特征在于,S3中:
采...
【专利技术属性】
技术研发人员:李芳芳,宁肯,张盼曦,李伟,
申请(专利权)人:中南大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。