【技术实现步骤摘要】
一种用户自生产内容检测方法和系统
本专利技术涉及信息挖掘
,特别涉及一种用户自生产内容检测方法和系统。
技术介绍
随着Web2.0时代的到来,各种社交媒体应运而生,社交媒体平台上的各种多媒体数据(图像、视频、音频)呈现爆炸式的增长,我们进入了社交多媒体大数据时代。社交媒体(微博、优酷等)允许用户自生产内容(UserGeneratedContent,UGC),并通过社交网络进行发布、分享、交流和传播。而以多媒体为信息载体通常能够表达更丰富和生动的内容,因此越来越多的多媒体内容出现在社交媒体上。然而,社交平台在加速信息公开的同时,也带来了虚假信息的泛滥。由于普通用户的媒介素养参差不齐,造成UGC新闻普遍存在着虚假、差错、欠准确等问题。由于缺乏有效的谣言检测技术,大量公众人物和主流媒体无意间推转相关虚假新闻,成为很多网络谣言和虚假报道的推波助澜者,严重损害了他们的媒体公信力。因此,在大量虚假新闻充斥网络媒体空间的当下,发展利用计算机技术自动检测虚假谣言的技术至关重要。社交多媒体时代的新闻往往具有多种不同的内容表现形式。社交网络上的一则假新闻,通常会包含文本内容(包 ...
【技术保护点】
1.一种用户自生产内容检测方法,其特征在于,包括:步骤1、获取社交媒体中用户自生产内容的文本内容、图像内容和社交属性,并从该文本内容中抽取词向量特征,从该社交属性中抽取社交属性特征以及从该图像内容中抽取图像特征;步骤2、通过递归神经网络融合该词向量特征和该社交属性特征,得到文本、社交融合特征;步骤3、根据该递归神经网络得到注意力向量,并通过注意力机制将该图像特征处理为注意力融合特征,将该注意力融合特征与该文本、社交融合特征相融合,生成多模态融合特征;步骤4、利用该多模态融合特征训练分类器,以检测该社交媒体中的用户自生产内容。
【技术特征摘要】
1.一种用户自生产内容检测方法,其特征在于,包括:步骤1、获取社交媒体中用户自生产内容的文本内容、图像内容和社交属性,并从该文本内容中抽取词向量特征,从该社交属性中抽取社交属性特征以及从该图像内容中抽取图像特征;步骤2、通过递归神经网络融合该词向量特征和该社交属性特征,得到文本、社交融合特征;步骤3、根据该递归神经网络得到注意力向量,并通过注意力机制将该图像特征处理为注意力融合特征,将该注意力融合特征与该文本、社交融合特征相融合,生成多模态融合特征;步骤4、利用该多模态融合特征训练分类器,以检测该社交媒体中的用户自生产内容。2.如权利要求1所述的用户自生产内容检测方法,其特征在于,该步骤1包括:步骤11、将该文本内容进行分词处理,得到多个单词,针对每个单词利用词向量嵌入模型得到对应的向量表示,并将该向量表示集合为该词向量特征;步骤12、将组织为向量形式的该社交属性输入至全连接层,以生成与该词向量特征维度相等的该社交属性特征;步骤13、将该图像内容输入至卷积神经网络,并对抽取出的特征进行降维处理,得到该图像特征。3.如权利要求1或2所述的用户自生产内容检测方法,其特征在于,该步骤2包括:步骤21、将词向量特征和其相对应的社交属性特征相联结,得到融合特征,将该融合特征输入至递归神经网络中各递归层,并将各递归层输出的向量经过聚合求平均后,得到该文本、社交融合特征。4.如权利要求3所述的用户自生产内容检测方法,其特征在于,该步骤3包括:步骤31、将该递归神经网络中各递归层输出的向量输入至全连接层,得到与该图像特征相同维度的向量,作为该注意力向量;步骤32、以该注意力向量为权值,对该图像特征的每一维度进行加权求和处理,得到注意力值;步骤33、联结该注意力值,得到该注意力融合特征。5.如权利要求1所述的用户自生产内容检测方法,其特征在于,该步骤4还包括:使用该多模态特征和标注的指定用户自生产内容数据,训练得到该分类器,将待检测的用户自生产内容的多模态特征输入该分类器,以检测该社交媒体中的用户自生产...
【专利技术属性】
技术研发人员:曹娟,金志威,上官建峰,张勇东,李锦涛,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。