当前位置: 首页 > 专利查询>复旦大学专利>正文

基于文本内容和行文风格的社交媒体谣言鉴别算法制造技术

技术编号:24353519 阅读:75 留言:0更新日期:2020-06-03 02:05
本发明专利技术属于大数据挖掘技术领域,具体为基于文本内容和行文风格的社交媒体谣言鉴别算法。本发明专利技术算法包括:运用语言学统计词表,得到不同类别的词汇在谣言的与非谣言在文本上的代表性特征;通过GloVe算法训练得到文档向量特征,利用社会心理学词典和维基词典进行词汇分析,得到文本中谣言内容的倾向和行文风格特征;将得到的文档向量特征输入到一个双向长短期记忆网络中,文本内容倾向和行文风格特征输入到一个反向传播神经网络中,作为子网络处理词汇统计特征向量;将两者的输出向量相连接,作为最终反向传播神经网络的输入,得到是否为谣言的最终鉴别结果。本发明专利技术算法鉴别准确率高、计算耗时省。

Social media rumor identification algorithm based on text content and writing style

【技术实现步骤摘要】
基于文本内容和行文风格的社交媒体谣言鉴别算法
本专利技术属于大数据挖掘
,具体涉及一种基于文本内容和行文风格的社交媒体谣言鉴别算法。
技术介绍
近年来,社交媒体发展迅速,被人们越来越广泛地使用,以国外的Facebook、Twitter以及国内的新浪微博为代表的社交媒体已经在全球范围内吸引了数十亿的用户。截止2018年9月,Facebook已经拥有了22.7亿的月度活跃用户,接近世界人口的30%。但在信息的传播方面,社交媒体则是是一把“双刃剑”。一方面,它有着访问容易、成本低廉和信息传播迅速的特性,使人们能够便捷地阅读和分享信息;另方面,它可能传播恶意用户蓄谋发布的谣言,比如恶意用户故意散布的虚假信息的谣言。因为有着广泛的覆盖面和分享这些信息的速度,国内的新浪微博,和国外的Twitter和Facebook等流行的社交媒体平台已被证明是传播伪造信息、虚假声明和捏造“标题党”的故事的重要渠道。随着社交媒体上出现的谣言越来越多,谣言的检测成为学术界、工业界和政府机关面临的一个重要问题。谣言可以被简单定义为欺骗或者误导读者的文本信息,但谣言本文档来自技高网...

【技术保护点】
1.基于文本内容和行文风格的社交媒体谣言鉴别算法,其特征在于,具体步骤如下:/n步骤1:对待鉴别的社交媒体文本进行数据清洗;/n步骤2:对于已经清洗完毕的文本,通过GloVe算法训练,得到文档向量特征;对于已经清洗完毕的文本,利用社会心理学词典和维基词典进行词汇分析,得到文本中内容的倾向和行文风格特征;/n步骤3:将步骤2中得到的文档向量特征输入到一个双向长短期记忆网络中,将步骤2中得到的文本内容倾向和行文风格特征输入到一个反向传播神经网络中,作为子网络处理词汇统计特征向量,将两者的输出向量相连接,作为最终反向传播神经网络的输入,得到是否为谣言的最终鉴别结果。/n

【技术特征摘要】
1.基于文本内容和行文风格的社交媒体谣言鉴别算法,其特征在于,具体步骤如下:
步骤1:对待鉴别的社交媒体文本进行数据清洗;
步骤2:对于已经清洗完毕的文本,通过GloVe算法训练,得到文档向量特征;对于已经清洗完毕的文本,利用社会心理学词典和维基词典进行词汇分析,得到文本中内容的倾向和行文风格特征;
步骤3:将步骤2中得到的文档向量特征输入到一个双向长短期记忆网络中,将步骤2中得到的文本内容倾向和行文风格特征输入到一个反向传播神经网络中,作为子网络处理词汇统计特征向量,将两者的输出向量相连接,作为最终反向传播神经网络的输入,得到是否为谣言的最终鉴别结果。


2.根据权利要求1所述的基于文本内容和行文风格的社交媒体谣言鉴别算法,其特征在于,步骤1具体包括:
步骤1-1:所述数据清洗,包括:清除所有非字母的字符,删除所有的无用词,删除所有缺失的行;
步骤1-2:根据数据的人为标定标签进行分类,分为谣言和非谣言两类。


3.根据权利要求1所述的基于文本内容和行文风格的社交媒体谣言鉴别算法,其特征在于,步骤2具体包括:
步骤2-1:对于已经清洗完毕的社交媒体文本,选择使用GloVe算法[1]对文本进行向量化表示;
步骤2-2:对于已经清洗完毕的社交媒体文本,利用预先设计好的社会心理学词典和维基词典进行词汇分析,得到谣言文本中内容的倾向和行文风格特征。


4.根据权利要求1所述的基于文本内容和行文风格的社交媒体谣言鉴别算法,其特征在于,步骤...

【专利技术属性】
技术研发人员:周孟莹陈阳何东
申请(专利权)人:复旦大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1