一种基于检索辅助的谣言检测方法及系统技术方案

技术编号:22000351 阅读:41 留言:0更新日期:2019-08-31 05:26
本发明专利技术提出一种基于检索辅助的谣言检测方法及系统,包括:获取待谣言检测的对象信息,并使用谣言检测算法对该对象信息进行判定,得到该对象信息的初步谣言检测结果;集合已标记谣言标签的谣言信息作为谣言库,抽取得到该对象信息的关键词,以该关键词检索该谣言库,得到该谣言库中与该对象信息相似的多条相似谣言,计算每一条该相似谣言与该对象信息之间的相似度,以为每一条该相似谣言赋予权重,并根据每一条该相似谣言的谣言标签和权重,加权求和得到该多条相似谣言的辅助谣言检测结果;根据该初步谣言检测结果和该辅助谣言检测结果,综合判定该对象信息的谣言标签。

A Rumor Detection Method and System Based on Retrieval Assistance

【技术实现步骤摘要】
一种基于检索辅助的谣言检测方法及系统
本专利技术涉及大数据挖掘中的新闻检测领域,特别涉及一种基于检索辅助的谣言检测方法及系统。
技术介绍
社交媒体的蓬勃发展改变了用户获取信息的方式,越来越多的用户倾向于在社交媒体中获取与发布信息,但是这也为谣言的滋生与快速传播提供了方便,肆意散布的谣言可能会引起社会恐慌。例如,在2015年8月25日,有谣言称墨西哥维拉克鲁斯一幼儿园内被吸毒分子挟持,发生枪击事件,该谣言迅速在Twitter与Facebook中传播,导致当日该城市发生至少26起车祸。但传统的基于人工审核的谣言检测系统往往需要大量的人工,耗时耗力,且难以实时的对谣言信息作出判定,因此亟需一种自动化检测系统对谣言信息进行实时判定。现有的谣言检测算法使用机器学习方法配合人工抽取的特征共同判定谣言,Castillo等人从新闻内容、用户属性、传播特征等方面抽取了大量特征,在此基础上,Adrien,Aniko等人在此工作基础上又提出了一些新的时序特征来表示谣言的散布特征,这些方法在谣言检测中取得了一定的成效。与定义一系列复杂特征不同,Zhao等人通过一系列正则表达式来进行谣言的初筛(如:真的吗?是这样吗?),然后通过专家再进行人为判定。近期Ma等人使用循环神经网络(RNN)来自动学习不同时间段内谣言及谣言散布者的特征,取得了优于传统方法的效果。专利技术人在进行谣言检测研究时发现,现有方法通常单独的处理每一条信息,忽视了信息与信息之间的相关性。实际上,日常接触到的谣言往往是旧料翻新,即将以往谣言进行一定修改后再次发布,针对这类谣言,利用以往的相关谣言的判定结果对其进行判定往往比单纯使用算法对其判定效果要大有提升。
技术实现思路
针对以上问题,本专利技术提出了一种基于检索辅助的谣言检测系统。该系统在使用谣言检测算法进行自动判定的同时,使用搜索算法在系统的谣言库中检索,筛选出与当前信息相似的历史谣言,并利用其标签辅助判定当前信息。针对现有技术的不足,本专利技术提出一种基于检索辅助的谣言检测方法,其中包括:步骤1、获取待谣言检测的对象信息,并使用谣言检测算法对该对象信息进行判定,得到该对象信息的初步谣言检测结果;步骤2、集合已标记谣言标签的谣言信息作为谣言库,抽取得到该对象信息的关键词,以该关键词检索该谣言库,得到该谣言库中与该对象信息相似的多条相似谣言,计算每一条该相似谣言与该对象信息之间的相似度,以为每一条该相似谣言赋予权重,并根据每一条该相似谣言的谣言标签和权重,加权求和得到该多条相似谣言的辅助谣言检测结果;步骤3、根据该初步谣言检测结果和该辅助谣言检测结果,综合判定该对象信息的谣言标签。所述的基于检索辅助的谣言检测方法,其中该步骤2包括:步骤21、根据该关键词得到该谣言库中谣言信息与该对象信息的相似度,并根据相似度大小排序,选取排序中相似度大于阈值的前k条谣言信息作为该多条相似谣言,其中k为正整数。所述的基于检索辅助的谣言检测方法,其中该权重赋予的方法为:第i条相似谣言权重计算方法如下:i=1,2,3,…,k其中wi为第i条相似谣言的权重,e(·)为指数运算操作。所述的基于检索辅助的谣言检测方法,其中该辅助谣言检测结果的计算方法如下:其中li表示第i条相似谣言的谣言标签,α为该辅助谣言检测结果。所述的基于检索辅助的谣言检测方法,其中步骤3中该对象信息的谣言标签计算方法如下:ω=0.5*α+0.5*βl=f(ω)f(ω)=2*sigmoid(ω)-1其中β为该初步谣言检测结果,sigmoid(·)为激活函数,f(ω)为类别标签计算函数。其中还包括:步骤4、将该对象信息的谣言标签通过人工复核认证后,追加到该谣言库中,以动态维护该谣言库。本专利技术还提出了一种基于检索辅助的谣言检测系统,其中包括:模块1、获取待谣言检测的对象信息,并使用谣言检测算法对该对象信息进行判定,得到该对象信息的初步谣言检测结果;模块2、集合已标记谣言标签的谣言信息作为谣言库,抽取得到该对象信息的关键词,以该关键词检索该谣言库,得到该谣言库中与该对象信息相似的多条相似谣言,计算每一条该相似谣言与该对象信息之间的相似度,以为每一条该相似谣言赋予权重,并根据每一条该相似谣言的谣言标签和权重,加权求和得到该多条相似谣言的辅助谣言检测结果;模块3、根据该初步谣言检测结果和该辅助谣言检测结果,综合判定该对象信息的谣言标签。所述的基于检索辅助的谣言检测系统,其中该模块2包括:模块21、根据该关键词得到该谣言库中谣言信息与该对象信息的相似度,并根据相似度大小排序,选取排序中相似度大于阈值的前k条谣言信息作为该多条相似谣言,其中k为正整数;且该权重赋予的模块为:第i条相似谣言权重计算模块如下:i=1,2,3,…,k其中wi为第i条相似谣言的权重,e(·)为指数运算操作。所述的基于检索辅助的谣言检测系统,其中该辅助谣言检测结果的计算模块如下:其中li表示第i条相似谣言的谣言标签,α为该辅助谣言检测结果;模块3中该对象信息的谣言标签计算模块如下:ω=0.5*α+0.5*βl=f(ω)f(ω)=2*sigmoid(ω)-1其中β为该初步谣言检测结果,sigmoid(·)为激活函数,f(ω)为类别标签计算函数。所述的基于检索辅助的谣言检测系统,其中还包括:模块4、将该对象信息的谣言标签通过人工复核认证后,追加到该谣言库中,以动态维护该谣言库。由以上方案可知,本专利技术的优点在于:由于基于检索辅助的谣言检测方法提出,本专利技术与现有专利技术方法相比,在谣言判别的准确度上有了更高的识别精度。以往的自动谣言检测系统往往单纯的依赖于算法判定,当当前待测信息所包含的信息特征较少时,其判定算法往往难以给出准确度判定结果。不同与此,本专利技术提出的基于检索辅助的谣言检测方法在利用算法自动判定的同时在系统的历史谣言库中检索相关谣言,并利用相关谣言的判定结果辅助判定当前信息。是的本专利技术在判定谣言的过程中具有更高的识别准确度。附图说明图1为本专利技术基于检索辅助的谣言检测系统框架图。具体实施方式本专利技术的目的是提供一种基于检索辅助的谣言检测系统,主要解决的问题是,如何利用相似的历史谣言信息来辅助判别当前谣言的真假,以提高自动检测谣言系统的识别准确度。主要包括:1、相关谣言检索:相关谣言即当前信息在谣言历史库中的相似样本,为当前信息的谣言判定提供辅助判定信息。相关谣言检索的质量直接决定了其提供的辅助判定信息的质量,越准确地相关谣言检索质量其能提供的辅助判定信息越优秀,从而使谣言检测系统的判定准确率越高。2、相关谣言提供辅助判别:本专利技术在检索出相关谣言后,对相关谣言进行排序过滤。筛选出与待检索信息最相似的k条谣言并对其赋予不同的权重,相关谣言标签的加权和为待检测信息提供辅助判定信息。3、综合判定与更新谣言库:在本专利技术中,系统对待测信息的判定是综合算法判定结果与相关谣言的辅助判别信息共同判定的。两种判定结果通过加权的方式融合,作为最终的系统判定结果。该结果经过人工复核后添加到历史谣言库中,为后续信息判别提供辅助依据。为让本专利技术的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。一、相关谣言检索相关谣言检索是本专利技术核心专利技术点。在这一部分中,使用信息检索技术从既有历史谣言库中检索与当前待检测信息相关度本文档来自技高网
...

【技术保护点】
1.一种基于检索辅助的谣言检测方法,其特征在于,包括:步骤1、获取待谣言检测的对象信息,并使用谣言检测算法对该对象信息进行判定,得到该对象信息的初步谣言检测结果;步骤2、集合已标记谣言标签的谣言信息作为谣言库,抽取得到该对象信息的关键词,以该关键词检索该谣言库,得到该谣言库中与该对象信息相似的多条相似谣言,计算每一条该相似谣言与该对象信息之间的相似度,以为每一条该相似谣言赋予权重,并根据每一条该相似谣言的谣言标签和权重,加权求和得到该多条相似谣言的辅助谣言检测结果;步骤3、根据该初步谣言检测结果和该辅助谣言检测结果,综合判定该对象信息的谣言标签。

【技术特征摘要】
1.一种基于检索辅助的谣言检测方法,其特征在于,包括:步骤1、获取待谣言检测的对象信息,并使用谣言检测算法对该对象信息进行判定,得到该对象信息的初步谣言检测结果;步骤2、集合已标记谣言标签的谣言信息作为谣言库,抽取得到该对象信息的关键词,以该关键词检索该谣言库,得到该谣言库中与该对象信息相似的多条相似谣言,计算每一条该相似谣言与该对象信息之间的相似度,以为每一条该相似谣言赋予权重,并根据每一条该相似谣言的谣言标签和权重,加权求和得到该多条相似谣言的辅助谣言检测结果;步骤3、根据该初步谣言检测结果和该辅助谣言检测结果,综合判定该对象信息的谣言标签。2.如权利要求1所述的基于检索辅助的谣言检测方法,其特征在于,该步骤2包括:步骤21、根据该关键词得到该谣言库中谣言信息与该对象信息的相似度,并根据相似度大小排序,选取排序中相似度大于阈值的前k条谣言信息作为该多条相似谣言,其中k为正整数。3.如权利要求2所述的基于检索辅助的谣言检测方法,其特征在于,该权重赋予的方法为:第i条相似谣言权重计算方法如下:i=1,2,3,…,k其中wi为第i条相似谣言的权重,e(·)为指数运算操作。4.如权利要求3所述的基于检索辅助的谣言检测方法,其特征在于,该辅助谣言检测结果的计算方法如下:其中li表示第i条相似谣言的谣言标签,α为该辅助谣言检测结果。5.如权利要求4所述的基于检索辅助的谣言检测方法,其特征在于,步骤3中该对象信息的谣言标签计算方法如下:ω=0.5*α+0.5*βl=f(ω)f(ω)=2*sigmoid(ω)-1其中β为该初步谣言检测结果,sigmoid(·)为激活函数,f(ω)为类别标签计算函数。6.如权利要求1-5所述的任意一种基于检索辅助的谣言检测方法,其特征在于,还包括:步骤4、将该对象信息的谣言标...

【专利技术属性】
技术研发人员:曹娟王佳臣李锦涛郭俊波谢添刘浩远
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1