一种基于检索辅助的谣言检测方法及系统技术方案

技术编号：22000351 阅读：41 留言：0更新日期：2019-08-31 05:26

本发明专利技术提出一种基于检索辅助的谣言检测方法及系统，包括：获取待谣言检测的对象信息，并使用谣言检测算法对该对象信息进行判定，得到该对象信息的初步谣言检测结果；集合已标记谣言标签的谣言信息作为谣言库，抽取得到该对象信息的关键词，以该关键词检索该谣言库，得到该谣言库中与该对象信息相似的多条相似谣言，计算每一条该相似谣言与该对象信息之间的相似度，以为每一条该相似谣言赋予权重，并根据每一条该相似谣言的谣言标签和权重，加权求和得到该多条相似谣言的辅助谣言检测结果；根据该初步谣言检测结果和该辅助谣言检测结果，综合判定该对象信息的谣言标签。

A Rumor Detection Method and System Based on Retrieval Assistance

全部详细技术资料下载

【技术实现步骤摘要】
一种基于检索辅助的谣言检测方法及系统
本专利技术涉及大数据挖掘中的新闻检测领域，特别涉及一种基于检索辅助的谣言检测方法及系统。
技术介绍
社交媒体的蓬勃发展改变了用户获取信息的方式，越来越多的用户倾向于在社交媒体中获取与发布信息，但是这也为谣言的滋生与快速传播提供了方便，肆意散布的谣言可能会引起社会恐慌。例如，在2015年8月25日，有谣言称墨西哥维拉克鲁斯一幼儿园内被吸毒分子挟持，发生枪击事件，该谣言迅速在Twitter与Facebook中传播，导致当日该城市发生至少26起车祸。但传统的基于人工审核的谣言检测系统往往需要大量的人工，耗时耗力，且难以实时的对谣言信息作出判定，因此亟需一种自动化检测系统对谣言信息进行实时判定。现有的谣言检测算法使用机器学习方法配合人工抽取的特征共同判定谣言，Castillo等人从新闻内容、用户属性、传播特征等方面抽取了大量特征，在此基础上，Adrien，Aniko等人在此工作基础上又提出了一些新的时序特征来表示谣言的散布特征，这些方法在谣言检测中取得了一定的成效。与定义一系列复杂特征不同，Zhao等人通过一系列正则表达式来进行谣言的初筛(如：真的吗？是这样吗？)，然后通过专家再进行人为判定。近期Ma等人使用循环神经网络(RNN)来自动学习不同时间段内谣言及谣言散布者的特征，取得了优于传统方法的效果。专利技术人在进行谣言检测研究时发现，现有方法通常单独的处理每一条信息，忽视了信息与信息之间的相关性。实际上，日常接触到的谣言往往是旧料翻新，即将以往谣言进行一定修改后再次发布，针对这类谣言，利用以往的相关谣言的判定结果对其进行判定...

【技术保护点】
1.一种基于检索辅助的谣言检测方法，其特征在于，包括：步骤1、获取待谣言检测的对象信息，并使用谣言检测算法对该对象信息进行判定，得到该对象信息的初步谣言检测结果；步骤2、集合已标记谣言标签的谣言信息作为谣言库，抽取得到该对象信息的关键词，以该关键词检索该谣言库，得到该谣言库中与该对象信息相似的多条相似谣言，计算每一条该相似谣言与该对象信息之间的相似度，以为每一条该相似谣言赋予权重，并根据每一条该相似谣言的谣言标签和权重，加权求和得到该多条相似谣言的辅助谣言检测结果；步骤3、根据该初步谣言检测结果和该辅助谣言检测结果，综合判定该对象信息的谣言标签。

【技术特征摘要】
1.一种基于检索辅助的谣言检测方法，其特征在于，包括：步骤1、获取待谣言检测的对象信息，并使用谣言检测算法对该对象信息进行判定，得到该对象信息的初步谣言检测结果；步骤2、集合已标记谣言标签的谣言信息作为谣言库，抽取得到该对象信息的关键词，以该关键词检索该谣言库，得到该谣言库中与该对象信息相似的多条相似谣言，计算每一条该相似谣言与该对象信息之间的相似度，以为每一条该相似谣言赋予权重，并根据每一条该相似谣言的谣言标签和权重，加权求和得到该多条相似谣言的辅助谣言检测结果；步骤3、根据该初步谣言检测结果和该辅助谣言检测结果，综合判定该对象信息的谣言标签。2.如权利要求1所述的基于检索辅助的谣言检测方法，其特征在于，该步骤2包括：步骤21、根据该关键词得到该谣言库中谣言信息与该对象信息的相似度，并根据相似度大小排序，选取排序中相似度大于阈值的前k条谣言信息作为该多条相似谣言，其中k为正整数。3.如权利要求2所述的基于检索辅助的谣言检测方法，其特征在于，该权重赋予的方法为：第i条相似谣言权重计算方法如下：i＝1,2,3,…,k其中wi为第i条相似谣言的权重，e(·)为指数运算操作。4.如权利要求3所述的基于检索辅助的谣言检测方法，其特征在于，该辅助谣言检测结果的计算方法如下：其中li表示第i条相似谣言的谣言标签，α为该辅助谣言检测结果。5.如权利要求4所述的基于检索辅助的谣言检测方法，其特征在于，步骤3中该对象信息的谣言标签计算方法如下：ω＝0.5*α+0.5*βl＝f(ω)f(ω)＝2*sigmoid(ω)-1其中β为该初步谣言检测结果，sigmoid(·)为激活函数，f(ω)为类别标签计算函数。6.如权利要求1-5所述的任意一种基于检索辅助的谣言检测方法，其特征在于，还包括：步骤4、将该对象信息的谣言标...

【专利技术属性】
技术研发人员：曹娟，王佳臣，李锦涛，郭俊波，谢添，刘浩远，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人