当前位置: 首页 > 专利查询>武汉大学专利>正文

基于内容、用户多因素分析的社交网络谣言检测方法技术

技术编号:17970718 阅读:115 留言:0更新日期:2018-05-16 11:30
本发明专利技术提供一种基于内容、用户多因素分析的社交网络谣言检测方法,包括:步骤a,获取文本信息例,并获取文本信息例的文本信息和用户信息;步骤b,根据文本信息,建文本信息例的文本内容特征模型,文本内容特征模型包括关键词匹配模型、情感倾向模型、情感波动模型、主题聚类匹配模型和内容影响力评价模型;步骤c,根据用户信息,构建所述文本信息例的用户特征模型,用户特征模型包括内容一致性评判模型和用户影响力评价模型。步骤d,根据文本内容特征模型和用户特征模型,构建特征向量,训练分类器,将特征向量输入分类器并输出结果,以完成识别社交网络谣言。本发明专利技术不依靠单一特征进行检测,避免谣言的误查,提高检测精度。

【技术实现步骤摘要】
基于内容、用户多因素分析的社交网络谣言检测方法
本专利技术属于自然语言处理中的情感分析、文本挖掘以及深度学习领域,具体涉及一种社交网络文本谣言的检测方法。
技术介绍
目前,网络谣言的检测判别主要是靠关键词匹配、人工审核、评论情感倾向以及分类器模型的方法。关键词匹配方法,采用大规模关键词语料进行文本搜索比对,一旦发现相关内容执行屏蔽或者删除操作。这样的方法有许多缺点。例如,差错率很高,有很多影响力较小或者内容无关紧要的消息被直接系统删除,甚至有些是无意的偶然拼写也会被判断为谣言。上述方法还有一个缺点就是,有时关键词的出现并不意味着对事情进行了扭曲或者误解,仅仅是表达个人观点,影响力较弱。但系统仍会强行执行删除操作。人工审核方法,较于关键词匹配精确度更高。但是也意味着大量人力的投入和敏捷度的不足。特别是在社交信息爆炸的时代,很难做到全面而且精确的谣言判定,往往要等到谣言有一定的影响力之后才会注意到该消息。评论情感倾向依靠对信息评论的情感分析来归纳用户对于该消息的负向情感倾向度,作为该消息的可信度的一个衡量。但是单一的情感指标很难区分真实与夸大虚假的信息。同时传统的情感分类模型基于情感词库,而非语义层面上的分类,很难区分反讽等高阶语法现象。而现阶段的分类器,例如贝叶斯、支持向量机等传统的机器学习算法,在文本分类上都采用了简单的词语特征,很难捕捉深层次的用户特征以及情感特征;而基于深度神经网络的分类器需要大量标注数据作为训练集,而且对于训练集中没有出现过的数据的泛化能力有限,在通用领域很难展现其优势。
技术实现思路
本专利技术的主要目的是,提供一种结合文本内容以及用户特征的分析方法,综合进行谣言检测,以消除目前依靠单一特征进行检测误差大、效率低的问题。为了实现上述目的,其技术解决方案为:一种基于内容、用户多因素分析的社交网络谣言检测方法,包括:步骤a,获取文本信息例,并获取文本信息例的文本信息和用户信息;步骤b,根据所述文本信息,建立所述文本信息例的文本内容特征模型,所述文本内容特征模型包括关键词匹配模型、情感倾向模型、情感波动模型、主题聚类匹配模型和内容影响力评价模型;步骤c,根据所述用户信息,构建所述文本信息例的用户特征模型,所述用户特征模型包括内容一致性评判模型和用户影响力评价模型。步骤d,根据所述文本内容特征模型和所述用户特征模型,构建特征向量,训练分类器,将所述特征向量输入所述分类器并输出结果,以完成识别社交网络谣言。在上述的基于内容、用户多因素分析的社交网络谣言检测方法,建立所述关键词匹配模型步骤包括:步骤b11,收集特定领域内相关内容,同时进行分词处理,根据词频统计常见谣言用词作为特定领域谣言关键词库;步骤b12,收集现有知识图谱内领域相关实体内容,通过自动查询以实体名称作为受害目标谣言关键词库;步骤b13,对自媒体谣言数据进行数据格式化以及分词处理,根据词频统计常见谣言用词作为通用谣言关键词库;步骤b14,新文本分词之后,匹配各个关键词词库,给出新文本对应的关键词占比,按照各关键词词库的权重加权求和得到该新文本最终的关键词匹配度。在上述的基于内容、用户多因素分析的社交网络谣言检测方法,建立所述情感倾向模型步骤包括:步骤b21,利用预训练Word2Vec模型建立文本嵌入输入层;步骤b22,使用公开情感数据集进行分词处理;步骤b23,训练LSTM分类模型;步骤b24,使用LSTM分类模型进行预测时,对新文本进行分词处理,获得最终的类别概率分布,并取负向情感所在索引的概率值作为情感倾向模型输出结果;在上述的基于内容、用户多因素分析的社交网络谣言检测方法,建立所述情感波动模型步骤包括:在所述情感倾向的模型上,细化输入文本粒度到句子,最后统计整段/篇文章的情感倾向方差,作为情感波动的最终结果。在上述的基于内容、用户多因素分析的社交网络谣言检测方法,建立所述主题聚类匹配模型步骤包括:步骤b31,提取数据库时间窗口内的所有信息,并进行分词处理;步骤b32,使用TF-IDF模型进行向量化文本;步骤b33,使用K-means++算法进行聚类迭代,直到满足步数要求停止;步骤b34,新文本分词之后,进行TF-IDF转化,在与上一步产生的聚类中心进行相似度计算,选取最近的一个主题作为新文本的主题。在上述的基于内容、用户多因素分析的社交网络谣言检测方法,所述内容影响力评价模型为消息的传播数目相对排名。在上述的基于内容、用户多因素分析的社交网络谣言检测方法,所述消息的传播数目为消息的转发、评论和点赞数目的总和。在上述的基于内容、用户多因素分析的社交网络谣言检测方法,建立所述内容一致性评判模型步骤包括:步骤c1,提取当前消息之前的时间窗口内的所有信息,并同时做分词处理;步骤c2,使用预训练的Doc2Vec模型对文本进行向量化;步骤c3,计算历史消息向量与当前消息向量的余弦相似度的方差。在上述的基于内容、用户多因素分析的社交网络谣言检测方法,所述用户影响力评价模型为用户的粉丝数目与粉丝数目加上用户关注数目的比值。本专利技术主要依靠文本内容特征和用户特征进行快速谣言检测,同时综合评判按照标注训练集自动计算超参数,更为准确地给出一则消息是否为谣言的结论,不依靠单一特征进行检测,避免谣言的误查,提高整体精度,同时减小人工审核的工作量。附图说明图1为本专利技术的整体流程示意图。图2为关键词匹配模型流程图。图3为情感倾向和情感波动流程图。图4为主题聚类匹配模型流程图。图5内容一致性评判流程图。具体实施方式下面结合附图和具体实施方式对本专利技术作进一步详细的说明。一种基于内容、用户多因素分析的社交网络谣言检测方法及系统,按照文本内容特征以及用户特征向量化的数值表示任意一段文本,并切分向量化表示的谣言数据为训练样本和测试样本。通过训练样本获得最优参数,在测试样本上测试方法的可靠性。一种基于内容、用户多因素分析的社交网络谣言检测系统包括三个模块:1)内容分析模块;2)用户分析模块;3)综合评判模块。内容分析模块针对文本内容进行信息挖掘,进而得到特征向量化表示的文本实例;用户分析模块则对用户信息、历史消息进行挖掘分析,以同样向量化形式表示;综合评判模块训练分类器,在拼接两特征向量的基础上进行分类判断。内容分析模块包含以下功能子模型:关键词匹配模型、情感倾向模型、情感波动模型、主题聚类匹配模型和内容影响力评价模型。关键词匹配模型在传统的关键词正则匹配技术基础上,采取分类关键词库表(词库),针对不同种类的关键词,可以更灵活地采取不同权重已针对不同领域的谣言。本专利技术采用三大类谣言关键词类别,包括特定领域关键词、受害目标关键词以及通用谣言关键词。特定领域关键词针对相应领域具有一定的特殊描述性,在其他领域内不常见或者不常用的描述词汇。它可以由领域专家或者根据领域权威词典、领域语料构建。特定领域关键词由应用方向所在领域的语料进行关键词抽取实现,主要目的是使谣言检测更具有领域描述性质,从而消除宽泛但不精确的关键词匹配。受害目标关键词则是针对相应领域的潜在受害者,可具体到某个事物、事件、人物以及相关名词。从现有的实体知识图谱获取受害者的相关实体进行不断扩充,例如在汽车行业,汽车的品牌就是潜在受害实体,通过现有的公开的知识图谱进行语义查询,对相关品牌等进行语料库扩展。通本文档来自技高网...
基于内容、用户多因素分析的社交网络谣言检测方法

【技术保护点】
一种基于内容、用户多因素分析的社交网络谣言检测方法,其特征在于,包括:步骤a,获取文本信息例,并获取文本信息例的文本信息和用户信息;步骤b,根据所述文本信息,建立所述文本信息例的文本内容特征模型,所述文本内容特征模型包括关键词匹配模型、情感倾向模型、情感波动模型、主题聚类匹配模型和内容影响力评价模型;步骤c,根据所述用户信息,构建所述文本信息例的用户特征模型,所述用户特征模型包括内容一致性评判模型和用户影响力评价模型;步骤d,根据所述文本内容特征模型和所述用户特征模型,构建特征向量,训练分类器,将所述特征向量输入所述分类器并输出结果,以完成识别社交网络谣言。

【技术特征摘要】
1.一种基于内容、用户多因素分析的社交网络谣言检测方法,其特征在于,包括:步骤a,获取文本信息例,并获取文本信息例的文本信息和用户信息;步骤b,根据所述文本信息,建立所述文本信息例的文本内容特征模型,所述文本内容特征模型包括关键词匹配模型、情感倾向模型、情感波动模型、主题聚类匹配模型和内容影响力评价模型;步骤c,根据所述用户信息,构建所述文本信息例的用户特征模型,所述用户特征模型包括内容一致性评判模型和用户影响力评价模型;步骤d,根据所述文本内容特征模型和所述用户特征模型,构建特征向量,训练分类器,将所述特征向量输入所述分类器并输出结果,以完成识别社交网络谣言。2.根据权利要求1所述的基于内容、用户多因素分析的社交网络谣言检测方法,其特征在于,建立所述关键词匹配模型步骤包括:步骤b11,收集特定领域内相关内容,同时进行分词处理,根据词频统计常见谣言用词作为特定领域谣言关键词库;步骤b12,收集现有知识图谱内领域相关实体内容,通过自动查询以实体名称作为受害目标谣言关键词库;步骤b13,对自媒体谣言数据进行数据格式化以及分词处理,根据词频统计常见谣言用词作为通用谣言关键词库;步骤b14,新文本分词之后,匹配各个关键词词库,给出新文本对应的关键词占比,按照各关键词词库的权重加权求和得到该新文本最终的关键词匹配度。3.根据权利要求1所述的基于内容、用户多因素分析的社交网络谣言检测方法,其特征在于,建立所述情感倾向模型步骤包括:步骤b21,利用预训练Word2Vec模型建立文本嵌入输入层;步骤b22,使用公开情感数据集进行分词处理;步骤b23,训练LSTM分类模型;步骤b24,使用LSTM分类模型进行预测时,对新文本进行分词处理,获得最...

【专利技术属性】
技术研发人员:刘金硕牟成豪李改潮李晨曦杨广益李扬眉陈煜森邓娟
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1