基于内容、用户多因素分析的社交网络谣言检测方法技术

技术编号：17970718 阅读：115 留言：0更新日期：2018-05-16 11:30

本发明专利技术提供一种基于内容、用户多因素分析的社交网络谣言检测方法，包括：步骤a，获取文本信息例，并获取文本信息例的文本信息和用户信息；步骤b，根据文本信息，建文本信息例的文本内容特征模型，文本内容特征模型包括关键词匹配模型、情感倾向模型、情感波动模型、主题聚类匹配模型和内容影响力评价模型；步骤c，根据用户信息，构建所述文本信息例的用户特征模型，用户特征模型包括内容一致性评判模型和用户影响力评价模型。步骤d，根据文本内容特征模型和用户特征模型，构建特征向量，训练分类器，将特征向量输入分类器并输出结果，以完成识别社交网络谣言。本发明专利技术不依靠单一特征进行检测，避免谣言的误查，提高检测精度。

全部详细技术资料下载

【技术实现步骤摘要】
基于内容、用户多因素分析的社交网络谣言检测方法
本专利技术属于自然语言处理中的情感分析、文本挖掘以及深度学习领域，具体涉及一种社交网络文本谣言的检测方法。
技术介绍
目前，网络谣言的检测判别主要是靠关键词匹配、人工审核、评论情感倾向以及分类器模型的方法。关键词匹配方法，采用大规模关键词语料进行文本搜索比对，一旦发现相关内容执行屏蔽或者删除操作。这样的方法有许多缺点。例如，差错率很高，有很多影响力较小或者内容无关紧要的消息被直接系统删除，甚至有些是无意的偶然拼写也会被判断为谣言。上述方法还有一个缺点就是，有时关键词的出现并不意味着对事情进行了扭曲或者误解，仅仅是表达个人观点，影响力较弱。但系统仍会强行执行删除操作。人工审核方法，较于关键词匹配精确度更高。但是也意味着大量人力的投入和敏捷度的不足。特别是在社交信息爆炸的时代，很难做到全面而且精确的谣言判定，往往要等到谣言有一定的影响力之后才会注意到该消息。评论情感倾向依靠对信息评论的情感分析来归纳用户对于该消息的负向情感倾向度，作为该消息的可信度的一个衡量。但是单一的情感指标很难区分真实与夸大虚假的信息。同时传统的情感分类模型基于情感词库，而非语义层面上的分类，很难区分反讽等高阶语法现象。而现阶段的分类器，例如贝叶斯、支持向量机等传统的机器学习算法，在文本分类上都采用了简单的词语特征，很难捕捉深层次的用户特征以及情感特征；而基于深度神经网络的分类器需要大量标注数据作为训练集，而且对于训练集中没有出现过的数据的泛化能力有限，在通用领域很难展现其优势。
技术实现思路
本专利技术的主要目的是，提供一种结合文本内容以及用户...
基于内容、用户多因素分析的社交网络谣言检测方法

【技术保护点】
一种基于内容、用户多因素分析的社交网络谣言检测方法，其特征在于，包括：步骤a，获取文本信息例，并获取文本信息例的文本信息和用户信息；步骤b，根据所述文本信息，建立所述文本信息例的文本内容特征模型，所述文本内容特征模型包括关键词匹配模型、情感倾向模型、情感波动模型、主题聚类匹配模型和内容影响力评价模型；步骤c，根据所述用户信息，构建所述文本信息例的用户特征模型，所述用户特征模型包括内容一致性评判模型和用户影响力评价模型；步骤d，根据所述文本内容特征模型和所述用户特征模型，构建特征向量，训练分类器，将所述特征向量输入所述分类器并输出结果，以完成识别社交网络谣言。

【技术特征摘要】
1.一种基于内容、用户多因素分析的社交网络谣言检测方法，其特征在于，包括：步骤a，获取文本信息例，并获取文本信息例的文本信息和用户信息；步骤b，根据所述文本信息，建立所述文本信息例的文本内容特征模型，所述文本内容特征模型包括关键词匹配模型、情感倾向模型、情感波动模型、主题聚类匹配模型和内容影响力评价模型；步骤c，根据所述用户信息，构建所述文本信息例的用户特征模型，所述用户特征模型包括内容一致性评判模型和用户影响力评价模型；步骤d，根据所述文本内容特征模型和所述用户特征模型，构建特征向量，训练分类器，将所述特征向量输入所述分类器并输出结果，以完成识别社交网络谣言。2.根据权利要求1所述的基于内容、用户多因素分析的社交网络谣言检测方法，其特征在于，建立所述关键词匹配模型步骤包括：步骤b11，收集特定领域内相关内容，同时进行分词处理，根据词频统计常见谣言用词作为特定领域谣言关键词库；步骤b12，收集现有知识图谱内领域相关实体内容，通过自动查询以实体名称作为受害目标谣言关键词库；步骤b13，对自媒体谣言数据进行数据格式化以及分词处理，根据词频统计常见谣言用词作为通用谣言关键词库；步骤b14，新文本分词之后，匹配各个关键词词库，给出新文本对应的关键词占比，按照各关键词词库的权重加权求和得到该新文本最终的关键词匹配度。3.根据权利要求1所述的基于内容、用户多因素分析的社交网络谣言检测方法，其特征在于，建立所述情感倾向模型步骤包括：步骤b21，利用预训练Word2Vec模型建立文本嵌入输入层；步骤b22，使用公开情感数据集进行分词处理；步骤b23，训练LSTM分类模型；步骤b24，使用LSTM分类模型进行预测时，对新文本进行分词处理，获得最...

【专利技术属性】
技术研发人员：刘金硕，牟成豪，李改潮，李晨曦，杨广益，李扬眉，陈煜森，邓娟，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人