当前位置: 首页 > 专利查询>广州大学专利>正文

基于外部存储的不实信息检测方法技术

技术编号:39822931 阅读:10 留言:0更新日期:2023-12-22 19:43
本发明专利技术公开了一种基于外部存储的不实信息检测方法

【技术实现步骤摘要】
基于外部存储的不实信息检测方法、系统及装置


[0001]本专利技术涉及不实信息检测领域,尤其是涉及一种基于外部存储的不实信息检测方法

系统及装置


技术介绍

[0002]随着互联网技术的发展,社交媒体成为人们获取信息

传播信息和互动交流的主要平台

不实信息检测涉及到自然语言处理和机器学习技术,自动识别和验证社交媒体中的不实信息的技术,不实信息检测通常被视为一种文本分类任务

[0003]不实信息检测可以使用传统的机器学习方法,通过获取关于不实信息手工制作的特征来构造经典机器学习分类器,如决策树

随机森林等

但是这种方法的局限性在于难以得到数据中的高维特征,并且还需要选择适配于当前任务的机器学习分类器

因此,深度神经网络
(Deep Neural Network

DNN)
在不实信息检测领域得到广泛的应用

基于深度学习的研究方法包括使用自然语言处理中的预训练语言模型来处理评论或转发的文本,使用图神经网络得到不实信息的传播结构,建模源帖与评论之间的关系;还有使用多模态技术,通过获取不实信息相关的文本以及图像,整合不同模态的特征

这些不同的研究领域都有相应的方法来处理不实信息检测问题

[0004]随着自然语言处理技术的发展,预训练语言模型逐渐成为不实信息检测的关键技术
r/>预训练语言模型能够自动学习海量文本的语言知识和规律,并通过微调的方式适应不实信息检测任务

通过在大规模数据上预训练的语言模型,可以提取文本的上下文信息和语义信息,辅助不实信息检测任务中的情感分析

命名实体识别和语言风格分析等

另外,通过预训练语言模型的微调,可以提高不实信息检测模型的准确性和泛化能力

例如,
BERT
等预训练语言模型,已经被广泛应用于不实信息检测领域

其中,
BERT
通过
Masked Language Model

Next Sentence Prediction
的预训练任务,可以学习文本的上下文信息和语言关系,提高了在不实信息检测中的效果

预训练语言模型不仅为不实信息检测提供了更加丰富的语言表征,同时也为机器学习和深度学习模型的应用提供了新的思路和方法

[0005]研究发现,不实信息有一些共同的特征,例如情感倾向

可信度

语言风格等

同时,不实信息的传播也具有一些规律,例如传播速度

传播路径

传播方式等

这些特征和规律为不实信息检测提供了基础和依据

自然语言处理技术可以有效地挖掘和利用不实信息中的这些特征和规律

同时,随着不实信息检测技术的发展,越来越多的数据集和算法被提出和应用于不实信息检测中,例如
PHEME
数据集
、BERT
模型等

这些数据集和算法的不断积累,也为不实信息检测提供了更加丰富和可靠的资源和方法

[0006]总之,不实信息检测需要利用多种技术和方法,包括自然语言处理

机器学习和深度学习等

这些技术和方法的结合和应用,可以有效地识别和验证社交媒体中的不实信息

[0007]现有技术缺点:
[0008]仅通过时间或者情感极性对评论排序,没有考虑评论的文本内容中多种不同维度
的特征,不能得到质量更高的数据集;
[0009]源帖与对应评论形成的事件和事件之间,在语言风格

评论长度等多个角度有相似性,没有考虑利用这种更高维的原型特征


技术实现思路

[0010]本专利技术的目的在于提供一种基于外部存储的不实信息检测方法

系统及装置,旨在解决不实信息检测

[0011]本专利技术提供一种基于外部存储的不实信息检测系统,包括:
[0012]重排序模块,用于提取源帖和评论的特征,根据特征对评论进行重排序,删掉序号为某个值到最后序号的评论得到排名前面的评论;
[0013]外部存储模块,用于调整预训练语言模型的参数,使得预训练语言模型适应排名前面的评论的不实信息检测任务,更新外部存储,读取外部存储得到最终的特征表示;
[0014]不实信息检测模块,用于获取最终的特征表示,将所述最终的获取特征表示输入分类神经网络得到最终不实信息或非不实信息的类别预测

[0015]本专利技术还提供一种基于外部存储的不实信息检测方法,包括:
[0016]通过重排序模块提取源帖和评论的特征,根据特征对评论进行重排序,删掉序号为某个值到最后序号的评论得到排名前面的评论;
[0017]通过外部存储模块调整预训练语言模型的参数,使得预训练语言模型适应排名前面的评论的不实信息检测任务,更新外部存储,读取外部存储得到最终的特征表示;
[0018]通过不实信息检测模块获取最终的特征表示,将所述最终的获取特征表示输入分类神经网络得到最终不实信息或非不实信息的类别预测

[0019]本专利技术实施例还提供一种基于外部存储的不实信息检测装置,包括:存储器

处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述方法的步骤

[0020]本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述方法的步骤

[0021]采用本专利技术实施例,可以考虑多个维度的特征实现不实信息检测

[0022]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的

特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式

附图说明
[0023]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0024]图1是本专利技术实施例的一种基于外部存储的不实信息检测系统的示意图;
[0025]图2是本专利技术实施例的一种基于外部存储的不实信息检测系统的重排序模块示意图;
[002本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于外部存储的不实信息检测系统,其特征在于,包括:重排序模块,用于提取源帖和评论的特征,根据特征对评论进行重排序,删掉序号为某个值到最后序号的评论得到排名前面的评论;外部存储模块,用于调整预训练语言模型的参数,使得预训练语言模型适应排名前面的评论的不实信息检测任务,更新外部存储,读取外部存储得到最终的特征表示;不实信息检测模块,用于获取最终的特征表示,将所述最终的获取特征表示输入分类神经网络得到最终不实信息或非不实信息的类别预测
。2.
根据权利要求1所述的系统,其特征在于,所述重排序模块具体用于:每个样本的格式为源帖和对应的评论,对每个样本做特征工程得到多种特征,其中多种特征包括:评论的文本长度特征

评论与源帖的语义相似度特征和评论对应的情感极性特征,训练梯度提升树模型,将文本长度特征

评论与源帖的语义相似度特征和评论对应的情感极性特征输入梯度提升树模型得到重排序后的评论
。3.
根据权利要求2所述的系统,其特征在于,所述外部存储模块具体用于:基于网络文本和网络文本对应的不实信息和非不实信息的标签,通过监督学习的方式微调预训练语言模型,使得预训练语言模型适应不实信息检测任务,外部存储初始化为
k
个原型,每一条样本通过预训练语言模型得到对应的向量表示,将对应的向量与外部存储中的原型特征交互,得到不同的原型特征,将不同得原型特征和微调后的预训练语言模型得到的特征拼接,拼接后得到最终的特征表示
。4.
根据权利要求3所述的系统,其特征在于,所述不实信息检测模块具体用于:用于获取最终的特征表示,将所述最终的获取特征表示输入分类神经网络得到最终不实信息或非不实信息的类别概率,所述分类神经网络包括一个全连接层和激活函数
。5.
一种基于外部存储的不实信息检测方法,其特征在于,包括:通过重排序模块提取源帖和评论的特征,根据特征对评论进行重排序,删掉序号为某个值到最后序号的评论得到排名前面的评论;通过外部存储模块调整预训练语言模型的参数,使得预训练语言模型适应排名前面的评论的不实信息检测任务,更新外部存储,读取外部存储得到最终的特征表示;通过不实信息检测模块获取最终的特征表示,将所述最终的获取特征表示输入分类神经网络得到最终不实信息或...

【专利技术属性】
技术研发人员:陈淑红吴建明王国军汪晨晨李汉俊陈恺人
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1