【技术实现步骤摘要】
基于长文本特征提取优化的媒体假新闻检测方法及系统
[0001]本专利技术属于机器学习和文本分类
,涉及一种基于长文本 特征提取优化的媒体假新闻检测方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必 然构成在先技术。
[0003]随着网络技术的快速发展,我们逐渐进入自媒体时代。相比于 传统新闻,自媒体新闻存在高便携性与低门槛性,其质量普遍低于传 统新闻。为了吸引读者注意,假新闻事件层出不穷。不仅会误导不明 真相的读者,而且会造成恶劣的社会影响。
[0004]国内外对于假新闻检测方向的研究主要分为传统机器学习方式 以及深度学习方式。传统机器学习主要依赖于人工提取新闻内容特征, 如统计特征或语义特征。典型的传统机器学习分类器包括朴素贝叶斯 分类器、支持向量机(SVM)、决策树等。但是新闻的语言模式高度依 赖于特定事件和相应的领域知识,因此难以通过手工制作数据特征。 与传统机器学习方式相比,深度学习构建神经网络可以更加准确的学 习文本内容表示。循环神经网络(RNN) ...
【技术保护点】
【技术特征摘要】
1.一种基于长文本特征提取优化的媒体假新闻检测方法,其特征是:包括以下步骤:对获取的媒体数据进行预处理;对预处理后的媒体数据根据数据对齐的统一长度分为长文本与短文本,并采用不同方式提取相应类别的新闻文本特征,输出文本特征的向量化表示;根据所述媒体数据的应用场景,利用不同的预训练后的深度学习分类模型对文本特征的向量化表示进行真假性预测,得到检测结果。2.如权利要求1所述的一种基于长文本特征提取优化的媒体假新闻检测方法,其特征是:所述数据预处理过程包括:剔除数据中的无效值和缺失值;以词为单位对中文数据进行分词处理,以保证词义的完整性;剔除数据中的包含特殊字符、标点符号和乱码的噪声。3.如权利要求1所述的一种基于长文本特征提取优化的媒体假新闻检测方法,其特征是:所述统一长度为数据集的平均长度,若预处理后的数据长度大于统一长度则划分为长文本,反之划分为短文本。4.如权利要求1所述的一种基于长文本特征提取优化的媒体假新闻检测方法,其特征是:采用不同方式提取相应类别的新闻文本特征的具体过程包括:对多个长文本实例的输入分别采用针对微调阶段的二次词遮蔽学习方法进行处理,每条实例得到两条不同遮蔽的标记序列,对两条标记序列采用保留边缘特征的数据对齐方法得到重构后的长文本特征向量表示;对于短文本数据采用填充方式进行数据对齐,为标记序列不足统一长度的部分进行补零,并使用BERT预训练模型作为嵌入层,学习短文本特征向量表示;将长文本与短文本特征向量表示输入到基于BERT的注意力网络层学习单词间依赖关系,得到深层特征表示。5.如权利要求4所述的一种基于长文本特征提取优化的媒体假新闻检测方法,其特征是:采用保留边缘特征的数据对齐方法的具体过程包括:对两条标记序列分别添加起始位;采用迁移学习的方式,使用BERT预训练模型作为嵌入层,将步骤起始位后的标记序列转化为向量表示,得到两条长文本特征向量表示;将两条长文本特征向量首尾连接,拉伸为一条一维向量;以统一长度为标准长度,将一维向量从前往后进...
【专利技术属性】
技术研发人员:马坤,汤长昊,纪科,杨波,陈贞翔,
申请(专利权)人:济南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。