当前位置: 首页 > 专利查询>胡煜昊专利>正文

英文新闻媒体报道的假新闻检测方法技术

技术编号:26598028 阅读:11 留言:0更新日期:2020-12-04 21:20
本发明专利技术公开了英文新闻媒体报道的假新闻检测方法,包括以下步骤:一、建立新闻报道数据库,读取原始数据进行数据预处理,以正则化方式实施优化;二、提取数据库中优化后的新闻数据实施分类,将分类后的新闻数据择选出代表类型文件,通过预训练模型针对代表类型文件实施预训练任务,提取出主要特征;三、采用TFIDF技术评估代表类型文件,体现出某些字词的重要程度,同时该方面字词的重要性随着它在文件中出现的次数成正比增加,但也会随着它在语料库中出现的频率成反比下降;四、代表类型文件的参数共享层的深度学习神经网络和任务参数层的事件归一判别模型进行分类及判断。本发明专利技术能够提高新闻数据的检测识别精度,加强新闻真假性和政治立场判断效果。

【技术实现步骤摘要】
英文新闻媒体报道的假新闻检测方法
本专利技术主要涉及自然语言文字处理的
,具体为英文新闻媒体报道的假新闻检测方法。
技术介绍
随着移动互联网的蓬勃发展,假新闻给社会带来的危害也越来越大,而在传播中,某种特定的“新闻”传播地更为成功,这类“新闻”通常拥有极端偏激的立场,运用煽动性的,情绪化的文字来误导大众。为了应对这种挑战,检测假新闻,然后采取对策,以消除谣言的两步法被广泛应用。但假新闻检测仍处于起步阶段,主要难点在于对假新闻的检测打击需要是一个近乎实时的反应,因为一旦一个假新闻开始传播,消除它的影响会变得十分艰巨。检测新闻的文本处理技术一般分为以下三种:基于数据库检索的检测技术,基于文本背景的检测技术和基于写作风格的检测技术。数据库检测技术:运用信息检索技术,通过对比文档中的信息和互联网上的信息的一致性来判断信息的真实性。主要的风险在于知识数据库信息的专业性和可靠性都较为不足。这种方法通常使用的算法是链接预测算法。基于文本背景的检测技术:通过构建信息传播模型对用户群体进行划分进而对被传播的新闻进行立场和真伪分析。这种检测技术通过元信息和传播模式来识别新闻立场和真假。Mocanu(2015)等人基于Facebook用户群体的分析证明了倾向于相信分享阴谋论的用户群体更容易分享传播谣言这一理论。这类技术的主要问题在于缺少即时性,无法及时对假新闻进行识别,而因为新闻传播过程中具有的时效性和回火效应,这类技术对假新闻的防控往往为时过晚,无法第一时间识别辟谣。基于写作风格的检测技术:通过对报道写作风格进行分类鉴别来对被传播的新闻进行立场和真伪分析。Argamon-Engelson(1998)等人首先提出了基于写作风格的文本分类,通过侧重于单个语句进行欺骗检测来评估整篇文章。这种检测方法通常使用识别归类作者的方法来检测写作风格,虽然作者很容易修改他们的写作风格,但这种混淆可能是可以被检测到的Afroz(2012)。目前的检测的文本分类方法的重心主要落在讽刺类洋葱新闻的检测上。
技术实现思路
本专利技术主要提供了英文新闻媒体报道的假新闻检测方法,用以解决上述
技术介绍
中提出的技术问题。本专利技术解决上述技术问题采用的技术方案为:英文新闻媒体报道的假新闻检测方法,包括以下步骤:步骤一、建立新闻报道数据库,读取原始数据进行数据预处理,以正则化方式对文件数据实施优化;步骤二、提取数据库中优化后的新闻数据实施分类,将分类后的新闻数据择选出代表类型文件,通过预训练模型针对代表类型文件实施预训练任务,提取出主要特征;步骤三、采用TFIDF技术评估代表类型文件,体现出某些字词的重要程度,同时该方面字词的重要性随着它在文件中出现的次数成正比增加,但也会随着它在语料库中出现的频率成反比下降;步骤四、代表类型文件的参数共享层的深度学习神经网络和任务参数层的事件归一判别模型进行分类,对给出的代表类型文件实施真假性和政治立场判断。进一步的,所述数据预处理中包含拼写更正和文本删除两种策略,所述拼写更正策略具有唯一的单词来表示整个单词的功能特征,且所述文本删除策略具有删除某些文本中无意义的单词的功能特征。进一步的,所述拼写更正策略实施时所有大写字母均转换为小写字母,且可删除所有标点符号并删除单词的后缀。进一步的,当代表类型文件中设定有“the”或“e”时,所述文本删除策略可实施统一删除功能。进一步的,所述预训练模型包含非上下文模型和上下文模型,所述非上下文模型具有通过深度学习方法获得的术语表示可以获取语言定律的功能特征,以及向量空间中向量之间的关系通过将单词转换为向量来表示项之间关系的功能特征,且由跳过文法模型生成的术语向量可以获得术语的语法关系和含义关系。进一步的,当代表类型文件中设定有向量“美国”、向量“华盛顿特区”、向量“法国”、向量“巴黎”时,所述非上下文模型可将这种转换应用于获得理想的决策和预测结果,即向量“美国”,向量“华盛顿特区”≈向量“法国”,向量“巴黎”。进一步的,所述上下文模型分为语言知识和世界知识,所述语言知识通过术语的语法关系和含义关系表示并存储在向量空间中,结合BERT模型可以在识别术语含义时维持较高的精度,且所述世界知识示可存储于经过预训练的模型中。进一步的,所述判别模型具备双向递归结构特征,通过该特征减少噪声并捕获更多信息。与现有技术相比,本专利技术的有益效果为:本专利技术基于写作风格的检测技术具有实时性,并在假新闻和超党派新闻的检测工作中效果良好,能够提高识别精度,加强了新闻真假性和政治立场的判断效果,同时还克服了文本背景的检测技术具有的识别所需时间过长的缺陷。以下将结合具体的实施例对本专利技术进行详细的解释说明。具体实施方式为了便于理解本专利技术,下面将对本专利技术进行更加全面的描述,本专利技术可以通过不同的形式来实现,并不限于文本所描述的实施例,相反的,提供这些实施例是为了使对本专利技术公开的内容更加透彻全面。需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上也可以存在居中的元件,当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件,本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常连接的含义相同,本文中在本专利技术的说明书中所使用的术语知识为了描述具体的实施例的目的,不是旨在于限制本专利技术,本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。实施例,本专利技术提供了一种英文新闻媒体报道的假新闻检测方法,包括以下步骤:步骤一、建立新闻报道数据库,读取原始数据进行数据预处理,以正则化方式对文件数据实施优化;步骤二、提取数据库中优化后的新闻数据实施分类,将分类后的新闻数据择选出代表类型文件,通过预训练模型针对代表类型文件实施预训练任务,提取出主要特征;步骤三、采用TFIDF技术评估代表类型文件,体现出某些字词的重要程度,同时该方面字词的重要性随着它在文件中出现的次数成正比增加,但也会随着它在语料库中出现的频率成反比下降;步骤四、代表类型文件的参数共享层的深度学习神经网络和任务参数层的事件归一判别模型进行分类,对给出的代表类型文件实施真假性和政治立场判断。具体的,所述数据预处理中包含拼写更正和文本删除两种策略,所述拼写更正策略具有唯一的单词来表示整个单词的功能特征,且所述文本删除策略具有删除某些文本中无意义的单词的功能特征,所述拼写更正策略实施时所有大写字母均转换为小写字母,且可删除所有标点符号并删除单词的后缀,当代表类型文件中设定有“the”或“e”时,所述文本删除策略可实施统一删除功能。具体的,所述预训练模型包含非上下文模型和上下文模型,所述非上下文模型具有通过深度学习方法获得的术语表示可以获取语言定律的功能特征,以及向量空本文档来自技高网
...

【技术保护点】
1.英文新闻媒体报道的假新闻检测方法,其特征在于,包括以下步骤:/n步骤一、建立新闻报道数据库,读取原始数据进行数据预处理,以正则化方式对文件数据实施优化;/n步骤二、提取数据库中优化后的新闻数据实施分类,将分类后的新闻数据择选出代表类型文件,通过预训练模型针对代表类型文件实施预训练任务,提取出主要特征;/n步骤三、采用TFIDF技术评估代表类型文件,体现出某些字词的重要程度,同时该方面字词的重要性随着它在文件中出现的次数成正比增加,但也会随着它在语料库中出现的频率成反比下降;/n步骤四、代表类型文件的参数共享层的深度学习神经网络和任务参数层的事件归一判别模型进行分类,对给出的代表类型文件实施真假性和政治立场判断。/n

【技术特征摘要】
1.英文新闻媒体报道的假新闻检测方法,其特征在于,包括以下步骤:
步骤一、建立新闻报道数据库,读取原始数据进行数据预处理,以正则化方式对文件数据实施优化;
步骤二、提取数据库中优化后的新闻数据实施分类,将分类后的新闻数据择选出代表类型文件,通过预训练模型针对代表类型文件实施预训练任务,提取出主要特征;
步骤三、采用TFIDF技术评估代表类型文件,体现出某些字词的重要程度,同时该方面字词的重要性随着它在文件中出现的次数成正比增加,但也会随着它在语料库中出现的频率成反比下降;
步骤四、代表类型文件的参数共享层的深度学习神经网络和任务参数层的事件归一判别模型进行分类,对给出的代表类型文件实施真假性和政治立场判断。


2.根据权利要求1所述的英文新闻媒体报道的假新闻检测方法,其特征在于,所述数据预处理中包含拼写更正和文本删除两种策略,所述拼写更正策略具有唯一的单词来表示整个单词的功能特征,且所述文本删除策略具有删除某些文本中无意义的单词的功能特征。


3.根据权利要求2所述的英文新闻媒体报道的假新闻检测方法,其特征在于,所述拼写更正策略实施时所有大写字母均转换为小写字母,且可删除所有标点符号并删除单词的后缀。


4.根据权利要求2所述的英文新闻媒体报道的假新闻检测方法,其特征在于,当代表类型...

【专利技术属性】
技术研发人员:胡煜昊
申请(专利权)人:胡煜昊
类型:发明
国别省市:浙江;33

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1