一种基于内容争议性的流行新闻预测方法和系统技术方案

技术编号:21548086 阅读:60 留言:0更新日期:2019-07-06 21:33
本发明专利技术涉及一种基于内容争议性的流行新闻预测方法,包括:争议性模式挖掘步骤,构建多任务学习的卷积神经网络模型,以对历史流行新闻进行模式的挖掘,得到该历史流行新闻的内容争议性模式的特征;流行新闻预测步骤,将新生新闻转化为词语字符的合集C,并将该合集C与该内容争议性模式进行匹配,得到该新生新闻的争议度得分P,以判断该新生新闻是否属于流行新闻;预测结果验证步骤,通过该新生新闻的实际流行性对该卷积神经网络模型进行验证,并使用验证结果对该卷积神经网络模型进行训练。本发明专利技术从争议性新闻本质的内容模式出发,能够实时准确地预测出潜在的流行新闻。

A Prediction Method and System of Popular News Based on Content Dispute

【技术实现步骤摘要】
一种基于内容争议性的流行新闻预测方法和系统
该专利技术创造属于信息挖掘
,具体涉及一种基于内容争议性的流行新闻预测方法和系统。
技术介绍
在这人人都是新闻源的自媒体时代,每天都会产生数以亿计的用户生成内容(UGC,UserGeneratedContent)新闻消息,得益于其实时性和开放性,UGC新闻已经逐渐成为公众获取新闻最重要的渠道之一。然而,海量的新闻线索中只有极少部分最终能够流行,吸引公共的广泛关注与讨论,并产生颇具影响力的社会效应和热点。因此,准确地预测流行新闻至关重要:对于新闻平台和自媒体而言,及时推送潜在的流行新闻能助其优化品牌形象,实现商业目标;对于政府部门而言,尽早地检测出恶意谣言,自然灾害、社会突发事件等流行新闻,就能提前进行相应的决策部署,降低对社会治安的危害。目前,对于新闻流行度的预测方法可以分为三类:基于分类、基于传播、基于时间序列的方法。基于分类的方法通过挖掘影响新闻流行性的特征因素,建立分类模型来预测新闻的流行性。已有公开文献,是通过获取社交网络中用户发布的历史消息与历史转发新闻的时序特征,将二者输入循环神经网络训练生成最终的流行度预测模型。基于传播本文档来自技高网...

【技术保护点】
1.一种基于内容争议性的流行新闻预测方法,其特征在于,包括:争议性模式挖掘步骤,构建多任务学习的卷积神经网络模型,以对历史流行新闻进行内容争议性模式的挖掘,得到该历史流行新闻的语义模式CS、语言模式CL以及情感模式CE的特征;流行新闻预测步骤,将新生新闻转化为词语和字符的合集C,并将该合集C与该语义模式CS、语言模式CL以及情感模式CE分别进行匹配,得到该新生新闻的争议度得分P,以判断该新生新闻是否属于流行新闻;预测结果验证步骤,通过该新生新闻的实际流行性对该卷积神经网络模型进行验证,并使用验证结果对该卷积神经网络模型进行训练。

【技术特征摘要】
1.一种基于内容争议性的流行新闻预测方法,其特征在于,包括:争议性模式挖掘步骤,构建多任务学习的卷积神经网络模型,以对历史流行新闻进行内容争议性模式的挖掘,得到该历史流行新闻的语义模式CS、语言模式CL以及情感模式CE的特征;流行新闻预测步骤,将新生新闻转化为词语和字符的合集C,并将该合集C与该语义模式CS、语言模式CL以及情感模式CE分别进行匹配,得到该新生新闻的争议度得分P,以判断该新生新闻是否属于流行新闻;预测结果验证步骤,通过该新生新闻的实际流行性对该卷积神经网络模型进行验证,并使用验证结果对该卷积神经网络模型进行训练。2.如权利要求1所述的基于内容争议性的流行新闻预测方法,其特征在于,所述争议性模式挖掘步骤具体包括:将该历史流行新闻按固定长度划分多个语句,长度为N;将该语句中每个字符向量按顺序分别输入该卷积神经网络模型的N个神经元中,以得到该历史流行新闻的二分类标签,并通过该二分类标签对该卷积神经网络模型进行训练;其中,该分类二分类标签包括二分类争议性标签和二分类情感标签,该二分类争议性标签包括争议和非争议,该二分类情感标签包括正向积极和负向消极,N为正整数。3.如权利要求2所述的基于内容争议性的流行新闻预测方法,其特征在于,所述争议性模式挖掘步骤还包括:对该卷积神经网络模型的训练完成后,以池化层中经过最大池化后的最大值,得到该最大值对应的字符窗口,以该字符窗口内的词语和字符得到多个争议模式;将该些争议性模式划分为该语义模式CS、该语言模式CL和该情感模式CE;其中该语义模式CS代表该历史流行新闻的内容蕴藏的概念及含义,语言模式CL代表该历史流行新闻的词法、句法等结构模式,情感模式CE代表该历史流行新闻的内容表露的情感倾向性及强烈程度。4.如权利要求1所述的基于内容争议性的流行新闻预测方法,其特征在于,所述流行新闻预测步骤具体包括:通过词袋模型对该新生新闻进行分词处理,将该新生新闻转换为词语和字符的集合C,并与该语义模式CS、语言模式CL及情感模式CE分别进行匹配,求取交集的平均大小,作为该争议度得分P;当P≥threshold_P时,该新生新闻具有争议性,是潜在的流行新闻;其中,threshold_P为流行新闻评估阈值。5.如权利要求1所述的基于内容争议性的流行新闻预测方法,其特征在于,所述预测结果的验证步骤具体包括:使用该新生新闻的生命周期末端积累的转发量、评论量、以及点赞量的总和作为验证该新生新闻实际流行性的度量标准,并将已验证的该新生新闻作为新的数据扩充至该卷积神经网络模型。6.一种基于内容争议性的流行新闻预测系统,其特征...

【专利技术属性】
技术研发人员:曹娟上官建峰张雅滋李锦涛
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1