基于微博数据分析的热点新闻预测方法及系统技术方案

技术编号:12652033 阅读:59 留言:0更新日期:2016-01-06 09:37
本发明专利技术公开了一种基于微博数据分析的热点新闻预测方法及系统,所述方法包括:从主流新闻网站采集新闻报道及其在微博上引起的微博用户反应信息;对微博文本进行分词和词频统计,计算词的TF-IDF值,并转换为使用向量空间描述一个微博话题;对微博话题进行分类,并统计描述微博话题的各个量化指标,计算新闻的各个热度指标;采用多元线性回归算法对样本数据进行学习,建立热点新闻预测模型,并判断之后的新闻是否会成为热点;所述系统包括数据采集模块、文本分析处理模块、数据统计分析模块和热点新闻预测模块。本发明专利技术对媒体报道的新闻在微博话题中的趋势进行全面分析,预测新闻是否会成为舆情热点,能够很好地解决热点新闻早期预测问题。

【技术实现步骤摘要】

本专利技术涉及一种热点新闻预测方法及系统,尤其是一种基于微博数据分析的热点 新闻预测方法及系统,属于政府舆情监控中的热点新闻自动预测领域。
技术介绍
随着互联网技术的快速发展,网络舆情越来越影响社会的稳定发展,监控网络舆 情是政府维护社会安定的一个重要环节。作为舆情监控其中的一个环节,热点新闻的预测 显得尤其关键。微博以其独特的传播特性和实时交互特性改变着传统新闻信息的传播方 式。尤其微博和移动终端的的结合,使微博信息能够更加快速的被转发或评论,微博平台上 大量的用户评论和交流信息能够快速汇集为观点,从而形成一定的舆论走向。微博天然的 开放性、实时性、交互性、海量性和易检性,构成了热点新闻预测的基础。通过综合分析新闻 在微博平台的话题量判断新闻的热度。 传统的舆情热点话题仅仅是通过点击数、转发数、评论数等数据进行判断,但这种 热点话题预测技术并不能够全面分析热点话题的特征,无法发现潜在成为热点的话题。
技术实现思路
本专利技术的目的是为了解决上述现有技术的缺陷,提供了一种基于微博数据分析的 热点新闻预测方法,该方法对媒体报道的新闻在微博话题中的趋势进行全面分析,预测新 闻是否会成为舆情热点,能够很好地解决热点新闻早期预测问题。 本专利技术的另一目的在于提供一种基于微博数据分析的热点新闻预测系统。 本专利技术的目的可以通过采取如下技术方案达到: 基于微博数据分析的热点新闻预测方法,所述方法包括以下步骤: S1、从主流新闻网站采集新闻报道及其在微博上引起的微博用户反应信息; S2、对微博文本进行分词和词频统计,计算词的TF-IDF值,并转换为使用向量空 间描述一个微博话题; S3、对微博话题进行分类,并统计描述微博话题的各个量化指标,计算新闻的各个 热度指标; S4、采用多元线性回归算法对样本数据进行学习,建立热点新闻预测模型,并根据 热点新闻预测模型判断之后的新闻是否会成为热点。 作为一种实施方案,步骤S3中,所述对微博话题进行分类,具体包括: 1)统计社会热点,计算各社会热点的关注度; 2)根据社会热点对微博话题进行分类,计算微博话题的社会关注度。 作为一种实施方案,步骤S3中,所述统计描述微博话题的各个量化指标,具体为: 提取描述微博话题的三个特征维度作为量化指标,分别为微博话题的公众响应力、微博话 题的核心响应力和微博话题的传播力度。 作为一种实施方案,步骤S3中,所述计算新闻的各个热度指标,具体为:根据描述 微博话题的量化指标从多个角度对新闻的热度进行全面分析,新闻的三个热度指标分别为 新闻关注度、新闻影响力和新闻传播度。 作为一种实施方案,步骤S4中,所述采用多元线性回归算法对样本数据进行学 习,建立热点新闻预测模型,具体包括: 1)变量选择:选择新闻热度作为因变量,新闻的三个热度指标作为自变量,根据 定义有新闻的各个热度指标与新闻热度值之间存在且服从线性关系; 2)模型设定:根据所研究的热点新闻预测问题,设定多元线性回归模型; 3)参数估计:使用样本数据学习步骤2)设定的多元线性回归模型的参数,建立热 点新闻预测模型; 4)模型检验:热点新闻预测模型建立后,采用F检验和R检验分别对模型的拟合 度、显著性进行检验; 5)模型运用:将建立的热点新闻预测模型应用于预测热点新闻。 作为一种实施方案,所述多元线性回归模型,如下式: 其中,R表示新闻热度,Nfc]C、Ninf和Ntrans表示新闻的三个热度指标,中:、0i、0 2、0 3 分别是与新闻的三个热度指标无关的未知参数,G是整体回归函数的随机干扰项。 本专利技术的另一目的可以通过采取如下技术方案达到: 基于微博数据分析的热点新闻预测系统,所述系统包括, 数据采集模块,用于从主流网站采集新闻报道及其在微博上引起的微博用户反应 信息; 文本分析处理模块,用于对微博文本进行分词和词频统计,计算词的TF-IDF值, 并转换为使用向量空间描述一个微博话题; 数据统计分析模块,用于对微博话题进行分类,以及统计描述微博话题的各个量 化指标,计算新闻的各个热度指标; 热点新闻预测模块,用于使用多元线性回归算法对样本数据进行学习,建立热点 新闻预测模型,并根据热点新闻预测模型判断之后的新闻是否会成为热点。 本专利技术相对于现有技术具有如下的有益效果: 1、本专利技术对媒体报道的新闻在微博话题中的趋势进行全面分析,预测新闻是否会 成为舆情热点,能够很好地解决热点新闻早期预测问题。 2、本专利技术对微博话题的描述定义了多个(优选为三个)量化指标,以及根据描述 微博话题的量化指标,定义了多个(优选为三个)新闻的热度指标,并设计了一种自适应算 法,多元线性回归算法,将其成功运用于热点新闻预测。 3、本专利技术为增强算法的实践性,设计实现了基于微博数据分析的热点新闻预测系 统,将提出的算法运用于实际的舆情热点发现。【附图说明】 图1为本专利技术实施例1的基于微博数据分析的热点新闻预测方法的流程图。 图2为本专利技术实施例1中描述微博话题的量化指标、新闻的热度指标和新闻热度 之间的关系图。 图3为本专利技术实施例2的基于微博数据分析的热点新闻预测系统的结构框图。【具体实施方式】 下面结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限 于此。 实施例1 : 如图1和图2所示,本实施例的基于微博数据分析的热点新闻预测方法,包括以下 步骤: S1、从主流新闻网站采集新闻报道及其在微博上引起的微博用户反应信息,所述 新闻报道包括标题和正文,所述微博用户反应信息是以新闻标题作为关键词在微博搜索的 结果集,所述的微博结果集包括微博用户信息、微博正文、发文时间,但不包括新闻媒体在 微博中的新闻报道; S2、对微博文本进行分词和词频统计,计算词的TF-IDF(termfrequency-inverse documentfrequency)值,并转换为使用向量空间描述一个微博话题; S3、对微博话题进行分类,并描述微博话题的三个量化指标,计算新闻的三个热度 指标; 所述对微博话题进行分类,具体包括: 1)统计社会热点(可通过人工进行统计),计算各社会热点的关注度; 2)根据社会热点对微博话题进行分类,并计算微博话题的社会关注度F。 所述统计描述微博话题的三个量化指标,即为提取描述微博话题的三个特征维度 作为量化指标,分别为微博话题的公众响应力、微博话题的核心响应力、微博话题的传播力 度,三个量化指标具体解释如下: a、微博话题的公众响应力,指微博话题发生后在短时间内引起微博普通用户的响 应程度,可以使用微博话题发生后短时间内关于此话题的普通用户的微博总量衡量,其表 示如下式: Ip= (NpH3min)/Pave 其中,Np是话题发生后短时间内关于此话题的普通用户的微博总量,P_、PaTC分别 是事先统计的热点话题发生后短时间内关于此话题的普通用户的最小微博量和平均微博 量; b、微博话题的核心响应力,指微博话题发生后短时间内引起微博认证用户的响应 程度,可以使用微博话题发生后短时间内关于此话题的认证用户的微博总量衡量,其表示 如下式: Iv= (Nv-Vnin)Aave 其中,化是话题发生后短时间内关于此话题的微博认证用户的微博总量,V_、Vare 分别是事先统计的热点话题发生后短时间本文档来自技高网...

【技术保护点】
基于微博数据分析的热点新闻预测方法,其特征在于:所述方法包括以下步骤:S1、从主流新闻网站采集新闻报道及其在微博上引起的微博用户反应信息;S2、对微博文本进行分词和词频统计,计算词的TF‑IDF值,并转换为使用向量空间描述一个微博话题;S3、对微博话题进行分类,并统计描述微博话题的各个量化指标,计算新闻的各个热度指标;S4、采用多元线性回归算法对样本数据进行学习,建立热点新闻预测模型,并根据热点新闻预测模型判断之后的新闻是否会成为热点。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈健韩超
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1