一种基于机器学习模型的社会热点发现方法技术

技术编号:17655006 阅读:366 留言:0更新日期:2018-04-08 08:22
本发明专利技术公开了一种基于机器学习模型的社会热点发现方法;包括构建语料集、预处理、计算热度、形成热点词云、形成热点新闻等步骤;其主要解决的问题是针对大量的财经新闻、政府新闻、领导人讲话分析自动发现正在发生以及即将要发生的社会或者金融领域的热点事件;将这些预测的热点事件提供给相关领域的人员进行辅助分析使用。

【技术实现步骤摘要】
一种基于机器学习模型的社会热点发现方法
本专利技术涉及社会热点发现相关领域,具体讲是一种基于机器学习模型的社会热点发现方法。
技术介绍
目前,随着互联网的大力普及,网络媒体在社会传播中趋于主流化,各类互联网应用在信息传播中的优势凸显,吸引了社会众多各类群体的参与,互联网向社会各界加速渗透。随着其功能的不断拓展和深化,互联网越来越成为当今社会重要的舆情载体。网络舆情已经对社会的稳定和众多上网的人们产生了重大的影响,它发生的范围广,传播速度快,以及它的爆发点具有不易发现和控制等特点,这使得对网络中舆情的有效的发现与监控变得非常重要。而新闻和微博已成为网络舆情中热点事件发布和推动的新阵地。如何快速有效地从网络舆情文本中挖掘热点话题并追踪话题演变、预测话题倾向,从而分析挖掘网络舆情动态,为商业决策提供有价值的信息,是当前研究面临的一个热点。现有热点发现方法主要存在以下几点不足:(1)单纯的通过词频统计去发现哪些词语出现的频率比较高,过于简单导致准确度不是很高。(2)只能发现已经发生的热点事件,而并不能很好的预测即将要发生的热点事件。
技术实现思路
因此,为了解决上述不足,本专利技术在此提供一种基于机器学习模型的社会热点发现方法;主要解决的问题是针对大量的财经新闻、政府新闻、领导人讲话分析自动发现正在发生以及即将要发生的社会或者金融领域的热点事件;将这些预测的热点事件提供给相关领域的人员进行辅助分析使用。本专利技术是这样实现的,构造一种基于机器学习模型的社会热点发现方法,其特征在于:主要实现技术步骤:步骤1,构建语料集:获取网页新闻,提取新闻标题、时间、正文,将结构化后的数据存入数据库;通过收集过去一段时间(3天)内主要金融领域的媒体所发布的网络新闻,从两个维度来构建语料,每个新闻渠道为一个维度,时间轴为另一个维度;步骤2,预处理:对文本进行预处理,包括分词、分句;具体为,对文本进行分词,构建2-gram词组,计算词组在每个新闻渠道,时间轴上的频数;步骤3,计算热度:对媒体维度,计算哪些词语被多个媒体渠道共同提及到;对时间维度,采用TF*PDF算法计算每个词语TF*PDF值,以及它在时间内轴上的变化趋势值;最后结合起来计算最终每个词的热度值;其中,TF*PDF值计算如下,其中:Wj:词组j的TF*PDF值Fjc:词组j在新闻渠道c中的频数njc:新闻渠道c中出现词组j的文章数Nc:新闻渠道c中总的文章数K:新闻渠道c中的总词组数D:总的新闻渠道数变化趋势值的计算公式其中:Varj:词组j在时间轴的方差Fjt:词组j在单位时间区间段t内出现的频数词组j在时间轴上每个时间区间段出现频数的均值N:时间轴上的时间区间段总数最终词组热度值的计算公式;词组j的热度值=Wj+Varj步骤4形成热点词云:用所有文本中的词语构建一个网络,通过InfoMap社区发现算法构建一个热点词云社区;步骤5形成热点新闻:通过词的热度值来计算每篇新闻的热度值,我们给出与热点最相关的新闻,以及相关的扩展新闻以供阅读;某一篇新闻的热度值=这篇文章中所有词组热度值的总和。根据本专利技术所述一种基于机器学习模型的社会热点发现方法,其特征在于:步骤3中,计算热度时进行排序,选出超过一定阈值的热度词汇作为最终的热词序列。根据本专利技术所述一种基于机器学习模型的社会热点发现方法,其特征在于:步骤5中,对于每个热点,计算出与该热点最相关的三条新闻,然后通过聚类算法找出与最热的新闻相关度大的扩展新闻以供阅读。本专利技术具有如下优点:专利技术在此提供一种基于机器学习模型的社会热点发现方法;主要解决的问题是针对大量的财经新闻、政府新闻、领导人讲话分析自动发现正在发生以及即将要发生的社会或者金融领域的热点事件;将这些预测的热点事件提供给相关领域的人员进行辅助分析使用。相对于现有技术来讲,具体优势体现如下:其1:对网络上各大主要媒体发布的新闻中的词语构建一个复杂社区网络,利用InfoMap、文本聚类、语义相似分析等算法去挖掘热点,而不是简单的对文本进行词频统计。其2:热点事件的关注程度(热度)会随着时间的推移而发生的变化,包括衰减和增强。我们通过对热度的变化趋势能够准确地预测即将要发生的热点事件。其3:我们利用关键词提取技术给出了有一定语义信息的热点短语,而不是单一的词语。其4:针对每一个热点事件我们给出该事件直接相关的新闻以及与间接相关的扩展新闻以供阅读。附图说明图1是本专利技术所述社会热点发现方法整体流程示意图;图2是本专利技术中步骤1对应的实例示意图;图3是本专利技术中步骤2对应的实例示意图;图4是本专利技术中步骤3对应的实例示意图;图5是本专利技术中步骤4对应的实例示意图;图6是本专利技术中步骤5对应的实例示意图。具体实施方式下面将结合附图1-图6对本专利技术进行详细说明,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术通过改进在此提供一种基于机器学习模型的社会热点发现方法,本专利基于多源的新闻特征与时间序列差异性特征,结合InfoMap、文本聚类、语义相似分析、关键短语抽取等技术,在热点爆发前能够对其有效识别。该方法能够对热点事件高效概括,并建立热点事件与新闻的关联关系。如图所示;主要实现技术步骤:步骤1构建语料集:获取网页新闻,提取新闻标题、时间、正文,将结构化后的数据存入数据库;通过收集过去一段时间(3天)内主要金融领域的媒体所发布的网络新闻,从两个维度来构建语料,每个新闻渠道为一个维度,时间轴为另一个维度;步骤2预处理:对文本进行预处理,包括分词、分句;具体为,对文本进行分词,构建2-gram词组,计算词组在每个新闻渠道,时间轴上的频数;步骤3计算热度:对媒体维度,计算哪些词语被多个媒体渠道共同提及到;对时间维度,采用TF*PDF算法计算每个词语TF*PDF值,以及它在时间内轴上的变化趋势值;最后结合起来计算最终每个词的热度值;计算热度时进行排序,选出超过一定阈值的热度词汇作为最终的热词序列;步骤4形成热点词云:用所有文本中的词语构建一个网络,通过InfoMap社区发现算法构建一个热点词云社区;步骤5形成热点新闻:通过词的热度值来计算每篇新闻的热度值,我们给出与热点最相关的新闻,以及相关的扩展新闻以供阅读。对于步骤5中来讲,对于每个热点,计算出与该热点最相关的三条新闻,然后通过聚类算法找出与最热的新闻相关度大的扩展新闻以供阅读。对于本方法来讲,采用了诸多新思路和新技术,主要有以下优势:其1:对网络上各大主要媒体发布的新闻中的词语构建一个复杂社区网络,利用InfoMap、文本聚类、语义相似分析等算法去挖掘热点,而不是简单的对文本进行词频统计。其2:热点事件的关注程度(热度)会随着时间的推移而发生的变化,包括衰减和增强。我们通过对热度的变化趋势能够准确地预测即将要发生的热点事件。其3:我们利用关键词提取技术给出了有一定语义信息的热点短语,而不是单一的词语。其4:针对每一个热点事件我们给出该事件直接相关的新闻以及与间接相关的扩展新闻以供阅读。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本专利技术。对这些实施本文档来自技高网...
一种基于机器学习模型的社会热点发现方法

【技术保护点】
一种基于机器学习模型的社会热点发现方法,其特征在于:主要实现技术步骤:步骤1,构建语料集:获取网页新闻,提取新闻标题、时间、正文,将结构化后的数据存入数据库;通过收集过去一段时间(3天)内主要金融领域的媒体所发布的网络新闻,从两个维度来构建语料,每个新闻渠道为一个维度,时间轴为另一个维度;步骤2,预处理:对文本进行预处理,包括分词、分句;具体为,对文本进行分词,构建2‑gram词组,计算词组在每个新闻渠道,时间轴上的频数;

【技术特征摘要】
1.一种基于机器学习模型的社会热点发现方法,其特征在于:主要实现技术步骤:步骤1,构建语料集:获取网页新闻,提取新闻标题、时间、正文,将结构化后的数据存入数据库;通过收集过去一段时间(3天)内主要金融领域的媒体所发布的网络新闻,从两个维度来构建语料,每个新闻渠道为一个维度,时间轴为另一个维度;步骤2,预处理:对文本进行预处理,包括分词、分句;具体为,对文本进行分词,构建2-gram词组,计算词组在每个新闻渠道,时间轴上的频数;步骤3,计算热度:对媒体维度,计算哪些词语被多个媒体渠道共同提及到;对时间维度,采用TF*PDF算法计算每个词语TF*PDF值,以及它在时间内轴上的变化趋势值;最后结合起来计算最终每个词的热度值;其中,TF*PDF值计算如下,其中:Wj:词组j的TF*PDF值Fjc:词组j在新闻渠道c中的频数njc:新闻渠道c中出现词组j的文章数Nc:新闻渠道c中总的文章数K:新闻渠道c中...

【专利技术属性】
技术研发人员:张劲松蔡源涛赵二超
申请(专利权)人:成都蓝景信息技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1