一种基于机器学习模型的社会热点发现方法技术

技术编号：17655006 阅读：366 留言：0更新日期：2018-04-08 08:22

本发明专利技术公开了一种基于机器学习模型的社会热点发现方法；包括构建语料集、预处理、计算热度、形成热点词云、形成热点新闻等步骤；其主要解决的问题是针对大量的财经新闻、政府新闻、领导人讲话分析自动发现正在发生以及即将要发生的社会或者金融领域的热点事件；将这些预测的热点事件提供给相关领域的人员进行辅助分析使用。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习模型的社会热点发现方法
本专利技术涉及社会热点发现相关领域，具体讲是一种基于机器学习模型的社会热点发现方法。
技术介绍
目前，随着互联网的大力普及，网络媒体在社会传播中趋于主流化，各类互联网应用在信息传播中的优势凸显，吸引了社会众多各类群体的参与，互联网向社会各界加速渗透。随着其功能的不断拓展和深化，互联网越来越成为当今社会重要的舆情载体。网络舆情已经对社会的稳定和众多上网的人们产生了重大的影响，它发生的范围广，传播速度快，以及它的爆发点具有不易发现和控制等特点，这使得对网络中舆情的有效的发现与监控变得非常重要。而新闻和微博已成为网络舆情中热点事件发布和推动的新阵地。如何快速有效地从网络舆情文本中挖掘热点话题并追踪话题演变、预测话题倾向，从而分析挖掘网络舆情动态，为商业决策提供有价值的信息，是当前研究面临的一个热点。现有热点发现方法主要存在以下几点不足：(1)单纯的通过词频统计去发现哪些词语出现的频率比较高，过于简单导致准确度不是很高。(2)只能发现已经发生的热点事件，而并不能很好的预测即将要发生的热点事件。
技术实现思路
因此，为了解决上述不足，本专利技术在此提供一种基于机器学习模型的社会热点发现方法；主要解决的问题是针对大量的财经新闻、政府新闻、领导人讲话分析自动发现正在发生以及即将要发生的社会或者金融领域的热点事件；将这些预测的热点事件提供给相关领域的人员进行辅助分析使用。本专利技术是这样实现的，构造一种基于机器学习模型的社会热点发现方法，其特征在于：主要实现技术步骤：步骤1，构建语料集：获取网页新闻，提取新闻标题、时间、正文，将结构化后...

【技术保护点】
一种基于机器学习模型的社会热点发现方法，其特征在于：主要实现技术步骤：步骤1，构建语料集：获取网页新闻，提取新闻标题、时间、正文，将结构化后的数据存入数据库；通过收集过去一段时间(3天)内主要金融领域的媒体所发布的网络新闻，从两个维度来构建语料，每个新闻渠道为一个维度，时间轴为另一个维度；步骤2，预处理：对文本进行预处理，包括分词、分句；具体为，对文本进行分词，构建2‑gram词组，计算词组在每个新闻渠道，时间轴上的频数；

【技术特征摘要】
1.一种基于机器学习模型的社会热点发现方法，其特征在于：主要实现技术步骤：步骤1，构建语料集：获取网页新闻，提取新闻标题、时间、正文，将结构化后的数据存入数据库；通过收集过去一段时间(3天)内主要金融领域的媒体所发布的网络新闻，从两个维度来构建语料，每个新闻渠道为一个维度，时间轴为另一个维度；步骤2，预处理：对文本进行预处理，包括分词、分句；具体为，对文本进行分词，构建2-gram词组，计算词组在每个新闻渠道，时间轴上的频数；步骤3，计算热度：对媒体维度，计算哪些词语被多个媒体渠道共同提及到；对时间维度，采用TF*PDF算法计算每个词语TF*PDF值，以及它在时间内轴上的变化趋势值；最后结合起来计算最终每个词的热度值；其中，TF*PDF值计算如下，其中：Wj:词组j的TF*PDF值Fjc:词组j在新闻渠道c中的频数njc:新闻渠道c中出现词组j的文章数Nc:新闻渠道c中总的文章数K:新闻渠道c中...

【专利技术属性】
技术研发人员：张劲松，蔡源涛，赵二超，
申请(专利权)人：成都蓝景信息技术有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人