一种基于深度学习的舆情热点类别划分方法技术

技术编号:16365559 阅读:44 留言:0更新日期:2017-10-10 21:36
本发明专利技术提出一种基于深度学习的舆情热点类别划分方法,主要包括:训练数据集的采集和预处理,建立概率主题表示模型,对文本数据集进行文档‑主题和主题‑词汇两个概率分布表示,并将表示成的主题‑词汇矩阵输入到预先搭建好的神经网络模型中训练学习文本特征,网络输出层选择Softmax归一化处理分类预测。本发明专利技术一是解决了长文本舆情热点数据的降维问题,提高了分类算法的效率。二是采用深度学习的方法实现了舆情热点信息的深层特征的自动提取,使得舆情热点多种类划分更加准确。

A hotspot classification method for public opinion based on depth learning

The invention provides a deep learning based on the public opinion hotspot classification methods, mainly including: the acquisition and preprocessing of the training data set, a probabilistic topic model, the text data set of documents topics and the vocabulary two probability distribution, and the theme table shows the vocabulary input to the training matrix learn the text feature of neural network model in advance to build a good network, the output layer Softmax normalized classification prediction. The invention solves the problem of reducing the dimension of the hot data of the long text public opinion, and improves the efficiency of the classification algorithm. Two, the method of deep learning is used to realize the automatic extraction of the deep features of the hot information of public opinion, so that the public opinion is hot and the classification is more accurate.

【技术实现步骤摘要】
一种基于深度学习的舆情热点类别划分方法
本专利技术涉及深度学习和自然语言处理
,尤其是一种基于深度学习的舆情热点类别划分方法,方法是一种具体应用于舆情分析的舆情热点科学类型划分的中文文本分类方法。
技术介绍
在如今信息技术高度发达的年代,社会上某个事件发生后,广大群众可以迅速通过各种途径了解到事情的来龙去脉,随之产生大量的评论。这就是舆情,对于民众舆情的分析对后续如何处理事件起着至关作用。在分析某一舆情热点之前应先对其进行科学的类型界定。比如热点事件一般可以分为突发自然灾害事件、生产安全事故、群体性事件、公共卫生事件、公权力形象、司法事件、经济民生事件、社会思潮、境外涉华突发事件等。类型界定的正确与否,对后续事件的分析比较,应对政策的制定都极为关键。现有的相关技术有相近专利CN201310072137.3公开了一种网络舆情分析方法,以主题匹配代替简单舆情分析中的词语匹配,分析并判断页面是否属于舆情,属于一个二分类的问题。专利CN201410023154.2涉及一种基于情感分析和隐马尔科夫模型融合的方法,通过利用情感倾向性信息,提高了股市预测的准确性。通过调查和分析发现,现有技术本文档来自技高网...
一种基于深度学习的舆情热点类别划分方法

【技术保护点】
一种基于深度学习的舆情热点类别划分方法,其特征在于,该方法包括两个阶段,第一个阶段为训练阶段,第二个阶段为分类阶段;训练阶段包括步骤:(1)采集满足需求量的包含舆情热点的文本数据作为训练数据,并根据舆情热点的种类在训练数据中添加标签;对采集到的训练数据进行预处理,将训练数据保存为统一格式并构建训练数据中文词典;(2)根据训练数据中文词典建立训练数据概率主题模型,并采用Gibbs抽样方法学习训练数据概率主题模型,得到训练数据的文档‑主题分布矩阵和主题‑词汇分布矩阵,并依据文档‑主题分布矩阵采集训练数据的分类标签,将主题‑词汇分布矩阵作为深度学习模型所需训练矩阵;(3)建立深度学习模型,所述深度学...

【技术特征摘要】
1.一种基于深度学习的舆情热点类别划分方法,其特征在于,该方法包括两个阶段,第一个阶段为训练阶段,第二个阶段为分类阶段;训练阶段包括步骤:(1)采集满足需求量的包含舆情热点的文本数据作为训练数据,并根据舆情热点的种类在训练数据中添加标签;对采集到的训练数据进行预处理,将训练数据保存为统一格式并构建训练数据中文词典;(2)根据训练数据中文词典建立训练数据概率主题模型,并采用Gibbs抽样方法学习训练数据概率主题模型,得到训练数据的文档-主题分布矩阵和主题-词汇分布矩阵,并依据文档-主题分布矩阵采集训练数据的分类标签,将主题-词汇分布矩阵作为深度学习模型所需训练矩阵;(3)建立深度学习模型,所述深度学习模型包括具有多层隐层的DBN神经网络和softmax层,所述DBN神经网络的最后一层隐层的输出数据作为softmax层的输入数据,softmax层作为所述深度学习模型的输出层,对DBN神经网络的输出结果进行归一化处理;(4)将训练数据、训练数据中文词典、训练数据的分类标签输入深度学习模型进行循环训练,并保存满足预设指标的最优深度学习模型;分类阶段包括步骤:(5)采集预测数据,根据舆情热点的种类在预测数据中添加标签;对采集到的预测数据进行预处理,将预测数据保存为统一格式并构建预测数据中文词典;(6)根据预测数据中文词典建立预测数据概率主题模型,并采用Gibbs抽样方法学习预测数据概率主题模型,得到预测数据的文档-主题分布矩阵和主题-词汇分布矩阵,并依据文档-主题分布矩阵采集预测数据的分类标签;(7)将预测数据,预测数据分类标签和预测数据中文词典输入步骤(4)得到的最优模型,最优模型根据预测数据词典将输入的预测数据映射为输入层大小的矩阵,最优模型的输出层预测数据的多分类的结果进行归一化处理并根据预设阈值选择出预测数据的一种类别或一组类别。2.根据权利要求1所述的一种基于深度学习的舆情热点类别划分方法,其特征在于,所述训练数据和预测数据的采集方法为:从网络公开新闻语料库中直接获取和/或通过网络爬虫从网络新闻中爬取。3.根据权利要求1所述的一种基于深度...

【专利技术属性】
技术研发人员:周勇刘兵刘敬学王重秋
申请(专利权)人:中国矿业大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1