基于深度学习的舆情文本分类方法技术

技术编号:22166925 阅读:117 留言:0更新日期:2019-09-21 10:35
本发明专利技术提供了基于深度学习的舆情文本分类方法,包括如下步骤:1、从互联网百度爬取企业舆情文本,可以得到少量的正样本和大量的无标注样本;2、通过PU‑Learning技术构建初始训练数据集;3、对2中的数据集利用fasttext、CNN、RNN训练三种深度模型,采用多模型协同训练;4、采用3中扩充后的数据集训练好的CNN对测试数据集进行分类。本专利通过有目的的爬取数据构建正样本数据,能够使正样本的质量更高;能够从无标注样本中获取更加距离正样本更远,更加可靠的负样本;以较高的准确率从舆情数据中识别出业务人员关注的问题和事件,及时推送和预警,大大提高了业务人员工作效率。

Public Opinion Text Classification Method Based on Deep Learning

【技术实现步骤摘要】
基于深度学习的舆情文本分类方法
本专利技术涉及一种舆情文本分类方法,尤其是一种正样本的质量更高,可获取距离正样本更远、更加可靠的负样本,准确率高,工作效率高的基于深度学习的舆情文本分类方法。
技术介绍
目前,针对企业新闻舆情文本数据的分类还处于人工处理结合简单的规则进行分类的阶段,效率低下,同时分类效果无法保证。
技术实现思路
为解决上述问题,本专利技术提供了一种正样本的质量更高,可获取距离正样本更远、更加可靠的负样本,准确率高,工作效率高的基于深度学习的舆情文本分类方法。基于深度学习的舆情文本分类方法,包括如下步骤:1、从互联网百度爬取企业舆情文本,可以得到少量的正样本和大量的无标注样本;2、通过PU-Learning技术构建初始训练数据集;3、对2中的数据集利用fasttext、CNN、RNN训练三种深度模型,采用多模型协同训练,分别用这三种模型对无标注样本数据进行分类判定,如果三种分类器均判定为正样本且情感为负面,则判定为正样本,加入正样本集;如果三种分类器均判定为负样本且情感为正面,则判定为负样本,加入负样本集;其他情况暂不做处理;4、采用3中扩充后的数据集训练好的CNN对测试数据集进行分类,如果分类准确率小于阈值,则迭代执行3中的操作,反之流程结束。其具体方法如下:(1)数据爬取和预处理在新闻舆情事件分类场景中,数据并不像我们设想的那么理想,由于数据标注成本太高等原因,我们难以积累丰富的正负样本,因此如何拿到大量且准确的有标注的正负样本,对于分类效果有着非常大的影响。本专利中,我们利用关键词组合(如乐视+资金链,以这种方式进行已出现过资金问题的企业名和资金问题描述词的多种组合)爬取出现企业资金问题新闻数据,标注资金问题正样本数据;同时用未出现资金问题的“好”企业如腾讯,阿里巴巴作为关键词爬取相关新闻,作为无标注样本(可能也有包含部分存在资金问题的新闻,故不能称为负样本,应该是未知样本也称作无标注样本)。这样我们就有了少量的正样本(网络爬取+部分人工标注确认)和大量的无标注样本;(2)训练集构建利用正样本无标签学习(PU-learning,Positiveandunlabeledlearning)迭代的从(1)中大量的无标注样本集中找出与正样本余弦距离尽可能远的样本,视作更为可靠的负样本,与正样本一起,构建训练集。PULearning的应用场景是,我们可以清晰地确定正样本,但是不能确定负样本,因为它有可能是正样本,只是我们还没有证明。这时我们可以把这部分不确定的样本称为无标签样本U,加上正样本P来建立模型。PU-learning的计算流程主要分为两个阶段:第一阶段:从未标记实例中选择可靠的负例集RN,做法是:a、在P中随机选取一部分正例S加入U中,这时两个数据集分别为P-S和U+S,分别定义为ps和us,用ps和us训练一个二分类模型model,label0为us的数据,label1为ps的数据;b、然后用这个分类器model用于无标签数据U,对无标签样本集合U做分类,计算每个样本属于负类的概率,设定一个阈值a,如果样本分类概率大于a,那么我们认为是一个相对可靠的负样本。第二阶段:利用正例P和可靠负例RN,训练一个传统的机器学习分类模型,用来预测新样本。(3)多模型协同训练主要分三个步骤:a、用三种分类器模型fasttext,cnn,rnn分别对无标签数据进行判别分类,若三种模型全部判别为正类(存在资金问题),则直接加入训练集作为正样本;若全部判别为负类(不存在资金问题),则为负样本;若有两个分类器判别为正类,一个分类器判别为负类,则保留这条数据,进行人工干预标注;若有两个分类器判别为负类,一个分类器判别为正类,不予处理,继续视作为无标签数据。b、通过a中的操作后,更新训练集数据,然后继续训练三种模型model,计算在测试集中的分类准确率;c、迭代进行a,b中的操作,直至在测试集中的准确率达到阈值为止,终止迭代,保存模型.(4)模型分类根据3中得到更新后的训练数据,采用3中训练好的深度卷积神经网络CNN对测试数据集进行分类,如果分类准确率小于阈值(0.8),则继续执行3中的操作,反之流程结束。本专利通过有目的的爬取数据构建正样本数据,能够使正样本的质量更高;同时结合PU-learning能够从无标注样本中获取更加距离正样本更远,更加可靠的负样本;同时结合PU-learning和多模型协同训练技术可以在工业界普遍存在的少量正样本和大量无标签样本数据的情况下取得较为理想的效果,以较高的准确率从舆情数据中识别出业务人员关注的问题和事件,及时推送和预警,大大提高了业务人员工作效率,并且根据识别结果分析,方便业务人员采取风险管理措施。附图说明图1为本专利的工作流程示意图图2为本专利的字符级卷积神经网络(char-CNN)的模型架构图具体实施方式如图1和图2所示,基于深度学习的舆情文本分类方法,包括如下步骤:1、从互联网百度爬取企业舆情文本,可以得到少量的正样本和大量的无标注样本;2、通过PU-Learning技术构建初始训练数据集;3、对2中的数据集利用fasttext、CNN、RNN训练三种深度模型,采用多模型协同训练,分别用这三种模型对无标注样本数据进行分类判定,如果三种分类器均判定为正样本且情感为负面,则判定为正样本,加入正样本集;如果三种分类器均判定为负样本且情感为正面,则判定为负样本,加入负样本集;其他情况暂不做处理;4、采用3中扩充后的数据集训练好的CNN对测试数据集进行分类,如果分类准确率小于阈值,则迭代执行3中的操作,反之流程结束。其具体方法如下:(1)数据爬取和预处理在新闻舆情事件分类场景中,数据并不像我们设想的那么理想,由于数据标注成本太高等原因,我们难以积累丰富的正负样本,因此如何拿到大量且准确的有标注的正负样本,对于分类效果有着非常大的影响。本专利中,我们利用关键词组合(如乐视+资金链,以这种方式进行已出现过资金问题的企业名和资金问题描述词的多种组合)爬取出现企业资金问题新闻数据,标注资金问题正样本数据;同时用未出现资金问题的“好”企业如腾讯,阿里巴巴作为关键词爬取相关新闻,作为无标注样本(可能也有包含部分存在资金问题的新闻,故不能称为负样本,应该是未知样本也称作无标注样本)。这样我们就有了少量的正样本(网络爬取+部分人工标注确认)和大量的无标注样本;(2)训练集构建利用正样本无标签学习(PU-learning,Positiveandunlabeledlearning)迭代的从(1)中大量的无标注样本集中找出与正样本余弦距离尽可能远的样本,视作更为可靠的负样本,与正样本一起,构建训练集。PULearning的应用场景是,我们可以清晰地确定正样本,但是不能确定负样本,因为它有可能是正样本,只是我们还没有证明。这时我们可以把这部分不确定的样本称为无标签样本U,加上正样本P来建立模型。PU-learning的计算流程主要分为两个阶段:第一阶段:从未标记实例中选择可靠的负例集RN,做法是:a、在P中随机选取一部分正例S加入U中,这时两个数据集分别为P-S和U+S,分别定义为ps和us,用ps和us训练一个二分类模型model,label0为us的数据,label1为ps的数据;b、然后本文档来自技高网...

【技术保护点】
1.基于深度学习的舆情文本分类方法,包括如下步骤:1)、从互联网百度爬取企业舆情文本,可以得到少量的正样本和大量的无标注样本;2)、通过PU‑Learning技术构建初始训练数据集;3)、对2中的数据集利用fasttext、CNN、RNN训练三种深度模型,采用多模型协同训练,分别用这三种模型对无标注样本数据进行分类判定,如果三种分类器均判定为正样本且情感为负面,则判定为正样本,加入正样本集;如果三种分类器均判定为负样本且情感为正面,则判定为负样本,加入负样本集;其他情况暂不做处理;4)、采用3中扩充后的数据集训练好的CNN对测试数据集进行分类,如果分类准确率小于阈值,则迭代执行3中的操作,反之流程结束;其具体方法如下:(1)数据爬取和预处理在新闻舆情事件分类场景中,数据并不像我们设想的那么理想,由于数据标注成本太高等原因,我们难以积累丰富的正负样本,因此如何拿到大量且准确的有标注的正负样本,对于分类效果有着非常大的影响;本专利中,我们利用关键词组合爬取出现企业资金问题新闻数据,标注资金问题正样本数据;同时用未出现资金问题的“好”企业作为关键词爬取相关新闻,作为无标注样本;这样我们就有了少量的正样本和大量的无标注样本;(2)训练集构建利用正样本无标签学习迭代的从(1)中大量的无标注样本集中找出与正样本余弦距离尽可能远的样本,视作更为可靠的负样本,与正样本一起,构建训练集;PULearning的应用场景是,我们可以清晰地确定正样本,但是不能确定负样本,因为它有可能是正样本,只是我们还没有证明,这时我们可以把这部分不确定的样本称为无标签样本U,加上正样本P来建立模型;PU‑learning的计算流程主要分为两个阶段:第一阶段:从未标记实例中选择可靠的负例集RN,做法是:a、在P中随机选取一部分正例S加入U中,这时两个数据集分别为P‑S和U+S,分别定义为ps和us,用ps和us训练一个二分类模型model,label 0为us的数据,label 1为ps的数据;b、然后用这个分类器model用于无标签数据U,对无标签样本集合U做分类,计算每个样本属于负类的概率,设定一个阈值a,如果样本分类概率大于a,那么我们认为是一个相对可靠的负样本;第二阶段:利用正例P和可靠负例RN,训练一个传统的机器学习分类模型,用来预测新样本;(3)多模型协同训练主要分三个步骤:a、用三种分类器模型fasttext,cnn,rnn分别对无标签数据进行判别分类,若三种模型全部判别为正类,则直接加入训练集作为正样本;若全部判别为负类,则为负样本;若有两个分类器判别为正类,一个分类器判别为负类,则保留这条数据,进行人工干预标注;若有两个分类器判别为负类,一个分类器判别为正类,不予处理,继续视作为无标签数据;b、通过a中的操作后,更新训练集数据,然后继续训练三种模型model,计算在测试集中的分类准确率;c、迭代进行a,b中的操作,直至在测试集中的准确率达到阈值为止,终止迭代,保存模型;(4)模型分类根据3中得到更新后的训练数据,采用3中训练好的深度卷积神经网络CNN对测试数据集进行分类,如果分类准确率小于阈值(0.8),则继续执行3中的操作,反之流程结束。...

【技术特征摘要】
1.基于深度学习的舆情文本分类方法,包括如下步骤:1)、从互联网百度爬取企业舆情文本,可以得到少量的正样本和大量的无标注样本;2)、通过PU-Learning技术构建初始训练数据集;3)、对2中的数据集利用fasttext、CNN、RNN训练三种深度模型,采用多模型协同训练,分别用这三种模型对无标注样本数据进行分类判定,如果三种分类器均判定为正样本且情感为负面,则判定为正样本,加入正样本集;如果三种分类器均判定为负样本且情感为正面,则判定为负样本,加入负样本集;其他情况暂不做处理;4)、采用3中扩充后的数据集训练好的CNN对测试数据集进行分类,如果分类准确率小于阈值,则迭代执行3中的操作,反之流程结束;其具体方法如下:(1)数据爬取和预处理在新闻舆情事件分类场景中,数据并不像我们设想的那么理想,由于数据标注成本太高等原因,我们难以积累丰富的正负样本,因此如何拿到大量且准确的有标注的正负样本,对于分类效果有着非常大的影响;本专利中,我们利用关键词组合爬取出现企业资金问题新闻数据,标注资金问题正样本数据;同时用未出现资金问题的“好”企业作为关键词爬取相关新闻,作为无标注样本;这样我们就有了少量的正样本和大量的无标注样本;(2)训练集构建利用正样本无标签学习迭代的从(1)中大量的无标注样本集中找出与正样本余弦距离尽可能远的样本,视作更为可靠的负样本,与正样本一起,构建训练集;PULearning的应用场景是,我们可以清晰地确定正样本,但是不能确定负样本,因为它有可能是正样本,只是我们还没有证明,这时我们可以把这部分...

【专利技术属性】
技术研发人员:肖翔黄泓周家木
申请(专利权)人:北京海致星图科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1