舆情文本分类模型构建和舆情文本分类方法、装置及设备制造方法及图纸

技术编号：23085121 阅读：25 留言：0更新日期：2020-01-11 01:10

本说明书实施例公开了一种舆情文本分类模型构建和舆情文本的分类方法、装置及设备。方案包括：获取待分类的舆情文本；采用不同的特征提取方式对待分类的舆情文本进行特征提取，得到待分类的舆情文本的多个不同的特征信息；将待分类的舆情文本的多个不同的特征信息分别输入多个分类模型，得到每个分类模型的输出结果；输入任意一个分类模型的特征的特征提取方式与训练任意一个分类模型时的特征提取方式是相同的；将待分类的舆情文本的多个不同的特征信息与待分类的舆情文本的多个不同的特征信息对应的每个分类模型的输出结果输入至舆情文本分类模型中，得到待分类的舆情文本的分类结果，舆情文本分类模型是基于所述多个分类模型得到的。

Public opinion text classification model construction and public opinion text classification method, device and equipment

全部详细技术资料下载

【技术实现步骤摘要】
舆情文本分类模型构建和舆情文本分类方法、装置及设备
本申请涉及计算机
，尤其涉及一种舆情文本分类模型构建和舆情文本的分类方法、装置及设备。
技术介绍
现有技术中，舆论情况(简称“舆情”)，是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。面对庞大的网络新闻等舆情消息，用户需要从中筛选、挖掘出真正有用的舆情消息，如公司需要筛选出针对本公司的负面舆情信息，此时就需要对舆情信息进行分类。但是在对舆情信息进行分类时，传统模型融合方法大多采用单一的基分类器提取相同的特征，分类结果准确度低，往往不能满足用户的要求。
技术实现思路
有鉴于此，本申请实施例提供了一种舆情文本分类模型构建和舆情文本的分类方法、装置及设备，用于提高舆情文本的分类精度。为解决上述技术问题，本说明书实施例是这样...

【技术保护点】
1.一种舆情文本分类模型构建方法，包括：/n获取训练样本集合，所述训练集合中包括多个舆情文本，每个舆情文本具有对应的标签；/n将所述训练样本集合拆分成第一训练分集合和第二训练分集合；/n采用不同的特征提取方式对所述第一训练分集合中的舆情文本进行特征提取，得到多个样本特征集合；一个所述样本特征集合中的所有特征是采用同一特征提取方式得到的；/n对每个所述样本特征集合进行分类训练，得到多个分类模型，其中，一个所述分类模型对应一个所述样本特征集合；/n采用所述不同的特征提取方式对所述第二训练分集合中的舆情文本进行特征提取，得到所述第二训练分集合中各舆情文本对应的多个不同的特征信息；/n将所述第二训练分...

【技术特征摘要】
1.一种舆情文本分类模型构建方法，包括：
获取训练样本集合，所述训练集合中包括多个舆情文本，每个舆情文本具有对应的标签；
将所述训练样本集合拆分成第一训练分集合和第二训练分集合；
采用不同的特征提取方式对所述第一训练分集合中的舆情文本进行特征提取，得到多个样本特征集合；一个所述样本特征集合中的所有特征是采用同一特征提取方式得到的；
对每个所述样本特征集合进行分类训练，得到多个分类模型，其中，一个所述分类模型对应一个所述样本特征集合；
采用所述不同的特征提取方式对所述第二训练分集合中的舆情文本进行特征提取，得到所述第二训练分集合中各舆情文本对应的多个不同的特征信息；
将所述第二训练分集合中各舆情文本对应的多个不同的特征信息分别输入所述多个分类模型，得到所述第二训练分集合中各舆情文本对应的每个分类模型的输出结果；输入任意一个分类模型的特征的特征提取方式与训练所述任意一个分类模型时的特征提取方式是相同的；
对所述第二训练分集合各舆情文本对应的多个不同的特征信息与所述多个不同的特征信息对应的每个分类模型的输出结果进行训练，得到舆情文本分类模型。

2.如权利要求1所述的方法，所述采用不同的特征提取方式对所述第一训练分集合中的舆情文本进行特征提取，具体包括：
采用第一特征提取方式提取所述第一训练分集合中的各舆情文本的第一特征信息，得到第一特征集合；
采用第二特征提取方式提取所述第一训练分集合中的各舆情文本的第二特征信息，得到第二特征集合，所述第一特征提取方式与所述第二特征提取方式不同；
采用第三特征提取方式提取所述第一训练分集合中的各舆情文本的第三特征信息，得到第三特征集合，所述第三特征提取方式与所述第一特征提取方式不同，所述第三特征提取方式与所述第二特征提取方式不同。

3.如权利要求1所述的方法，所述采用不同的特征提取方式对所述第一训练分集合中的舆情文本进行特征提取，具体包括：
将所述第一训练分集合拆分为第一训练子集合、第二训练子集合和第三训练子集合；
采用第一特征提取方式提取所述第一训练子集合中的各舆情文本的第一特征信息，得到第一特征集合；
采用第二特征提取方式提取所述第一训练子集合中的各舆情文本的第二特征信息，得到第二特征集合，所述第一特征提取方式与所述第二提取方式不同；
采用第三特征提取方式提取所述第三训练子集合中的各舆情文本的第三特征信息，得到第三特征集合，所述第三特征提取方式与所述第一特征提取方式不同，所述第三特征提取方式与所述第二特征提取方式不同。

4.如权利要求2或3所述的方法，所述采用所述不同的特征提取方式对所述第二训练分集合中的舆情文本进行特征提取，具体包括：
采用所述第一特征提取方式提取所述第二训练分集合中的各舆情文本的第四特征信息；
采用所述第二特征提取方式提取所述第二训练分集合中的各舆情文本的第五特征信息；
采用所述第三特征提取方式提取所述第二训练分集合中的各舆情文本的第六特征信息。

5.如权利要求4所述的方法，所述采用第一特征提取方式提取所述第一训练分集合中的各舆情文本的第一特征信息，具体包括：
对每个舆情文本进行分词处理；
对分词处理后的舆情文本提取TF-IDF特征；
所述采用第二特征提取方式提取所述第一训练分集合中的各舆情文本的第二特征信息，具体包括：
对每个舆情文本进行分词处理；
对分词处理后的舆情文本提取nbsvm特征；
所述采用第三特征提取方式提取所述第一训练分集合中的各舆情文本的第三特征信息，具体包括：
对每个舆情文本进行分词处理；
对分词处理后的舆情文，通过fastText提取Embedding向量表示；
统计所述Embedding向量表示的均值、最大值和平均值。

6.如权利要求5所述的方法，所述对每个所述样本特征集合进行分类训练，得到多个分类模型，具体包括：
采用LigthGBM分类器对所述第一特征集合进行分类训练，得到第一分类模型；
采用XGBoost分类器对所述第二特征集合进行分类训练，得到第二分类模型；
采用LigthGBM分类器对所述第三特征集合进行分类训练，得到第三分类模型。

7.如权利要求6所述的方法，所述将所述第二训练分集合中各舆情文本对应的多个不同的特征信息分别输入所述多个分类模型，得到所述第二训练分集合中各舆情文本对应的每个分类模型的输出结果，具体包括：
将所述第四特征信息输入至所述第一分类模型中，得到第一分类得分；
将所述第五特征信息输入至所述第二分类模型中，得到第二分类得分；
将所述第六特征信息输入至所述第三分类模型中，得到第三分类得分。

8.一种舆情文本的分类方法，包括：
获取待分类的舆情文本；
采用不同的特征提取方式对所述待分类的舆情文本进行特征提取，得到所述待分类的舆情文本的多个不同的特征信息；
将所述待分类的舆情文本的多个不同的特征信息分别输入多个分类模型，得到每个分类模型的输出结果；输入任意一个分类模型的特征的特征提取方式与训练所述任意一个分类模型时的特征提取方式是相同的；
将所述待分类的舆情文本的多个不同的特征信息与所述待分类的舆情文本的多个不同的特征信息对应的每个分类模型的输出结果输入至舆情文本分类模型中，得到所述待分类的舆情文本的分类结果，所述舆情文本分类模型是基于所述多个分类模型得到的。

9.如权利要求8所述的方法，所述采用不同的特征提取方式对所述待分类的舆情文本进行特征提取，得到所述待分类的舆情文本的多个不同的特征信息，具体包括：
采用第一特征提取方式提取所述待分类的舆情文本的第七特征信息；
采用第二特征提取方式提取所述待分类的舆情文本的第八特征信息；
采用第三特征提取方式提取所述待分类的舆情文本的第九特征信息；
所述将所述待分类的舆情文本的多个不同的特征信息分别输入多个分类模型，得到每个分类模型的输出结果，具体包括：
将所述第七特征信息输入至第一分类模型中，得到第四分类得分；
将所述第八特征信息输入至第二分类模型中，得到第五分类得分；
将所述第九特征信息输入至第三分类模型中，得到第六分类得分；
所述将所述待分类的舆情文本的多个不同的特征信息与所述待分类的舆情文本的多个不同的特征信息对应的每个分类模型的输出结果输入至舆情文本分类模型中，具体包括：
将所述第四分类得分、所述第五分类得分、所述第六分类得分、所述第七特征信息、所述第八特征信息和所述第九特征信息输入至所述舆情文本分类模型中。

10.如权利要求8所述的方法，所述采用不同的特征提取方式对所述待分类的舆情文本进行特征提取，得到所述待分类的舆情文本的多个不同的特征信息，具体包括：
提取所述待分类的舆情文本的TF-IDF特征；
提取所述待分类的舆情文本的nbsvm特征；
通过fastText提取所述待分类的舆情文本的提取Embedding向量，并统计所述Embedding向量表示的均值、最大值和平均值。

11.一种舆情文本分类模型构建装置，包括：
训练样本集合获取模块，用于在所述采用不同的特征提取方式对所述待分类的舆情文本进行特征提取之前，获取训练样本集合，所述训练集合中包括多个舆情文本，每个舆情文本具有对应的标签；
训练样本集合拆分模块，用于将所述训练样本集合拆分成第一训练分集合和第二训练分集合；
样本特征集合确定模块，用于采用不同的特征提取方式对所述第一训练分集合中的舆情文本进行特征提取，得到多个样本特征集合；一个所述样本特征集合中的所有特征是采用同一特征提取方式得到的；
多个分类模型确定模块，用于对每个所述样本特征集合进行分类训练，得到多个分类模型，其中，一个所述分类模型对应一个所述样本特征集合；
第一特征信息获取模块，用于采用所述不同的特征提取方式对所述第二训练分集合中的舆情文本进行特征提取，得到所述第二训练分集合中各舆情文本对应的多个不同的特征信息；
第一输出结果确定模块，用于将所述第二训练分集合中各舆情文本对应的多个不同的特征信息分别输入所述多个分类模型，得到所述第二训练分集合中各舆情文本对应的每个分类模型的输出结果；输入任意一个分类模型的特征的特征提取方式与训练所述任意一个分类模型时的特征提取方式是相同的；
舆情文本分类模型训练模块，用于对所述第二训练分集合中各舆情文本对应的多个不同的特征信息与所述多个不同的特征信息对应的每个分类模型的输出结果进行训练，得到舆情文本分类模型。

12.如权利要求11所述的装置，所述样本特征集合确定模块，具体包括：
第一特征信息提取单元，用于采用第一特征提取方式提取所述第一训练分集合中的各舆情文本的第一特征信息，得到第一特征集合；

【专利技术属性】
技术研发人员：孙宝林，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人