基于模型融合的多类别情感分类方法技术

技术编号:23191361 阅读:23 留言:0更新日期:2020-01-24 16:25
基于模型融合的多类别情感分类方法。一种基于Bert模型和Liblinear模型相融合的多分类方法。首先利用Bert模型在数据预处理方面的突破性进展对训练文本集进行预处理,与类别标签数据结合,获取文本的特征向量,将非结构化的文本数据转化成结构化的训练集合,再转化为Liblinear模型的标准输入数据,进行分类模型的构建。而Liblinear采用一对多的分类机制,有效的解决了多类别分类任务中的类别分布不平衡问题。本发明专利技术通过实验将结合Bert向量模型与Liblinear多分类模型的分类结果与几种经典的多分类方法进行对比。实验结果表明将Bert模型和Liblinear相结合来处理文本多分类情感分类问题时,准确度更高。

Multi category emotion classification method based on model fusion

【技术实现步骤摘要】
基于模型融合的多类别情感分类方法
本专利技术属于自然语言处理技术与情感分析领域,具体地说是一种基于深度学习的模型融合的多类别情感分类方法。
技术介绍
近年来,随着电商平台的迅猛发展,越来越多的用户将电商平台的评论信息作为是否消费的重要参考标准。因此对于在线评论文本的情感分析工作与研究具有重要意义。评论文本的情感分析不仅对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值,而且在互联网行业有极其广泛的应用,主要用于个性化推荐、智能搜索、产品反馈、业务安全等。但是在对复杂且繁多的评论信息进行多分类情感分析时,一般的采样、数据合成以及加权的方式均存在分类准确率低、消耗时间长的问题。针对日益提高的分析需求以及日益多样化和复杂化的语言环境,细粒度的情感分析已经成为研究重点。细粒度层次情感分析主要包括对属性词以及情感词的抽取以及匹配工作。在情感词抽取工作方面,Cruz等通过PMI,随机森林等算法对情感词典进行扩展;Moghaddam等利用Epinions.com上标准形容词并结合WordNet同义词,通过距离加权最近邻算法进行情感词抽取工作;Lin等使用共同情感话题模型(jointsentiment-topic,JST)进行情感词抽取。JST模型是基于4层分层贝叶斯模型的修正LDA模型。JST模型可以从文本中抽取出正向和负向的话题。在评论对象的属性抽取工作方面,Liu等基于笔记本电脑评论自动化构建基于产品特征和情感词的模糊领域情感本体树来进行情感分类;Lau等构建包含显式和隐式产品属性特征的本体以及基于语境的情感词本体,并使用LDA和Gibbs模型抽取显式和隐式的产品特征。还有一部分研究者通过机器学习方法抽取评价对象的显式,隐式属性。例如,Wang等使用细粒度LabeledLDA模型和统一的细粒度LabeledLDA模型进行显式产品特征抽取;Yan等使用基于同义词词典扩展的Pagerank算法进行产品显式特征抽取;Bagheri等使用bootstrapping算法、FLR算法和基于图的评分等方法识别显式和隐式评价对象属性;Xue等使用基于LDA的显式属性抽取模型和支持向量机算法对隐式属性进行抽取;Qiu等使用HowNet和聚类算法从评论文本中进行隐式评价对象属性抽取。文本分类是一种将文本信息按照分类模型进行自动归类的信息处理技术。多类别文本分类问题是文本分类中的一种常见问题。很多的多类别文本分类方法假设文本的类别数确定.模型训练的过程则是对这些确定的类别进行离线训练的过程。然而,现实中的数据往往具有高维和类不平衡双重特征,即数据属性较多且类别分布不均匀,在高维特征空间下,数据类别的分布更加稀疏,含有更多的冗余或不相关特征,少数类更加难以识别,获取有效信息更加困难。
技术实现思路
本专利技术的目的是为了解决现有技术存在的多类别分类任务中的类别分布不平衡问题,提出一种基于模型融合的多类别情感分类方法,将Bert(BidirectionalEncoderRepresentationfromTransformers)模型和Liblinear(ALibraryforLargeLinearClassification)模型(简称B-liblinear模型)相融合,更好地处理文本多分类情感分类问题。本专利技术的技术方案一种基于模型融合的多类别情感分类方法,按照如下步骤进行:步骤1,语料预处理。首先将各个数据集进行分词处理,分词使用jieba库,去掉停用词。建立词典时,过滤掉出现次数小于5的词语。步骤2,词嵌入层。将预处理完成的语料放入Bert-base-Chinese模型中,进行训练,提取其中的词向量输出层,得到词向量矩阵。步骤3,特征提取。提取Bert-base-Chinese模型中训练完成得到的词向量,放入CNN(卷积神经网络)的输入层,经过CNN中卷积层和池化层进行特征提取;步骤4,在步骤2中将预处理完成的语料放入Bert-base-Chinese模型中进行模型预训练时,分类模型的f1值达到最大时,保存模型。把Bert模型顶层输出的文本特征保存下来,得到文本的特征向量。步骤5,将步骤4得到的文本的特征向量作为softmax层的输入,进行分类,提取通过softmax分类器得到的对20个细粒度的属性的分类的权重值。步骤6,将步骤5提取出的属性分类的权重值转换为Liblinear模型标准的输入数据格式,作为Liblinear输入,训练Liblinear分类器,进行情感分类识别,从而获得待识别的评论数据的情感类别。本专利技术的优点和有益效果1)本专利技术提供的方法,解决了文本多类别情感分类问题。2)本专利技术提供的方法利用先提取Bert模型中训练完成的词嵌入层中的向量,放入CNN的输入层,进行CNN中卷积层和池化层的特征提取,池化层操作中主要提取的是对卷积运算所得到的列向量中的最大值进行提取,使得Bert模型具有提取文本情感特征的能力,再提取特征传输给Liblinear模型做分类Precision、Recall、F1值分别是0.72,0.76,0.72,分类结果准确度较高。3)本专利技术提供的方法还利用模型融合,充分发挥了各个模型的优点,实现了模型间的优势互补。附图说明图1是本专利技术基于模型融合的多类别情感分类方法流程图。图2是本专利技术基于模型融合的多分类情感分类方法的框架图。具体实施方式下面对本专利技术的具体实施方式进行详细描述,但应当理解本专利技术的保护范围并不受具体实施方式的限制。本专利技术采用的数据集为大众点评平台的用户对平台商家做出的评论数据,该数据集按照评价对象的粗粒度属性以及各个粗粒度属性所包含的细粒度属性共分为20个类,例如“服务”这一属性中包含两个细粒度属性,分别是“服务人员态度”、“排队等候时间”,除此之外,在每一条标记数据中还包含该数据对应各个细粒度属性的情感倾向值,每个细粒度要素的情感倾向有四种状态,分别是中性情感、正面情感、负面情感、未提及的情感。使用的Bert的版本为12层的transformer中文模型。Bert模型能够进行无监督式预训练,可以迁移到其它的NLP任务中进行finetune。但是由于Liblinear无法直接与Bert进行反向传播训练,因此本实验中首先使用Bert和CNN加softmax进行模型预训练,使得Bert模型具有提取文本情感特征的能力。步骤1.语料预处理步骤1-1.首先将各个数据集进行分词处理,分词使用jieba库,去掉停用词。建立词典时,过滤掉出现次数小于5的词语。步骤1-2.训练集、验证集、测试集组成的语料词典大小为66347,训练和测试中未出现的词,用<unk>表示。步骤2.词嵌入层步骤2-1.将预处理完成的语料放入Bert-base-Chinese模型中,进行训练,提取其中的词向量输出层,并未涉及到fine-tune阶段。其中输出的词向量768维。将预处理的语料,计算每一句话的句向量W本文档来自技高网
...

【技术保护点】
1.一种基于模型融合的多类别情感分类方法,其特征在于,包括如下步骤:/n步骤1,语料预处理;首先将各个数据集进行分词处理,分词使用jieba库,去掉停用词;建立词典时,过滤掉出现次数小于5的词语;/n步骤2,词嵌入层;将预处理完成的语料放入Bert-base-Chinese模型中,进行训练,提取其中的词向量输出层,得到词向量矩阵;/n步骤3,特征提取;提取Bert-base-Chinese模型中训练完成得到的词向量,放入CNN的输入层,经过CNN中卷积层和池化层进行特征提取;/n步骤4,在步骤2中将预处理完成的语料放入Bert-base-Chinese模型中进行模型预训练时,分类模型的f1值达到最大时,保存模型;把Bert-base-Chinese模型顶层输出的文本特征保存下来,得到文本的特征向量;/n步骤5,将步骤4得到的文本的特征向量作为softmax层的输入,进行分类,提取通过softmax分类器得到的对20个细粒度的属性的分类的权重值;/n步骤6,将步骤5提取出的属性分类的权重值转换为Liblinear模型标准的输入数据格式,作为Liblinear输入,训练Liblinear分类器,进行情感分类识别,从而获得待识别的评论数据的情感类别。/n...

【技术特征摘要】
1.一种基于模型融合的多类别情感分类方法,其特征在于,包括如下步骤:
步骤1,语料预处理;首先将各个数据集进行分词处理,分词使用jieba库,去掉停用词;建立词典时,过滤掉出现次数小于5的词语;
步骤2,词嵌入层;将预处理完成的语料放入Bert-base-Chinese模型中,进行训练,提取其中的词向量输出层,得到词向量矩阵;
步骤3,特征提取;提取Bert-base-Chinese模型中训练完成得到的词向量,放入CNN的输入层,经过CNN中卷积层和池化层进行特征提取;
步骤4,在步骤2中将预处理完成的语料放入Bert-base-Chinese模型中进行模型预训练时,分类模型的f1值达到最大时,保存模型;把Bert-base-Chinese模型顶层输出的文本特征保存下来,得到文本的特征向量;
步骤5,将步骤4得到的文本的特征向量作为softmax层的输入,进行分类,提取通过softmax分类器得到的对20个细粒度的属性的分类的权重值;
步骤6,将步骤5提取出的属性分类的权重值转换为Liblinear模型标准的输入数据格式,作为Liblinear输入,训练Liblinear分类器,进行情感分类识别,从而获得待识别的评论数据的情感类别。


2.根据权利要求1所述的基于模型融合的多类别情感分类方法,其特征在于,步骤2所述词嵌入层的具体操作方法是:
步骤2-1,将预处理完成的语料放入Bert-base-Chinese模型中,进行训练,提取其中的词向量输出层,其中输出的词向量为768维;
将预处理的语料,计算每一句话的句向量W={w1,w2,.....,wn},其中每个词wi对于这句话中的所有词的相互关系,根据每一个词的相互关系来调整词与词之间的关联程度,利用其中的关联程度,来调整每个单词的权重;
步骤2-2,语料中的初始句向量矩阵,通过三个字向量矩阵Q、K、V,三个字向量是初始的句向量矩阵...

【专利技术属性】
技术研发人员:王晓晔薛颖斌周晓雯孙嘉琪张德干
申请(专利权)人:天津理工大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1