一种基于模型融合的情感倾向分析方法技术

技术编号：22166923 阅读：21 留言：0更新日期：2019-09-21 10:35

本发明专利技术公开了一种基于深度学习和多模型融合的分类方法以解决多标签的情感倾向分析问题。首先利用Word2vec训练文本语言模型，提取词向量，再由长短期记忆网络（Long Short Term Memory,LSTM）分别构建三个子模型：回归模型、多二分类模型、自编码模型，训练提取文本的基本特征，并通过全连接层输出分类向量，最后通过投票方式模型融合实现多标签情感倾向分析。本发明专利技术利用神经网络提取特征，避免了人工提取特征的各种缺点，提高了分类精度；多模型融合既保证了单二分类模型的有效性也考虑到了标签之间的关系。本发明专利技术从一定程度上解决了多标签文本分类模型忽视标签相关性的问题，提升了传统基于二分类多标签分类模型的精度。

An Emotional Tendency Analysis Method Based on Model Fusion

全部详细技术资料下载

【技术实现步骤摘要】
一种基于模型融合的情感倾向分析方法
本专利技术涉及一种机器学习方法，具体来讲是一种基于模型融合的情感倾向分析方法，属于深度学习、机器学习、自然语言处理等交叉技术应用领域。
技术介绍
随着新型社交媒体的发展,文本信息数量激增，自然语言处理技术受到了越来越多的关注。而情感倾向分析可以从文本中挖掘有效情感信息，为舆情监控提供了科学决策的依据。基于词向量的深度学习方法可以自动提取文本特征，相较于传统的机器学习方法和情感词典分析方法，可以更大程度上学习到文本上下文联系，尤其是对长难句具有更加优秀的表现。虽然目前已有多种方法解决多标签的情感倾向分析问题，但是都存在各种缺陷。基于多二分类的模型能够简洁有效地完成任务，但没能提取标签之间的关系，无法充分挖掘信息。而基于回归的模型能够提取标签之间的相关性，但阈值定义尚且没有合理的解释。至于基于编码的模型虽既能够考虑标签之间的相关性，也能将问题转化为传统的多分类方法解决，但针对大数量级标签计算量大，且过拟合现象严重。而通过模型融合，可以充分发挥各模型之间的优势，取长补短，提高模型的鲁棒性，从而弥补上述各种方案的不足。在本专利技术中，以长短期记忆网络（LongShortTermMemory,LSTM）为分类器，分别训练出回归模型，二分类组合模型，自编码模型，继而通过投票方法进行模型融合，实现优势互补，提高文本情感倾向分析的精确度。公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
技术实现思路
本专利技术的目的在于提供一种基于模型融...

【技术保护点】
1.一种基于模型融合的情感倾向分析方法，其特征在于：按照如下步骤进行：步骤1）词向量训练；步骤 2）设目标分类任务有R个类别，分别对回归模型，多二分类模型，自编码模型进行训练；步骤3）采用投票的方式进行模型融合，将三个R维0‑1标签向量向量相加，若对应的目标分类票数（即向量和的分量）大于1，则标签置1，否则置0，形成最终标签；步骤4）构造相应的损失函数进行各模型的训练，直到模型收敛；步骤5）利用训练好的模型进行情感倾向分析。

【技术特征摘要】
1.一种基于模型融合的情感倾向分析方法，其特征在于：按照如下步骤进行：步骤1）词向量训练；步骤2）设目标分类任务有R个类别，分别对回归模型，多二分类模型，自编码模型进行训练；步骤3）采用投票的方式进行模型融合，将三个R维0-1标签向量向量相加，若对应的目标分类票数（即向量和的分量）大于1，则标签置1，否则置0，形成最终标签；步骤4）构造相应的损失函数进行各模型的训练，直到模型收敛；步骤5）利用训练好的模型进行情感倾向分析。2.如权利要求1所述的基于模型融合的情感倾向分析方法，其特征在于：步骤1具体为：采用Word2vec的skip方法训练分布式表示词典，用于表达单词与向量之间的关系。3.如权利要求1所述的基于模型融合的情感倾向分析方法，其特征在于：步骤2具体为：步骤2-1构建回归模型；步骤2-2构建多二分类模型；步骤2-3构建自编码模型。4.如权利要求3所述的基于模型融合的情感倾向分析方法，其特征在于：步骤2-1具体为：步骤2-1-1）建立三层长短期记忆神经网络提取文本特征，接着通...

【专利技术属性】
技术研发人员：陈晨，吴家皋，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人