一种基于模型融合的情感倾向分析方法技术

技术编号:22166923 阅读:21 留言:0更新日期:2019-09-21 10:35
本发明专利技术公开了一种基于深度学习和多模型融合的分类方法以解决多标签的情感倾向分析问题。首先利用Word2vec训练文本语言模型,提取词向量,再由长短期记忆网络(Long Short Term Memory,LSTM)分别构建三个子模型:回归模型、多二分类模型、自编码模型,训练提取文本的基本特征,并通过全连接层输出分类向量,最后通过投票方式模型融合实现多标签情感倾向分析。本发明专利技术利用神经网络提取特征,避免了人工提取特征的各种缺点,提高了分类精度;多模型融合既保证了单二分类模型的有效性也考虑到了标签之间的关系。本发明专利技术从一定程度上解决了多标签文本分类模型忽视标签相关性的问题,提升了传统基于二分类多标签分类模型的精度。

An Emotional Tendency Analysis Method Based on Model Fusion

【技术实现步骤摘要】
一种基于模型融合的情感倾向分析方法
本专利技术涉及一种机器学习方法,具体来讲是一种基于模型融合的情感倾向分析方法,属于深度学习、机器学习、自然语言处理等交叉技术应用领域。
技术介绍
随着新型社交媒体的发展,文本信息数量激增,自然语言处理技术受到了越来越多的关注。而情感倾向分析可以从文本中挖掘有效情感信息,为舆情监控提供了科学决策的依据。基于词向量的深度学习方法可以自动提取文本特征,相较于传统的机器学习方法和情感词典分析方法,可以更大程度上学习到文本上下文联系,尤其是对长难句具有更加优秀的表现。虽然目前已有多种方法解决多标签的情感倾向分析问题,但是都存在各种缺陷。基于多二分类的模型能够简洁有效地完成任务,但没能提取标签之间的关系,无法充分挖掘信息。而基于回归的模型能够提取标签之间的相关性,但阈值定义尚且没有合理的解释。至于基于编码的模型虽既能够考虑标签之间的相关性,也能将问题转化为传统的多分类方法解决,但针对大数量级标签计算量大,且过拟合现象严重。而通过模型融合,可以充分发挥各模型之间的优势,取长补短,提高模型的鲁棒性,从而弥补上述各种方案的不足。在本专利技术中,以长短期记忆网络(LongShortTermMemory,LSTM)为分类器,分别训练出回归模型,二分类组合模型,自编码模型,继而通过投票方法进行模型融合,实现优势互补,提高文本情感倾向分析的精确度。公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
技术实现思路
本专利技术的目的在于提供一种基于模型融合的情感倾向分析方法,将多个长短期记忆神经网络模型融合用于文本,从而克服上述现有技术中的缺陷。为实现上述目的,本专利技术提供了一种基于模型融合的情感倾向分析方法,按照如下步骤进行:步骤1)词向量训练;步骤2)设目标分类任务有R个类别,分别对回归模型,多二分类模型,自编码模型进行训练;步骤3)采用投票的方式进行模型融合,将三个R维0-1标签向量向量相加,若对应的目标分类票数(即向量和的分量)大于1,则标签置1,否则置0,形成最终标签;步骤4)构造相应的损失函数进行各模型的训练,直到模型收敛;步骤5)利用训练好的模型进行情感倾向分析;本专利技术提出的模型融合的情感倾向分析方法是将多个长短期记忆神经网络模型融合用于文本的方法。主要解决了单一模型用于文本多标签分类效果缺陷的问题。情感倾向分析通常是多标签分类问题,即一个对象对应非定长的多个标签。这里的模型融合的情感倾向分析的方法具体描述如下:文本特征提取、多模型训练、模型融合用于分类。首先,文本利用Word2vec模型进行词向量训练,再输入到基于长短期记忆神经网络的多个模型中进行分类训练,最后通过投票进行模型融合。本专利技术进一步限定的技术方案为:优选地,上述技术方案中,步骤1具体为:采用Word2vec的skip方法训练分布式表示词典,用于表达单词与向量之间的关系。优选地,上述技术方案中,步骤2具体为:步骤2-1构建回归模型;步骤2-2构建多二分类模型;步骤2-3构建自编码模型。优选地,上述技术方案中,步骤2-1具体为:步骤2-1-1)建立三层长短期记忆神经网络提取文本特征,接着通过全连接层以sigmod激活函数输出成R维向量。步骤2-1-2)输出层对R维向量进行阈值过滤,阈值设为0.5,若向量每个分量数值大于0.5则为1,否则为0,形成R维0-1标签向量。优选地,上述技术方案中,步骤2-2具体为:步骤2-2-1对R个分类的每一个类别分别建立二分类模型,建立三层长短期记忆神经网络提取文本特征,通过全连接层以softmax激活函数输出成R个二分类结果;步骤2-2-2输出层进行组合,对R个预设标签位按照二分类输出结果组合成R维向量,二分类结果为1则相应标签位为1,结果为0则标签位为0,得R维0-1标签向量。优选地,上述技术方案中,步骤2-3具体为:步骤2-3-1建立三层长短期记忆神经网络提取文本特征,接着通过全连接层以softmax激活函数输出成2R维向量;步骤2-3-2输出层进行解码,由2R维向量最大值分量位确定十进制类别标签,再将十进制转为R位二进制编码,得R维0-1标签向量。与现有技术相比,本专利技术具有如下有益效果:1)本专利技术提供的分析方法,解决了文本多标签情感分类问题。2)本专利技术提供的分析方法利用Word2vec来训练语言模型,通过长短期记忆神经网络提取了文本的特征表示,和人工提取特征相比,提高了特征提取的精度。3)本专利技术提供的分析方法还利用了模型融合,充分发挥了各个模型的优点,实现了模型间的优势互补。附图说明:图1是模型融合的情感倾向分析方法的结构图。具体实施方式:下面对本专利技术的具体实施方式进行详细描述,但应当理解本专利技术的保护范围并不受具体实施方式的限制。除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。下面对本专利技术附图的某些实施例作更详细的描述:步骤1)词向量训练。步骤1-1)采用Word2vec的skip方法训练分布式表示词典,用于表达单词与向量之间的关系;步骤2)设目标分类任务有R个类别。分别对回归模型,多二分类模型,自编码模型进行训练。步骤2-1)构建回归模型。步骤2-1-1)建立三层长短期记忆神经网络提取文本特征,接着通过全连接层以sigmod激活函数输出成R维向量。步骤2-1-2)输出层对R维向量进行阈值过滤,阈值设为0.5,若向量每个分量数值大于0.5则为1,否则为0,形成R维0-1标签向量。步骤2-2)构建多二分类模型。步骤2-2-1)对R个分类的每一个类别分别建立二分类模型,建立三层长短期记忆神经网络提取文本特征,通过全连接层以softmax激活函数输出成R个二分类结果。步骤2-2-2)输出层进行组合,对R个预设标签位按照二分类输出结果组合成R维向量,二分类结果为1则相应标签位为1,结果为0则标签位为0,得R维0-1标签向量。步骤2-3)构建自编码模型。步骤2-3-1)建立三层长短期记忆神经网络提取文本特征,接着通过全连接层以softmax激活函数输出成2R维向量。步骤2-3-2)输出层进行解码,由2R维向量最大值分量位确定十进制类别标签,再将十进制转为R位二进制编码,得R维0-1标签向量。步骤3)采用投票的方式进行模型融合,将三个R维0-1标签向量向量相加,若对应的目标分类票数(即向量和的分量)大于1,则标签置1,否则置0,形成最终标签。步骤4)构造相应的损失函数进行各模型的训练,直到模型收敛。步骤5)利用训练好的模型进行情感倾向分析。前述对本专利技术的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本专利技术限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本专利技术的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本专利技术的各种不同的示例性实施方案以及各种不同的选择和改变。本专利技术的范围意在由权利要求书及其等同形式所限定。本文档来自技高网...

【技术保护点】
1.一种基于模型融合的情感倾向分析方法,其特征在于:按照如下步骤进行:步骤1)词向量训练;步骤 2)设目标分类任务有R个类别,分别对回归模型,多二分类模型,自编码模型进行训练;步骤3)采用投票的方式进行模型融合,将三个R维0‑1标签向量向量相加,若对应的目标分类票数(即向量和的分量)大于1,则标签置1,否则置0,形成最终标签;步骤4)构造相应的损失函数进行各模型的训练,直到模型收敛;步骤5)利用训练好的模型进行情感倾向分析。

【技术特征摘要】
1.一种基于模型融合的情感倾向分析方法,其特征在于:按照如下步骤进行:步骤1)词向量训练;步骤2)设目标分类任务有R个类别,分别对回归模型,多二分类模型,自编码模型进行训练;步骤3)采用投票的方式进行模型融合,将三个R维0-1标签向量向量相加,若对应的目标分类票数(即向量和的分量)大于1,则标签置1,否则置0,形成最终标签;步骤4)构造相应的损失函数进行各模型的训练,直到模型收敛;步骤5)利用训练好的模型进行情感倾向分析。2.如权利要求1所述的基于模型融合的情感倾向分析方法,其特征在于:步骤1具体为:采用Word2vec的skip方法训练分布式表示词典,用于表达单词与向量之间的关系。3.如权利要求1所述的基于模型融合的情感倾向分析方法,其特征在于:步骤2具体为:步骤2-1构建回归模型;步骤2-2构建多二分类模型;步骤2-3构建自编码模型。4.如权利要求3所述的基于模型融合的情感倾向分析方法,其特征在于:步骤2-1具体为:步骤2-1-1)建立三层长短期记忆神经网络提取文本特征,接着通...

【专利技术属性】
技术研发人员:陈晨吴家皋
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1