一种基于教学机制的情感分析方法技术

技术编号：29676153 阅读：14 留言：0更新日期：2021-08-13 21:58

本发明专利技术涉及一种基于教学机制的情感分析方法，属于计算机自然语言处理技术领域。本方法提出了一种基于类别标签的分层教学网络，由教师网络和学生网络组成。教师网络以类别标签为输入，提取所要预测的类别高度相关的信息，学生网络从教师网络中学习类别标签的特性，并依此建立“软标签”以期复现真实类别标签的能力，提取与教师网络相似的与类别高度相关的信息，这些信息被用于做文本分类。通过构建两个不同的学生网络来建模“软标签”，即用户偏好学生网络和产品印象学生网络，并根据两个学生网络的不同特点设计了两个不同的教师网络，可以在低复杂度下取得良好的表现。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于教学机制的情感分析方法
本专利技术涉及一种基于教学机制的情感分析方法，属于计算机自然语言处理(NLP)

技术介绍
情感分析旨在理解自然文本中所包含的情感，是人们的观点、情绪、评估对诸如产品、服务、组织等实体的态度，是计算机自然语言处理领域中的一项关键任务，在数据挖掘、Web挖掘、文本挖掘和信息检索方面有广泛的研究。大多数研究者将情感分析视为一个分类任务，即，将文本对应的情感极性视为类别，并使用文本特征训练一个分类器将文本进行分类。目前，基于神经网络的情感分析方法由于其高效性，成为当前的主流方法。此类方法大多是将单词嵌入到低维向量中，再将这些向量用作神经网络的初始输入。随后，使用精心设计的网络对文本进行编码，以获得文本特征向量。该向量进一步用于分析文本中包含的信息，进而预测其所属的类别。近年来，越来越多的研究者致力于设计更高效的神经网络模型。然而，大多数现有的方法忽略了类别标签，尽管它与要预测的文本类别具有最高的相关性。这些方法大多将类别标签仅仅作为目标来计算损失，没有开发标签信息其他方面的能力，从而导致标签信息对其他层(如注意力层)的影响很小甚至可以忽略不计，进而导致重要信息定位有误。重要信息定位有误，最常见的是注意力机制在处理文本的过程中会选择性地挑选相对重要的信息，例如，挑选一个句子中重要的词汇，舍弃句子中相对不重要的词汇。这样的挑选机制固然可以让模型抓住文本中的重要信息，但同时也会导致以下问题：(1)有效信息被忽视现有方法大多使用上下文、用户、产品信息等...

【技术保护点】
1.一种基于教学机制的情感分析方法，其特征在于，包括以下步骤：/n步骤1：进行用户偏好学生网络“软标签”建模，包括以下步骤：/n步骤1.1：提取用户之前购买的产品序列和相应的评分序列，并将用户和产品序列分别嵌入到低维向量空间中；/n步骤1.2：将每个历史产品嵌入和相应的独热评分嵌入拼接起来，获取新的序列，将其进一步用作LSTM的输入，以获得隐藏状态；其中，将用户的向量表征作为LSTM层的初始状态；独热评分是指文档的one-hot标签；/n步骤1.3：挑选当前产品最相关的隐藏状态生成“软标签”；/n步骤2：进行产品印象学生网络“软标签”建模，包括以下步骤：/n步骤2.1：提取用户之前购买过产品的用户序列和相应的评分序列，并将产品和用户序列分别嵌入到低维向量空间中；/n步骤2.2：将每个历史用户嵌入和相应的独热评分嵌入拼接起来，获取新的序列，并将其用作LSTM的输入，以获得隐藏状态，其中，将产品的向量表征作为LSTM层的初始状态；/n步骤2.3：挑选当前用户最相关的隐藏状态生成“软标签”；/n步骤3：构建教师网络，包括以下步骤：/n步骤3.1：用户偏好学生网络通过拼接每个历史产品嵌入和相应...

【技术特征摘要】
1.一种基于教学机制的情感分析方法，其特征在于，包括以下步骤：
步骤1：进行用户偏好学生网络“软标签”建模，包括以下步骤：
步骤1.1：提取用户之前购买的产品序列和相应的评分序列，并将用户和产品序列分别嵌入到低维向量空间中；
步骤1.2：将每个历史产品嵌入和相应的独热评分嵌入拼接起来，获取新的序列，将其进一步用作LSTM的输入，以获得隐藏状态；其中，将用户的向量表征作为LSTM层的初始状态；独热评分是指文档的one-hot标签；
步骤1.3：挑选当前产品最相关的隐藏状态生成“软标签”；
步骤2：进行产品印象学生网络“软标签”建模，包括以下步骤：
步骤2.1：提取用户之前购买过产品的用户序列和相应的评分序列，并将产品和用户序列分别嵌入到低维向量空间中；
步骤2.2：将每个历史用户嵌入和相应的独热评分嵌入拼接起来，获取新的序列，并将其用作LSTM的输入，以获得隐藏状态，其中，将产品的向量表征作为LSTM层的初始状态；
步骤2.3：挑选当前用户最相关的隐藏状态生成“软标签”；
步骤3：构建教师网络，包括以下步骤：
步骤3.1：用户偏好学生网络通过拼接每个历史产品嵌入和相应的独热评分嵌入以获得一个新的序列，并将其用作LSTM的输入，以获得隐藏状态；
教师网络将当前的产品嵌入和相应的独热评分进行拼接，将结果作为LSTM的输入，同时，教师网络的LSTM层与学生网络共享参数，获得的隐藏状态与情感标签密切相关，被视为用户的真实偏好；
步骤3.2：根据以上对产品印象学生网络的描述，设计一个教师网络来匹配学生网络；学生网络拼接每个历史用户嵌入和相应的独热评分嵌入以获得一个新的序列，并将其用作LSTM的输入，以获得隐藏状态；
教师网络将当前的用户嵌入和相应的独热评分进行拼接，同样将结果作为LSTM的输入，同时，教师网络的LSTM层与学生网络共享参数，获得的隐藏状态与情感标签密切相关，被视为产品的真实公众印象；
步骤4：进行注意力教学，包括以下步骤：
步骤4.1：将文档中每个单词嵌入到低维向量中，使用LSTM层对句子进行编码，并获取隐藏状态；
步骤4.2：使用学生网络中的“软标签”与教师网络中的真实情感标签，分别提取文档中的情感相关信息；
步骤4.3：最小化学生网络与教师网络所提取的信息之间的差异；
步骤5：进行情感预测教学；
步骤5.1：使用提取的情感相关信息为文档中的每个句子生成句子表示和“教师”句子表示；
使用LSTM层为每个句子获取隐藏状态和“教师”隐藏状态；
步骤5.2：使用用户表征进一步提取对预测情感有帮助的信息，使用产品表征进一步提取对预测情感有帮助的信息；
步骤5.3：教师网络使用生成的文档表示来获得情感标签的概率分布，并教导学生网络推断类似的概率分布；
步骤6：进行情感分类，包括以下步骤：
步骤6.1：在训练阶段，针对教师网络，最小化教师网络输出...

【专利技术属性】
技术研发人员：施重阳，姜欣雨，冯超群，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人