基于多任务联合学习的文本情绪原因识别系统技术方案

技术编号：26971308 阅读：29 留言：0更新日期：2021-01-06 00:02

本发明专利技术涉及一种基于多任务联合学习的文本情绪原因识别系统。包括：数据预处理模块，用于对数据进行预处理；文本编码模块，提取文本内容上下文依赖关系，获取其隐层向量表示，作为文本子句信息的整体表示；相对位置信息嵌入模块，从相对位置表示中学习出相对位置信息，并将其嵌入到文本子句向量中。情绪分类子任务模块，通过引入情绪分类子任务，使模型学习到的相对位置信息表示能帮助情绪识别任务精准的定位目标子句的位置；情绪原因识别标签输出模块，用于分析文本子句之间的上下文关系，完成情绪原因识别的标签预测工作。本发明专利技术能够从文本数据中学习高质量的文本向量特点，最终标注出关键情绪词的原因。

全部详细技术资料下载

【技术实现步骤摘要】
基于多任务联合学习的文本情绪原因识别系统
本专利技术涉及情感分析和情绪挖掘领域，更具体地，涉及一种基于多任务联合学习的文本情绪原因识别系统，，能够较好地提取文本的语音信息，能有效利用文本子句的相对位置信息，能够精确的识别标注出文本中的情绪原因。
技术介绍
个体情绪原因分析是自然语言处理领域非常重要的研究方向之一，它主要研究个体文本数据所蕴含的情绪及与情绪相关的深层信息，近年来由于其广泛的应用潜力而受到关注，研究者们主要利用自然语言处理技术对个体文本数据进行分析，挖掘其中所包含的情绪的过程，是舆情分析监控及商品质量反馈等应用的核心部分。然而，仅对个体情绪进行分析是不够充分的，知其然也需要知其所以然，产生情绪及情绪发生变化的原因比情绪本身有时候更值得引起我们重视。比如，决策者可能更关心反对者反对的原因，而不仅仅是反对者的数量。Chen和Lee等人首次提出个体情绪原因提取任务，他们从中科院研究所中平衡语料库中手动构建了一个关于个体情绪原因提取的小型语料库，并且基于该语料库开发了一种基于规则的方法来检测情绪原因。Gao等人提出一种基于规则的情绪原因识别模型，然后对相应的微博数据进行情绪原因的抽取，然而，制定的规则并不能完全覆盖所有的语言现象，而且同一个子句可能同时匹配多个规则，很容易造成规则冲突。再者不同领域语料的语言结构有一定的区别，针对特定领域的文本制定的规则并不能很好地适用于其他领域的文本，需要耗费巨大的人力物力重新分析语言结构来添加新的规则。AlenaNeviarouskaya通过句法、语法和规则相结合的方法...

【技术保护点】
1.一种基于多任务联合学习的文本情绪原因识别系统，其特征在于，包括：/n数据预处理模块，用于对文本数据进行预处理；/n文本编码模块，提取文本内容上下文依赖关系，获取其隐层向量表示，作为文本子句信息的整体表示；/n相对位置信息嵌入模块，从相对位置表示中学习出相对位置信息，并将其嵌入到文本子句向量中；/n情绪分类子任务模块，通过引入情绪分类子任务，使得相对位置信息表示能帮助情绪识别任务精准的定位目标子句的位置；/n情绪原因识别标签输出模块，用于分析文本子句之间的上下文关系，完成情绪原因识别的标签预测工作。/n

【技术特征摘要】
1.一种基于多任务联合学习的文本情绪原因识别系统，其特征在于，包括：
数据预处理模块，用于对文本数据进行预处理；
文本编码模块，提取文本内容上下文依赖关系，获取其隐层向量表示，作为文本子句信息的整体表示；
相对位置信息嵌入模块，从相对位置表示中学习出相对位置信息，并将其嵌入到文本子句向量中；
情绪分类子任务模块，通过引入情绪分类子任务，使得相对位置信息表示能帮助情绪识别任务精准的定位目标子句的位置；
情绪原因识别标签输出模块，用于分析文本子句之间的上下文关系，完成情绪原因识别的标签预测工作。

2.根据权利要求1所述的基于多任务联合学习的文本情绪原因识别系统，其特征在于，所述数据预处理模块，对文本数据进行预处理的具体方式为：对文本数据进行分词、文本内容表示、生成相对位置表示向量、基于情绪词标注出文本中每个子句的相对位置，将文本中每个子句依据其情绪关键词的位置标注出相应文本子句在文本中相对位置。

3.根据权利要求2所述的基于多任务联合学习的文本情绪原因识别系统，其特征在于，所述数据预处理模块中文本内容表示使用的是发表在NLPCC2017年上通过word2vec方法训练110万中文微博语料库得到的词向量模型，在文本分词后的内容映射到低维的语义空间中获取词向量表示。

4.根据权利要求2所述的基于多任务联合学习的文本情绪原因识别系统，其特征在于，所述数据预处理模块中生成相对位置表示向量采用随机生成正太分布的50维向量表示其相对位置。

5.根据权利要求1所述的基于多任务联合学习的文本情绪原因识别系统，其特征在于，所述文本编码模块，使用双向长短时记忆神经网络学习文本中各个子句中词语的上下文关系的文本表示，利用注意力网络得到文本中每个词的注意力分布，并...

【专利技术属性】
技术研发人员：廖祥文，李泽南，陈志豪，张艳茹，叶锴，
申请(专利权)人：福州大学，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人