当前位置: 首页 > 专利查询>福州大学专利>正文

基于多任务联合学习的文本情绪原因识别系统技术方案

技术编号:26971308 阅读:29 留言:0更新日期:2021-01-06 00:02
本发明专利技术涉及一种基于多任务联合学习的文本情绪原因识别系统。包括:数据预处理模块,用于对数据进行预处理;文本编码模块,提取文本内容上下文依赖关系,获取其隐层向量表示,作为文本子句信息的整体表示;相对位置信息嵌入模块,从相对位置表示中学习出相对位置信息,并将其嵌入到文本子句向量中。情绪分类子任务模块,通过引入情绪分类子任务,使模型学习到的相对位置信息表示能帮助情绪识别任务精准的定位目标子句的位置;情绪原因识别标签输出模块,用于分析文本子句之间的上下文关系,完成情绪原因识别的标签预测工作。本发明专利技术能够从文本数据中学习高质量的文本向量特点,最终标注出关键情绪词的原因。

【技术实现步骤摘要】
基于多任务联合学习的文本情绪原因识别系统
本专利技术涉及情感分析和情绪挖掘领域,更具体地,涉及一种基于多任务联合学习的文本情绪原因识别系统,,能够较好地提取文本的语音信息,能有效利用文本子句的相对位置信息,能够精确的识别标注出文本中的情绪原因。
技术介绍
个体情绪原因分析是自然语言处理领域非常重要的研究方向之一,它主要研究个体文本数据所蕴含的情绪及与情绪相关的深层信息,近年来由于其广泛的应用潜力而受到关注,研究者们主要利用自然语言处理技术对个体文本数据进行分析,挖掘其中所包含的情绪的过程,是舆情分析监控及商品质量反馈等应用的核心部分。然而,仅对个体情绪进行分析是不够充分的,知其然也需要知其所以然,产生情绪及情绪发生变化的原因比情绪本身有时候更值得引起我们重视。比如,决策者可能更关心反对者反对的原因,而不仅仅是反对者的数量。Chen和Lee等人首次提出个体情绪原因提取任务,他们从中科院研究所中平衡语料库中手动构建了一个关于个体情绪原因提取的小型语料库,并且基于该语料库开发了一种基于规则的方法来检测情绪原因。Gao等人提出一种基于规则的情绪原因识别模型,然后对相应的微博数据进行情绪原因的抽取,然而,制定的规则并不能完全覆盖所有的语言现象,而且同一个子句可能同时匹配多个规则,很容易造成规则冲突。再者不同领域语料的语言结构有一定的区别,针对特定领域的文本制定的规则并不能很好地适用于其他领域的文本,需要耗费巨大的人力物力重新分析语言结构来添加新的规则。AlenaNeviarouskaya通过句法、语法和规则相结合的方法,分析情绪原因的语言现象,以此来推测一段文本的情绪类别和情绪原因。WeiyuanLi等人通过抽取情绪原因特征进行情绪分类,其特征抽取仍采用基于规则的方法。在基于统计方法的情绪原因识别方面,袁丽提取语言学线索词的特征、句子距离特征、候选词词法特征等信息,然后得到特征向量空间,最后应用SVM分类器和条件随机场对个体情绪归因进行了判别。LinGui等人不仅通过建立25条规则来进行个体情绪原因的预测,还运用分类方法来预测个体情绪原因。李逸薇等将个体情绪归因识别任务看成序列标注,并建立了相应的模型,将所有候选原因子句当成一个序列,从而标记出哪些属于原因子句,她特别指出在利用序列标注模型进行情绪原因识别的过程中,上下文特征尤为重要。GhaziD等人利用FrameNet建立了情绪和情绪原因相关联的数据集,然后利用CRF来预测文本句子级别的情绪。GaoyanOu等人建立文本公众情绪和情绪事件之间关系,利用文本情绪对文本中事件进行预测。LinGui等人首先构建了一个情绪归因语料库,标注了表达情绪的核心子句,在核心句的前后子句中标注情绪原因子句,然后从核心句的前后每个子句中抽取候选原因事件,通过训练分类器,最后判定抽取的候选原因事件是否是情绪核心子句的原因事件。深度学习技术也已应用于情绪原因识别。Cheng等使用长短期记忆网络来进行情绪原因检测,提出了一种新的记忆网络架构来对每个词的上下文进行建模。但是在之前的研究中,大都数都仅仅只是使用了个体情绪的文本内容信息。
技术实现思路
本专利技术的目的在于提供一种基于多任务联合学习的文本情绪原因识别系统,能够抽取出有效特征,并对特征进行抽象和组合,最终识别出引起情绪变化的文本子句。为实现上述目的,本专利技术的技术方案是:一种基于多任务联合学习的文本情绪原因识别系统,包括:数据预处理模块,用于对文本数据进行预处理;文本编码模块,提取文本内容上下文依赖关系,获取其隐层向量表示,作为文本子句信息的整体表示;相对位置信息嵌入模块,从相对位置表示中学习出相对位置信息,并将其嵌入到文本子句向量中;情绪分类子任务模块,通过引入情绪分类子任务,使得相对位置信息表示能帮助情绪识别任务精准的定位目标子句的位置;情绪原因识别标签输出模块,用于分析文本子句之间的上下文关系,完成情绪原因识别的标签预测工作。在本专利技术一实施例中,所述数据预处理模块,对文本数据进行预处理的具体方式为:对文本数据进行分词、文本内容表示、生成相对位置表示向量、基于情绪词标注出文本中每个子句的相对位置,将文本中每个子句依据其情绪关键词的位置标注出相应文本子句在文本中相对位置。在本专利技术一实施例中,所述数据预处理模块中文本内容表示使用的是发表在NLPCC2017年上通过word2vec方法训练110万中文微博语料库得到的词向量模型,在文本分词后的内容映射到低维的语义空间中获取词向量表示。在本专利技术一实施例中,所述数据预处理模块中生成相对位置表示向量采用随机生成正太分布的50维向量表示其相对位置。在本专利技术一实施例中,所述文本编码模块,使用双向长短时记忆神经网络学习文本中各个子句中词语的上下文关系的文本表示,利用注意力网络得到文本中每个词的注意力分布,并进行加权求和得到文本子句的句子级向量表示。在本专利技术一实施例中,所述相对位置信息嵌入模块,将相对位置表示向量输入残差网络学习新的相对位置信息,嵌入文本子句向量的方式为串联。在本专利技术一实施例中,所述情绪分类子任务模块,将包含相对位置信息的文本子句向量输入长短时记忆神经网络学习出每个子句的上下文关系的文本表示,采用softmax函数对所得到的文本向量处理,预测文本的情绪类别。在本专利技术一实施例中,所述情绪原因识别标签输出模块,先采用transform网络对输入的包含相对位置信息的文本子句向量进行编码,在对得到的文本子句上下文表示进行预测和标签遮掩得到全局标签,串联到文本子句上下文表示后,在输入到下一层transform网络中,对特征进一步编码得到最终的文本向量,预测文本中各个子句的情感原因标签;所述全局标签为将得到的文本子句上下文表示输入到softmax层,得到基于当前文本上下文表示向量的预测结果,并得到所有子句预测结果的全局标签向量,每个子句将全局标签上该子句的预测结果遮掩掉,即置为0,并将其串联在文本上下文表示后面。在本专利技术一实施例中,所述系统模型的目标函数为情绪分类子任务和情绪原因识别主任务以及参数的L2范数的加权和。在本专利技术一实施例中,在系统模型的训练阶段,权重矩阵都是参数,根据信息的前向传播和误差的后向传播将不断地对他们进行调整,逐步优化目标函数。相较于现有技术,本专利技术具有以下有益效果:本专利技术能够抽取出有效特征,并对特征进行抽象和组合,最终识别出引起情绪变化的文本子句。附图说明图1为本专利技术一种基于多任务联合学习的文本情绪原因识别系统示意图。具体实施方式下面结合附图,对本专利技术的技术方案进行具体说明。如图1所示,本专利技术提供了一种基于多任务联合学习的文本情绪原因识别系统,包括::数据预处理模块,用于对数据进行预处理;文本编码模块,提取文本内容上下文依赖关系,获取其隐层向量表示,作为文本子句信息的整体表示;相对位置信息嵌入模块,从相对位置表示中学习出相对位置信息,并将其嵌入到文本子句向量中。情绪分类子任务模块,通过引入情绪分类子任务,使本文档来自技高网
...

【技术保护点】
1.一种基于多任务联合学习的文本情绪原因识别系统,其特征在于,包括:/n数据预处理模块,用于对文本数据进行预处理;/n文本编码模块,提取文本内容上下文依赖关系,获取其隐层向量表示,作为文本子句信息的整体表示;/n相对位置信息嵌入模块,从相对位置表示中学习出相对位置信息,并将其嵌入到文本子句向量中;/n情绪分类子任务模块,通过引入情绪分类子任务,使得相对位置信息表示能帮助情绪识别任务精准的定位目标子句的位置;/n情绪原因识别标签输出模块,用于分析文本子句之间的上下文关系,完成情绪原因识别的标签预测工作。/n

【技术特征摘要】
1.一种基于多任务联合学习的文本情绪原因识别系统,其特征在于,包括:
数据预处理模块,用于对文本数据进行预处理;
文本编码模块,提取文本内容上下文依赖关系,获取其隐层向量表示,作为文本子句信息的整体表示;
相对位置信息嵌入模块,从相对位置表示中学习出相对位置信息,并将其嵌入到文本子句向量中;
情绪分类子任务模块,通过引入情绪分类子任务,使得相对位置信息表示能帮助情绪识别任务精准的定位目标子句的位置;
情绪原因识别标签输出模块,用于分析文本子句之间的上下文关系,完成情绪原因识别的标签预测工作。


2.根据权利要求1所述的基于多任务联合学习的文本情绪原因识别系统,其特征在于,所述数据预处理模块,对文本数据进行预处理的具体方式为:对文本数据进行分词、文本内容表示、生成相对位置表示向量、基于情绪词标注出文本中每个子句的相对位置,将文本中每个子句依据其情绪关键词的位置标注出相应文本子句在文本中相对位置。


3.根据权利要求2所述的基于多任务联合学习的文本情绪原因识别系统,其特征在于,所述数据预处理模块中文本内容表示使用的是发表在NLPCC2017年上通过word2vec方法训练110万中文微博语料库得到的词向量模型,在文本分词后的内容映射到低维的语义空间中获取词向量表示。


4.根据权利要求2所述的基于多任务联合学习的文本情绪原因识别系统,其特征在于,所述数据预处理模块中生成相对位置表示向量采用随机生成正太分布的50维向量表示其相对位置。


5.根据权利要求1所述的基于多任务联合学习的文本情绪原因识别系统,其特征在于,所述文本编码模块,使用双向长短时记忆神经网络学习文本中各个子句中词语的上下文关系的文本表示,利用注意力网络得到文本中每个词的注意力分布,并...

【专利技术属性】
技术研发人员:廖祥文李泽南陈志豪张艳茹叶锴
申请(专利权)人:福州大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1