基于迁移学习的缅语情感分析方法及装置制造方法及图纸

技术编号:22308285 阅读:27 留言:0更新日期:2019-10-16 08:23
本发明专利技术涉及基于迁移学习的缅语情感分析方法及装置,属于自然语言处理技术领域。本发明专利技术首先对缅语词汇进行跨语言word embeddings表示,实现缅语文本到英语文本语义空间的映射;基于CNN和注意力机制的网络预训练英语情感分类模型;通过共享英语情感分类模型的神经网络层参数来学习跨语言情感特征,并迁移到缅语情感分类模型中来实现缅语情感分类;用有标记的缅语数据进行模型调优,最终实现缅语情感分类。并根据上述步骤功能模块化制成基于迁移学习的缅语情感分析装置,本发明专利技术对缅语句子实现了有效的情感分析,解决了缅语情感标记数据缺乏造成性能不佳的问题。

A method and device of affective analysis in Burmese based on Transfer Learning

【技术实现步骤摘要】
基于迁移学习的缅语情感分析方法及装置
本专利技术涉及基于迁移学习的缅语情感分析方法及装置,属于自然语言处理

技术介绍
利用资源丰富语言来实现低资源语言情感分类是当前自然语言处理的一个研究热点。深度神经网络在英语的情感分类上取得了很好的效果,主要原因是在英语中有大量的情感标注语料库,但对于资源稀缺的缅语,标记数据稀缺,通过对语料的收集、人工标注,仅能得到小规模的缅语标注数据集,训练数据过小,必然会影响缅语情感分类的效果。利用情感标记丰富的英语语料中标记数据辅助识别缅语情感极性,能有效解决资源稀缺的缅语的情感分类问题。
技术实现思路
本专利技术提供了基于迁移学习的缅语情感分析方法及装置,以用于解决缅语情感标记数据稀缺,小规模训练数据,缅语情感分类的效果差等问题,解决依靠标记数据训练的模型效果差的问题。本专利技术的技术方案是:基于迁移学习的缅语情感分析方法,所述基于迁移学习的缅语情感分析方法的具体步骤如下:Step1、首先对缅语词汇进行跨语言wordembeddings表示,实现缅语文本到英语文本语义空间的映射;Step2、基于CNN和注意力机制的网络预训练英语情感分类模型;Step3、通过共享英语情感分类模型的神经网络层参数来学习跨语言情感特征,并迁移到缅语情感分类模型中来实现缅语情感分类;Step4、用有标记的缅语数据进行模型调优,最终实现缅语情感分类。进一步地,所述步骤Step1的具体步骤为:Step1.1、将缅语句子中的词表征为缅语词向量;Step1.2、将缅语词向量映射到英语语义空间中通过最小化双语词典中互译词空间距离的方式,建立缅语到英语的语义空间映射关系;Step1.3、通过迭代算法反复更新词典,得到最优的映射关系。进一步地,所述步骤Step1.1的具体步骤如下:将缅语句子通过的昆明理工大学研发的东南亚小语种语言信息处理平台(222.197.219.24:8099)进行分词处理;将分好的缅语词,通过卷积神经网络和门结构网络对缅语词进行特征抽取,得到更加有效的缅语特征,将抽取的特征输入到LSTM神经网络语言模型中,训练缅语词向量。进一步地,所述步骤Step1.2的具体步骤如下:将英语、缅语两种语言在各自语料中进行训练得到各自的单语词向量;通过最小化双语词典中互译词之间的空间最小距离,学习双语词典中互译词的映射关系,训练得到W空间映射矩阵。进一步地,所述Step2的具体步骤为:Step2.1、通过词向量转换工具word2vec将英语表示为词向量的形式,建立起对应卷积神经网络输入的向量形式,通过卷积神经网络将句子的特征进行抽取得到有效的特征表示;Step2.2、将卷积神经网络抽取的特征,经过maxpooling得到特征中最有价值的部分;Step2.3、卷积过后,使用注意力机制,以获取不同重要的特征信息;Step2.4、将卷积得到的特征g与注意力文本全连接输入到softmax中来预测其标签信息,输出最大概率的情感分类,并保存英语情感分类模型参数。进一步地,所述Step3的具体步骤为:Step3.1、对双语进行向量化表示,通过建立英缅双语词向量映射,得到英缅双语的句子映射,通过这样的映射建立了英缅双语句子之间的关系;Step3.2、使用和英语情感分类模型中卷积操作相同的滤波器参数,通过卷积层对缅语句子抽取特征;Step3.3、将卷积得到的特征与注意力文本全连接输入到softmax中来得到一个缅语句子在该模型下情感分类;Step3.4、使用CrossEntropy作为损失函数,根据误差,反向更新模型的参数。一种基于迁移学习的缅语情感分析装置,包括:缅语预处理模块,用于对缅语句子进行分词处理,并将分词后的缅语词语表征为词向量;双语词向量表征模块,用于对缅语词汇进行跨语言wordembeddings表示,实现缅语文本到英语文本语义空间的映射;英语情感分析模块,用于对英语句子进行情感分类,并保存英语情感分类模型参数;迁移学习模块:用于共享英语情感分析模型的神经网络层参数来学习跨语言情感特征,并迁移到缅语情感分类模型中来实现缅语情感分类:调优模块:用于使用有标记的缅语数据进行调优,最终实现缅语情感分类。本专利技术的有益效果是:本专利技术提出的基于迁移学习的缅语情感分析方法及装置,对缅语句子实现了有效的情感分析,解决了缅语情感标记数据缺乏造成性能不佳的问题。附图说明图1为本专利技术中的具体详细流程框架图;图2为本专利技术基于迁移学习的缅语情感分析装置示意图;图3为本专利技术的流程图。具体实施方式实施例1:基于迁移学习的缅语情感分析方法,图3提供了基于迁移学习的缅语情感分析方法流程图。该方法中包括以下步骤:A步骤:该方法首先对缅语词汇进行跨语言wordembeddings表示,实现缅语文本到英语文本语义空间的映射;B步骤:基于CNN和注意力机制的网络预训练英语情感分类模型;C步骤:通过共享英语情感分析模型的神经网络层参数来学习跨语言情感特征,并迁移到缅语情感分类模型中来实现缅语情感分类:D步骤:用有标记的缅语数据进行模型调优,最终实现缅语情感分类。在A步骤中,将缅语句子中的词转为缅语词向量,利用空间映射的方式,将缅语词向量映射到英语语义空间中,得到英缅双语词向量表征。将缅语词向量和英语词向量通过最小化双语词典中互译词空间距离的方式,建立缅语到英语的语义空间映射关系,通过迭代算法反复更新词典,得到最优的映射关系。在B步骤中,包含以下步骤:B01步骤:通过词向量转换工具word2vec将英语表示为词向量的形式,建立起对应卷积神经网络输入的向量形式,通过卷积神经网络将句子的特征进行抽取得到有效的特征表示;B02步骤:将卷积神经网络抽取的特征,经过maxpooling得到特征中最有价值的部分;B03步骤:卷积过后,使用注意力机制,以获取不同重要程序的特征信息;B04步骤:将卷积得到的特征g与注意力文本全连接输入到softmax中来预测其标签信息,输出最大概率的情感分类,并保存英语情感分类模型参数。在B01步骤中,在英语句子预训练网络中,输入一个英语句子X,将句子X表征为由句子的词向量组成的句子向量矩阵[CW1,CW2,....,CWn],其中矩阵中的每一行表示一个英语词向量CW,n表示句子中词的个数。向量的表示方法可以通过在一个窗口中的组合来获得音节的上下文信息,组合成新的英语句子。卷积操作包括一个滤波器W,滤波器使n个词向量CW产生一个新的特征Z:Z=WjXi其中Xi为第i个输入矩阵也就是第i个实例。Wj为卷积操作的第j个滤波器,是一个线性变换矩阵。在B02步骤中,为了获取特征向量Z中最有用的信息,我们对Z进行max-pooling操作,即:mS=max(ZS),0≤s≤j英语句子特征向量m自动合成线性向量,为了学习更复杂的特征,我们设计了一个非线性层并选择的修正线性函数(rectifiedlinearfunction)ReLU作为激活函数。使用ReLU激活函数可以有效避免权值过大或过小对网络训练的影响。激活函数可以写为:g=max(0,WyT)为线性转换方程,将向量T映射到隐层上,使用ReLU激活函数得到g,这里g表示更高层次的英语特征。在B03步骤中,在经过卷积之后,使用了注意力机制,以获取不同重要程序的特征信息,从而提高分类的准本文档来自技高网...

【技术保护点】
1.基于迁移学习的缅语情感分析方法,其特征在于:所述基于迁移学习的缅语情感分析方法的具体步骤如下:Step1、首先对缅语词汇进行跨语言word embeddings表示,实现缅语文本到英语文本语义空间的映射;Step2、基于CNN和注意力机制的网络预训练英语情感分类模型;Step3、通过共享英语情感分类模型的神经网络层参数来学习跨语言情感特征,并迁移到缅语情感分类模型中来实现缅语情感分类;Step4、用有标记的缅语数据进行模型调优,最终实现缅语情感分类。

【技术特征摘要】
1.基于迁移学习的缅语情感分析方法,其特征在于:所述基于迁移学习的缅语情感分析方法的具体步骤如下:Step1、首先对缅语词汇进行跨语言wordembeddings表示,实现缅语文本到英语文本语义空间的映射;Step2、基于CNN和注意力机制的网络预训练英语情感分类模型;Step3、通过共享英语情感分类模型的神经网络层参数来学习跨语言情感特征,并迁移到缅语情感分类模型中来实现缅语情感分类;Step4、用有标记的缅语数据进行模型调优,最终实现缅语情感分类。2.根据权利要求1所述的基于迁移学习的缅语情感分析方法,其特征在于:所述步骤Step1的具体步骤为:Step1.1、将缅语句子中的词表征为缅语词向量;Step1.2、将缅语词向量映射到英语语义空间中通过最小化双语词典中互译词空间距离的方式,建立缅语到英语的语义空间映射关系;Step1.3、通过迭代算法反复更新词典,得到最优的映射关系。3.根据权利要求1所述的基于迁移学习的缅语情感分析方法,其特征在于:所述步骤Step1.1的具体步骤如下:将缅语句子进行分词处理;将分好的缅语词,通过卷积神经网络和门结构网络对缅语词进行特征抽取,得到更加有效的缅语特征,将抽取的特征输入到LSTM神经网络语言模型中,训练缅语词向量。4.根据权利要求1所述的基于迁移学习的缅语情感分析方法,其特征在于:所述步骤Step1.2的具体步骤如下:将英语、缅语两种语言在各自语料中进行训练得到各自的单语词向量;通过最小化双语词典中互译词之间的空间最小距离,学习双语词典中互译词的映射关系,训练得到W空间映射矩阵。5.根据权利要求1所述的基于迁移学习的缅语情感分析方法,其特征在于:所述Step2的具体步骤为:Step2.1、通过词向量转换工具w...

【专利技术属性】
技术研发人员:毛存礼吴霞余正涛林颂凯高盛祥王振晗
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1