当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于张量融合方式的情感分类的方法技术

技术编号:20842270 阅读:19 留言:0更新日期:2019-04-13 08:42
本发明专利技术涉及一种基于张量融合方式的情感分类的方法,包括:(1)数据预处理;(2)训练词向量;(3)针对具体任务建模;利用双向LSTM编码每一句话的上下文信息和语义信息,经过每一层网络的作用,得到每一句话的特征向量表示;(4)张量融合:采用张量融合的方式将模型输出的三个特征向量进行融合,通过信息之间的融合,得到最佳全面的特征表示,然后将融合之后形成的特征向量送往分类器进行情感分类。(5)训练模型。本发明专利技术不需要人工抽取任何特征,模型也不需要借助另外的自然语言处理工具对数据做预处理,同时不需要提前识别目前词进行情感分类,算法简单明了,效果明显。

【技术实现步骤摘要】
一种基于张量融合方式的情感分类的方法
本专利技术涉及一种基于张量融合方式的情感分类的方法,属于自然语言处理

技术介绍
随着当前时代的发展,网络信息化的时代以一种前所未有的速度迅速影响着人们的生活。与此同时,社会媒体也呈现出多样化的形态,论坛、博客以及微博等网络媒介发展迅速,网络用户的参与性不断提高,对于网络的使用方式也产生了巨大的变化。用户不再只是被动的获取网络知识,而是更加积极的成为网络信息的制造者,这样的改变使得网络媒介中呈现出大量的用来表用户情感、情绪和观点的各类形式的主观性信息,而文本则是其中最为重要的一种表现形式。针对这些主观性信息,如何更加有效的利用这些海量的数据,提取出人们感兴趣的、携带观点的文本,并且对其作出准确的分析是迄今为止自然语言处理领域中的非常重要的研究课题之一。文本情感分析,是自然语言处理研究领域中的一个非常重要的课题,亦可称作意见挖掘,这是对人们的观点,情绪评论,态度以及针对诸如产品、服务、组织、个体、事件、主题等实体的情感倾向作出有效的挖掘和分析,然后进一步对挖掘出来的信息归纳和推理的一类技术。文本情感分析自2002年由BoPang提出之后,获得了很大程度的关注,特别是在产品评论等的情感分析上获得了很大程度的关注。早期情感分析研究的方法主要是基于规则的方法和基于统计的方法。主要通过学习目标样本的特征,根据特征的分布对文本作出类别的判断。还有一些我们熟悉的机器学习方法,比如支持向量机,最大熵以及朴素贝叶斯等方法。这些方法建模和计算相对比较简单,但是对于一些复杂的分类问题,这些方法的泛化能力却受到很大的制约。随着深度学习的发展,以卷积神经网络和循环神经网络为代表的深度神经网络模型在图像处理、计算机视觉和语音识别领域取得了巨大的成功,在自然语言处理领域也取得了很大进展,尤其在文本情感分析方面吸引了广大研究者的兴趣。传统的浅层学习中样本特征的表示采用的是数数的形式,这些深度学习模型则是通过将底层特征进行组合,形成更加抽象的较高层的表示形式,在此基础上获得样本数据的分布式表示。一些研究者采用卷积神经网络模型来做文本情感分析,但是这种方法只能捕捉到局部上下文信息,存在信息丢失的问题。为了弥补这个问题,一些研究者采用长短时记忆神经网络来做文本情感分析,有效利用了文本的上下文信息和长时间的前后时序信息。但是有些复杂的文本中可能会存在多种情感倾向,如何得到一个正确的情感分类结果便成为了文本情感分类的难点。因此,如何利用深度学习模型获取一段文本的最有效、最综合、最全面的分布式表示,是影响文本情感分析效果的一个重要因素。
技术实现思路
针对现有技术的不足,本专利技术提供了一种基于张量融合方式的情感分类的方法;本专利技术主要是针对存在多情感倾向问题的情感分类,由于数据集中每一段文本都包含有三句话,利用双向LSTM对每一句话提取特征,获取每一句的情感特征向量,采用张量融合的方式,将每一个特征向量进行有效的融合,形成一个总的联合特征表示送往分类器进行分类。该模型完全适用于存在多情感倾向的情感分类问题,克服了传统做法中需要提前识别目标词的缺点,也不需要借助其他的自然语言处理工具,算法简单,效果显著。同时,该模型采用了张量融合的方式,充分利用了数据本身的信息,利用模型去除冗余信息,保留并利用有用信息,做到了信息利用率的最大化。术语解释:1、Word2vec,是为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。2、skip-gram模型,输入向量x代表某个单词的one-hot编码,对应的输出向量{y1,…,yC}。输入层与隐藏层之间的权重矩阵W的第i行代表词汇表中第i个单词的权重。权重矩阵W是需要学习的目标(同W′),因为这个权重矩阵包含了词汇表中所有单词的权重信息。上述模型中,每个输出单词向量也有个N×V维的输出向量W′。模型还有N个结点的隐藏层,隐藏层节点hi的输入就是输入层输入的加权求和,如图3所示。3、张量融合,是指经过LSTM编码得到的每句话的语义特征做外积得到的多维结果。4、语义特征,是指输入的句子经过LSTM编码后得到的特征向量。5、时序特征,是指将词语按照一定顺序组成的,在对句子建模时需要考虑词的顺序特征,这种特征就是时序特征。本专利技术的技术方案为:一种基于张量融合方式的情感分类的方法,包括:(1)数据预处理:本专利技术采用公开的数据集进行结果评测,而公开的数据集是原始数据,不符合模型的输入要求,需要进行预处理。由于我们模型结构采用了三输入一输出架构,将原始数据处理成三句话格式,得到文本数据;具体处理方法是:将一段长文本按照句号“。”分隔开,每当遇到句号时那句号前面的文字就是一个子句,由于原始数据量太大,对于用句号换划分子句后不是三个子句的文本舍去,只留下有三个子句的数据,得到需要的样本;不符合要求的直接过滤掉;由于任务是二分类任务,即积极情感和消极情感。将原始标签转换成数字化表示,积极情感用1表示,消极情感用0表示;(2)训练词向量:将文本数据转换成数学数据,即获取训练集中的每一个词相应的词向量,训练集即步骤(1)获取的文本数据;(3)针对具体任务建模:利用双向LSTM编码由步骤(1)得到的文本数据,单向LSTM可以按照人类的阅读顺序从一句话的第一个字记忆到最后一个字,这种LSTM结构只能捕捉到上文信息,无法捕捉到下文信息,双向LSTM包括两个方向不同的LSTM,一个LSTM按照句子中词的顺序从前往后读取数据,获得上文信息;另一个LSTM从后往前按照句子词序的反方向读取数据,获得下文信息;两个LSTM的联合说出就是整个句子的上下文信息,而上下文信息是由整个句子提供的,自然包含比较抽象的语义信息,这种方法的优点是充分利用了LSTM对具有时序特点的序列数据的处理优势,针对文本数据中的每一个样本,处理成三句话格式后包含三个子句,每个子句都由LSTM编码得到对应的特征向量,三个子句对应得到三个特征向量;(4)张量融合:采用张量融合的方式将步骤(3)输出的三个特征向量进行融合,具体融合方法是将三个特征向量利用外积的方式相乘,设定zl,zv,za,分别表示三个子句经Bi-LSTM编码后的输出的三个特征向量,先将zl,zv,za这三个特征向量两两之间互相做外积,得到三个二维矩阵,对应三个平面,再将这三个平面中的每个点对应相乘得到三维张量,融合完成;通过信息之间的融合,可以有效利用到特征之间的相互利用关系,做到信息利用率的最大化。并将融合之后形成的特征向量送往分类器进行情感分类;(5)训练模型;将步骤(1)得到的文本数据打乱后分成若干份,设定为N份,每次取N-1份做训练,1份做验证,做N次交叉验证,得到最终实验结果。根据本专利技术优选的,所述步骤(2),训练词向量,包括:A、下载维基百科2011年11月6日全天的英文数据作为初始训练数据,并对初始训练数据进行清洗,去掉没有意义的特殊字符和格式,将HTML格式的数据处理成TXT格式的数据;B、将步骤A处本文档来自技高网
...

【技术保护点】
1.一种基于张量融合方式的情感分类的方法,其特征在于,包括:(1)数据预处理:将原始数据处理成三句话格式,得到文本数据;将原始标签转换成数字化表示,积极情感用1表示,消极情感用0表示;(2)训练词向量:将文本数据转换成数学数据,即获取训练集中的每一个词相应的词向量,训练集即步骤(1)获取的文本数据;(3)针对具体任务建模:利用双向LSTM编码由步骤(1)得到的文本数据,双向LSTM包括两个方向不同的LSTM,一个LSTM按照句子中词的顺序从前往后读取数据,获得上文信息;另一个LSTM从后往前按照句子词序的反方向读取数据,获得下文信息;针对文本数据中的每一个样本,处理成三句话格式后包含三个子句,每个子句都由LSTM编码得到对应的特征向量,三个子句对应得到三个特征向量;(4)张量融合:采用张量融合的方式将步骤(3)输出的三个特征向量进行融合,具体融合方法是将三个特征向量利用外积的方式相乘,设定zl,zv,za,分别表示三个子句经Bi‑LSTM编码后的输出的三个特征向量,先将zl,zv,za这三个特征向量两两之间互相做外积,得到三个二维矩阵,对应三个平面,再将这三个平面中的每个点对应相乘得到三维张量,融合完成;并将融合之后形成的特征向量送往分类器进行情感分类;(5)训练模型;将步骤(1)得到的文本数据打乱后分成若干份,设定为N份,每次取N‑1份做训练,1份做验证,做N次交叉验证,得到最终实验结果。...

【技术特征摘要】
2018.10.29 CN 20181126845031.一种基于张量融合方式的情感分类的方法,其特征在于,包括:(1)数据预处理:将原始数据处理成三句话格式,得到文本数据;将原始标签转换成数字化表示,积极情感用1表示,消极情感用0表示;(2)训练词向量:将文本数据转换成数学数据,即获取训练集中的每一个词相应的词向量,训练集即步骤(1)获取的文本数据;(3)针对具体任务建模:利用双向LSTM编码由步骤(1)得到的文本数据,双向LSTM包括两个方向不同的LSTM,一个LSTM按照句子中词的顺序从前往后读取数据,获得上文信息;另一个LSTM从后往前按照句子词序的反方向读取数据,获得下文信息;针对文本数据中的每一个样本,处理成三句话格式后包含三个子句,每个子句都由LSTM编码得到对应的特征向量,三个子句对应得到三个特征向量;(4)张量融合:采用张量融合的方式将步骤(3)输出的三个特征向量进行融合,具体融合方法是将三个特征向量利用外积的方式相乘,设定zl,zv,za,分别表示三个子句经Bi-LSTM编码后的输出的三个特征向量,先将zl,zv,za这三个特征向量两两之间互相做外积,得到三个二维矩阵,对应三个平面,再将这三个平面中的每个点对应相乘得到三维张量,融合完成;并将融合之后形成的特征向量送往分类器进行情感分类;(5)训练模型;将步骤(1)得到的文本数据打乱后分成若干份,设定为N份,每次取N-1份做训练,1份做验证,做N次交叉验证,得到最终实验结果。2.根据权利要求1所述的一种基于张量融合方式的情感分类的方法,其特征在于,所述步骤(2),训练词向量,包括:A、下载维基百科2011年11月6日全天的英文数据作为初始训练数据,并对初始训练数据进行清洗,去掉没有意义的特殊字符和格式,将HTML格式的数据处理成TXT格式的数据;B、将步骤A处理后的数据喂入Word2vec进行训练,训练时,采用skip-gram模型,窗口大小设为3-8,迭代周期设为2-15,设定词向量的维度是200-400维,训练结束后,得到一个词向量映射表;C、根据步骤B得到的词向量映射表,获取训练集的每一个词对应的词向...

【专利技术属性】
技术研发人员:李玉军王玥冀先朋
申请(专利权)人:山东大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1