一种基于深度学习的短文本情感要素抽取方法及装置制造方法及图纸

技术编号：14525144 阅读：97 留言：0更新日期：2017-02-02 03:41

本发明专利技术公开了一种基于深度学习的短文本情感要素抽取方法及装置，涉及机器翻译技术领域；解决了现有计算机系统对于自然语言的理解仍处于相对较低的阶段，情感评价对象识别结果不佳的技术问题；该技术方案包括：采用双向长短时记忆的循环神经网络对句子进行建模，然后为每个类别构建分类器，进行分类；对于输入句子而言，将句子中的每个词表示为词向量，作为输入序列输入到所述循环神经网络中；依次计算所述循环神经网络中的每个隐藏状态，计算句子的特征表示；得到句子的特征表示之后，采用逻辑分类器对句子进行分类，识别句子中所评论的情感要素的类别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器翻译
，特别涉及一种基于深度学习的短文本情感要素抽取方法及装置。
技术介绍
随着Web2.0的大规模普及，各种资源呈几何爆炸式增长，人们通过网络进行沟通和交流的渠道也越来越畅通。互联网无疑已经成为当代重要的信息载体，为广大互联网用户提供了一个可以发表、交流和共享自己见解的广阔平台。越来越多的用户选择在网络上利用各种交流平台分享自己的观点、生活经历和工作经验。由此，在各类网络平台上产生了大量的评论信息。这些信息包含了信息发表者表达的某种主观情绪，如果能够分析数据中的这些情感因素，我们将可以获得网络具体网络环境的用户舆论对某事物或某事件的整体看法。网络上许多关于电子商务的网站如雨后春笋般出现，这些购物网站或者产品论坛是一个商家介绍自己产品以及消费者发表评论的绝佳平台。对商家而言，这是推荐自己商品和了解消费者反馈的绝佳机会。同时，这也是潜在的购物者了解即将购买的产品，进行消费选择的一种方式。因此越来越多的人会先到网上参考用户的针对意向产品的评论信息然后再做出最终的消费决策，也有越来越多的商家把网络用户的评论作为改进产品、提升服务的信息来源。同时，美国Facebook、Twitter等社交平台的出现和成功，推动了社会网络化的进程，开启了人与人沟通的新模式。我国也相继出现各类社交网络平台，如人人网、开心网、新浪微博、腾讯微博等，正是由于此类网络社交平台具有极大的自由性和开放性，逐渐成为网民意见表达强有力的平台和信息传播重要的集散地，网络言论的数量与多样性达到了空前的程度。然而面对浩瀚的数据资源，人工处理的方式是难以胜任现有的需求的。用户评论...

【技术保护点】
一种基于深度学习的短文本情感要素抽取方法，其特征在于，采用双向长短时记忆的循环神经网络对句子进行建模，然后为每个类别构建分类器，进行分类；对于输入句子而言，将句子中的每个词表示为词向量，作为输入序列输入到所述循环神经网络中；依次计算所述循环神经网络中的每个隐藏状态，计算句子的特征表示；得到句子的特征表示之后，采用逻辑分类器对句子进行分类，识别句子中所评论的情感要素的类别。

【技术特征摘要】
1.一种基于深度学习的短文本情感要素抽取方法，其特征在于，采用双向长短时记忆的循环神经网络对句子进行建模，然后为每个类别构建分类器，进行分类；对于输入句子而言，将句子中的每个词表示为词向量，作为输入序列输入到所述循环神经网络中；依次计算所述循环神经网络中的每个隐藏状态，计算句子的特征表示；得到句子的特征表示之后，采用逻辑分类器对句子进行分类，识别句子中所评论的情感要素的类别。2.如权利要求1所述的方法，其特征在于，所述依次计算所述循环神经网络中的每个隐藏状态，具体为第t时刻的隐藏层节点计算方式如下，其中，htf是前向循环神经网络的隐藏节点值，htb是后向循环神经网络的隐藏节点值，选用最后时刻的隐藏节点值作为句子的向量表示，即其中c是需要的句子向量表示，冒号表示向量拼接。3.如权利要求1所述的方法，其特征在于，所述依次计算所述循环神经网络中的每个隐藏状态，具体为给定输入序列，循环神经网络可以产生一个隐藏状态序列，其中，第i时刻的状态由前向循环神经网络和后向循环神经网络共同拼接而成，将所有隐藏状态序列输入到一个最大池化层中，隐藏状态序列组合起来可以视为一个矩阵，所述最大池化层取输入矩阵的每一行的最大值作为输出值，然后将这个固定大小的向量作为句子的整体表示输入到分类器中。4.如权利要求1所述的方法，其特征在于，所述依次计算所述循环神经网络中的每个隐藏状态，具体为将循环神经网络得到的隐藏状态矩阵输入到卷积神经网络中。5.如权利要求1所述的方法，其特征在于，为每个类别训练一个二分类器。6.一种基于深度学习的短文本情感要素抽取装置，其...

【专利技术属性】
技术研发人员：程国艮，巢文涵，周庆，
申请(专利权)人：中译语通科技北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人