一种情感分析方法、设备及系统、计算机可读存储介质技术方案

技术编号:19511323 阅读:27 留言:0更新日期:2018-11-21 07:48
一种情感分析方法、设备及系统、计算机可读存储介质,该情感分析方法包括:根据语料生成词向量;根据所述语料生成特征向量,将所述词向量输入预先建立的第一长短记忆网络模型,将所述第一长短记忆网络模型输出的第一信息和所述特征向量输入预先建立的第二长短记忆网络模型;根据所述第二长短记忆网络模型输出的第二信息确定所述语料的情感倾向。本实例提供的方案,使用两层LSTM,考虑了句子信息之间的长程关联,能更准确地反映情感倾向。

【技术实现步骤摘要】
一种情感分析方法、设备及系统、计算机可读存储介质
本专利技术涉及一种情感分析方法、设备及系统、计算机可读存储介质。
技术介绍
21世纪是信息技术飞速发展的时代,人们的生活与计算机、互联网息息相关,人与人之间的交流和沟通方式也已渗透到网络中。以微博、微信为代表的社会化媒体平台的出现,更加使得移动互联深入人心。以微博为例,微博,即微博客的简称,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过web(网页)、WAP(WirelessApplicationProtocol,无线应用协议)以及各种客户端组件,以140字左右的文字发表信息,并实现即时分享。微博的简短、精辟吸引了大量的公众人物的使用,这些公众人物所带动的粉丝数以万计。每个人无论何时何地都可以自由而方便地记录生活的点滴、与朋友互动、表达观点等等。每一个微博传递的信息包含发布者的个人立场和感情,有必要对微博承载的参与者的感情进行挖掘分析。
技术实现思路
本专利技术至少一实施例提供了一种情感分析方法、设备及系统、计算机可读存储介质。为了达到本专利技术目的,本专利技术至少一实施例提供了一种情感分析方法,包括:根据语料生成词向量;根据所述语料生成特征向量,将所述词向量输入预先建立的第一长短记忆网络模型,将所述第一长短记忆网络模型输出的第一信息和所述特征向量输入预先建立的第二长短记忆网络模型;根据所述第二长短记忆网络模型输出的第二信息确定所述语料的情感倾向。本专利技术至少一实施例提供一种情感分析系统,包括:数据处理模块、存储模块和算法分析模块,其中:所述数据处理模块用于,获取语料;所述存储模块用于,存储所述语料;所述算法分析模块用于,根据所述语料生成特征向量,将所述词向量输入预先建立的第一长短记忆网络模型,将所述第一长短记忆网络模型输出的第一信息和所述特征向量输入预先建立的第二长短记忆网络模型;根据所述第二长短记忆网络模型输出的第二信息确定所述语料的情感倾向。本专利技术至少一实施例一种情感分析设备,包括存储器和处理器,所述存储器存储有程序,所述程序在被所述处理器读取执行时,实现任一实施例所述的情感分析方法。本专利技术至少一实施例一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现任一实施例所述的情感分析方法。本实施例提供的方案,使用两层LSTM,而且加入了特征信息,相比只使用词向量作为输入的单层LSTM,单层LSTM只考虑了词语之间的关联(长关联和短关联),并不能完全考虑句子信息之间的长程关联,本实施例提供的方案,使用两层LSTM,考虑了句子信息之间的长程关联,能更准确的进行情感分析。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限制。图1为本专利技术一实施例提供的情感分析方法流程图;图2为本专利技术一实施例提供的第一LSTM细胞图;图3为本专利技术一实施例提供的第二LSTM细胞图;图4为本专利技术一实施例提供的情感分析示意图;图5为本专利技术一实施例提供的双向情感分析示意图;图6为本专利技术一实施例提供的情感分析系统框图;图7为本专利技术一实施例提供的情感分析方法流程图;图8为本专利技术一实施例提供的训练方法流程图;图9为本专利技术一实施例提供的情感分析方法流程图;图10为本专利技术一实施例提供的情感分析方法流程图;图11为本专利技术一实施例提供的情感分析方法流程图;图12为本专利技术一实施例提供的情感分析设备框图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。本申请中,通过两层长短记忆网络(LongShort-TermMemory,简称LSTM)进行情感分析。如图1所示,本专利技术一实施例提供一种情感分析方法,包括:步骤101,根据语料生成词向量;步骤102,根据所述语料生成特征向量,将所述词向量输入预先建立的第一LSTM模型,将所述第一LSTM模型输出的第一信息和所述特征向量输入预先建立的第二LSTM模型;步骤103,根据所述第二LSTM模型输出的第二信息确定所述语料的情感倾向。本实施例提供的方案,使用两层LSTM(第一LSTM和第二LSTM),相比只使用词向量的单层LSTM,单层LSTM只考虑了词语之间的关联(长关联和短关联),并不能完全考虑句子信息之间的长程关联,本实施例提供的方案,考虑了句子信息之间的长程关联,能更准确的进行情感分析。其中,所述步骤101之前还包括:步骤100,将待分析的目标信息预处理成预设格式的数据作为所述语料。所述目标信息比如互联网数据,所述互联网数据比如微博正文,微博评论、微信公众号正文、微信评论、商品评价、新闻正文、新闻评论等等。在一实施例中,步骤100中,将待分析的目标信息预处理成预设格式的数据包括:清洗所述目标信息中包含的预设信息,所述预设信息比如为图片、语音等,将清洗后的目标信息规整为预设格式的结构化数据,每个结构化数据作为一个语料。需要清洗掉的信息可以预先定义。当然,也可以不进行清洗,直接从目标信息中提取信息生成结构化数据。其中,可以先判断目标信息中是否存在预设信息,如果存在,则清洗预设信息;或者,不作判断,直接对目标信息进行清洗。一种结构化数据的格式如表1所示,可包括如下字段:标识(id),该字段为语料的序列号;语料内容,该字段为语料的内容,语料的内容包括表情符号等信息。语料内容与目标信息可能存在差别,比如,语料内容中去除了目标信息中的图片(非表情符号)、语音等等。语料类型,指示该语料包含以下至少之一:正文、正文的评论和评论的回复;属主,指语料的发布者,该字段为可选字段;时间,指语料的发布时间,该字段为可选字段。表1结构化数据字段说明以微博为例,一个微博正文经过预处理后可以作为一条语料,该微博正文的每条评论经过预处理后可以作为一个语料,评论的回复经过预处理后可以作为一个语料。当然,也可以将微博正文及其评论作为一个语料,或者,将微博评论及评论的回复作为一个语料,等等。其中,语料可以存储在数据库中,多条关联的语料可以按预设方式存储。比如,正文对应的语料,正文的评论对应的语料,评论的回复对应的语料依次存储在连续的地址中。或者,在评论对应的语料中增加指示字段,该指示字段可以携带与该评论关联的正文对应的语料的ID,表示该评论为该语料ID指示的语料对应的正文的评论,在评论的回复对应的语料中增加指示字段,该指示字段可以携带与该评论的回复关联的评论对应的语料的ID,表示该评论的回复为该语料ID指示的语料对应的评论的回复。需要说明的是,上述结构化数据仅为示例,可以根据需要为其他结构,比如只包括语料内容和语料类型。生成词向本文档来自技高网...

【技术保护点】
1.一种情感分析方法,包括:根据语料生成词向量;根据所述语料生成特征向量,将所述词向量输入预先建立的第一长短记忆网络模型,将所述第一长短记忆网络模型输出的第一信息和所述特征向量输入预先建立的第二长短记忆网络模型;根据所述第二长短记忆网络模型输出的第二信息确定所述语料的情感倾向。

【技术特征摘要】
1.一种情感分析方法,包括:根据语料生成词向量;根据所述语料生成特征向量,将所述词向量输入预先建立的第一长短记忆网络模型,将所述第一长短记忆网络模型输出的第一信息和所述特征向量输入预先建立的第二长短记忆网络模型;根据所述第二长短记忆网络模型输出的第二信息确定所述语料的情感倾向。2.根据权利要求1所述的情感分析方法,其特征在于,所述根据语料生成特征向量前还包括,将待分析的目标信息预处理成预设格式的数据作为所述语料。3.根据权利要求1所述的情感分析方法,其特征在于,所述语料包括语料内容,或者,语料内容和语料类型;所述语料类型指示所述语料包含以下至少之一:正文、正文的评论和评论的回复。4.根据权利要求1所述的情感分析方法,其特征在于,所述根据所述语料生成词向量包括:将所述语料分词后生成一个或多个第一词向量,将所述第一词向量作为所述词向量;或,将所述语料分词后生成一个或多个第一词向量,基于所述语料所属的话题或分类生成第二词向量,将所述第一词向量和所述第二词向量组合得到所述词向量。5.根据权利要求1所述的情感分析方法,其特征在于,所述根据所述语料生成特征向量包括:根据所述语料提取特征信息,根据所述特征信息生成特征向量,所述特征信息包括以下至少之一:社交评论特征、情感表征特征和宏观社会特征,所述社交评论特征指示该语料的评论信息中是否存在该语料发布者的回复;所述情感表征特征指示所述语料及其评论信息中的包含的第一类情感符号和第二类情感符号的数量关系;所述宏观社会特征指示所述语料中是否出现提示其他用户查看该语料的提示用户信息。6.根据权利要求1所述的情感分析方法,其特征在于,所述词向量包括词向量x1(0)~x1(N-1);所述将所述词向量输入预先建立的第一长短记忆网络模型,将所述第一长短记忆网络模型输出的第一信息和所述特征向量输入预先建立的第二长短记忆网络模型包括:将词向量x1(0)输入所述第一长短记忆网络模型,将所述第一长短记忆网络模型输出的第一信息和所述特征向量输入所述第二长短记忆网络模型;将词向量x1(0)输入所述第一长短记忆网络模型,将所述第一长短记忆网络模型输出的第一信息和所述特征向量输入所述第二长短记忆网络模型;依次类推,将词向量x1(N-1)输入所述第一长短记忆网络模型,将所述第一长短记忆网络模型输出的第一信息和所述特征向量输入所述第二长短记忆网络模型,获取所述第二长短记忆网络模型输出的第二信息。7.根据权利要求1至6任一所述的情感分析方法,其特征在于,所述第一长短记忆网络模型和第二长短记忆网络模型基于如下方式建立:对训练语料进行情感倾向标注,基于所述训练语料对预设的第一初始长短记忆网络模型和所述第二初始长短记忆网络模型进行训练,得到所述第一长短记忆网络模型和所述第二长短记忆网络模型。8.根据权利要求1至6任一所述的情感分析方法,其特征在于,所述第一长短记忆网络模型如下:其中,所述为所述第一长短记忆网络模型的遗忘门t时刻的状态向量的第i个元素,所述σ为sigmod单元函数,所述为权重向量b1f的第i个元素、所述为权重矩阵U1f第i行、第j列的元素,所述为权重矩阵W1f的第i行、第j列的元素,所述为所述第一长短记忆网络模型的t时刻的输入向量的第j个元素,即t时刻输入的所述词向量第j个元素,所述为所述第一长短记忆网络模型t-1时刻的输出向量h1(t-1)的第j个元素;所述为所述第一长短记忆网络模型的输入门t时刻的状态向量的第i个元素,所述为权重向量b1g的第i个元素,所述为权重矩阵U1g第i行、第j列的元素,所述为权重矩阵W1g的第i行、第j列的元素;所述为所述第一长短记忆网络模型的输出门t时刻的状态向量的第i个元素,所述为权重向量b1q的第i个元素,所述为权重矩阵U1q第i行、第j列的元素,所述为权重矩阵W1q的第i行、第j列的元素;所述为所述第一长短记忆网络模型t时刻的中间状态向量s1(t)的第i个元素,所述为所述第一长短记忆网络模型t-1时刻的中间状态向量s1(t-1)的第i个元素,所述b1i为权重向量b1的第i个元素,所述U1i,j为权重矩阵U1第i行、第j列的元素,所述W1i,j为权重矩阵W1的第i行、第j列的元素;所述为所述第一...

【专利技术属性】
技术研发人员:胡晓
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1