对文本进行情感分析的方法及装置制造方法及图纸

技术编号:22755059 阅读:33 留言:0更新日期:2019-12-07 03:57
本说明书实施例提供了一种对文本进行情感分析的方法及装置,方法包括:首先对文本进行分句处理以得到句子序列;然后确定该句子序列包含的各个句子的句子向量,并利用各个句子向量,形成与该句子序列对应的句子向量序列;之后,即可将句子向量序列输入基于BERT的文本情感分析模型,通过该文本情感分类模型预测待处理文本的情感极性。

The method and device of emotional analysis of text

The embodiment of the specification provides a method and device for emotional analysis of text, the method includes: first, the text is sentence segmented to obtain sentence sequence; then, the sentence vector of each sentence contained in the sentence sequence is determined, and the sentence vector sequence corresponding to the sentence sequence is formed by using each sentence vector; then, the sentence vector sequence can be input Based on the text sentiment analysis model of Bert, the emotion polarity of the text to be processed is predicted by the text sentiment classification model.

【技术实现步骤摘要】
对文本进行情感分析的方法及装置
本说明书一个或多个实施例涉及计算机领域,尤其涉及对文本进行情感分析的方法及装置。
技术介绍
对文本进行情感分析是一种典型的自然语言处理任务,具有广泛的应用场景。比如,用户对指定的电影发布影评之后,可通过对该影评进行情感分析以确定其情感极性,从而确定出用户是否喜爱该电影;又如,用户对指定商品发布评价内容之后,可通过对评价内容进行情感分析以确定其情感极性,从而确定出该用户对指定商品的情感趋向,以便根据大量用户对指定商品的情感趋向,分析指定产品的质量。通过现有技术实现对待处理文本进行情感分析时,如果待处理文本的长度较大,则不易准确界定其情感极性。有鉴于此,希望有改进的方案,能够更为准确的确定出文本的情感极性。
技术实现思路
本说明书一个或多个实施例提供了一种对文本进行情感分析的方法及装置,能够更为准确的确定文本的情感极性。第一方面,提供了一种对文本进行情感分析的方法,所述方法包括:对待处理文本进行分句处理,得到句子序列;确定所述句子序列包含的各个句子的句子向量;利用各个句子向量,形成与所述句子序列对应的句子向量序列;将句子向量序列输入基于BERT的文本情感分析模型,得到该文本情感分类模型预测的所述待处理文本的情感极性。在一种可能的实施方式中,所述文本情感分析模型包括:第一向量转化层,配置为基于输入的当前句子向量序列,添加特殊符的表示向量,并根据表示向量和当前句子向量序列包含的各个句子向量的位置信息,对表示向量和当前句子向量序列包含的各个句子向量进行转化,形成第一向量序列;第一Transformer编码器层,配置为对所述第一向量序列进行编码处理,得到第一特殊符编码向量,以及得到当前句子向量序列包含的各个句子向量分别对应的句子编码向量;基于Transformer编码器的第一监督注意力层,至少配置为将所述第一特殊符编码向量的查询向量与所述第一特殊符编码向量的键向量之间的点积,确定为所述第一特殊符编码向量的监督注意力;以及,针对每个句子编码向量,将该句子编码向量的键向量与所述第一特殊符编码向量的查询向量之间的点积,确定为该句子编码向量的监督注意力;根据所述第一特殊符编码向量、各个句子编码向量及其监督注意力,得到文本表示向量;文本情感分类层,配置为根据所述文本表示向量,预测当前句子向量序列对应的文本的情感极性。在一种可能的实施方式中,所述文本情感分析模型通过多组第一训练语料训练得到;所述第一训练语料包括:样本句子向量序列、第一标注信息及第二标注信息,其中,样本句子向量序列包含的各个样本句子向量与样本文本包含的各个样本句子对应,第一标注信息指示了样本文本的情感极性,第二标注信息指示了样本文本包含的各个样本句子的情感极性。在一种可能的实施方式中,所述文本情感分析模型通过如下方式进行训练:将所述第一训练语料包含的样本句子向量序列输入所述文本情感分析模型;从所述文本情感分析模型的第一监督注意力层,获取各个样本句子编码向量的监督注意力,各个样本句子编码向量与所述样本句子向量序列包含的各个样本句子向量对应;以及,获取所述文本情感分析模型的文本情感分类层的输出,得到所述第一训练语料对应的样本文本的当前情感极性;根据所述当前情感极性、所述第一训练语料包含的第一标注信息、所述第一训练语料包含的第二标注信息、各个样本句子编码向量的监督注意力,确定损失函数;在损失函数减小的方向,更新所述文本情感分析模型。在一种可能的实施方式中,所述确定损失函数,包括:根据所述当前情感极性与所述第一训练语料包含的第一标注信息的比对,确定第一损失项;根据各个样本句子编码向量的监督注意力与所述第一训练语料包含的第二标注信息的比对,确定所述样本句子向量序列包含的各个样本句子向量分别对应的第二损失项;根据所述第一损失项以及各个所述第二损失项,得到所述损失函数。在一种可能的实施方式中,所述确定所述句子序列包含的各个句子的句子向量,包括:对所述句子序列包含的各个句子进行分词处理,得到所述句子序列包含的各个句子分别对应的词序列;利用基于BERT的句子情感分析模型分析各个所述词序列,以获取所述句子序列包含的各个句子的句子向量。在一种可能的实施方式中,所述句子情感分析模型,包括:第二向量转化层,配置为基于输入的当前词序列添加特殊符,并对特殊符和当前词序列包含的各个词进行嵌入处理,形成第二向量序列;第二Transformer编码器层,配置为对所述第二向量序列进行编码处理,得到第二特殊符编码向量,以及得到当前词序列包含的各个词分别对应的词编码向量;基于Transformer编码器的第二监督注意力层,至少配置为将所述第二特殊符编码向量的查询向量与所述第二特殊符编码向量的键向量之间的点积,确定为所述第二特殊符编码向量的监督注意力;以及,针对每个词编码向量,将该词编码向量的键向量与所述第二特殊符编码向量的查询向量之间的点积,确定为该词编码向量的监督注意力;根据所述第二特殊符编码向量、各个词编码向量及其监督注意力,得到当前句子向量;句子情感分类层,配置为根据当前句子向量,预测所述当前词序列对应的句子的情感极性。在一种可能的实施方式中,所述句子情感分析模型通过多组第二训练语料训练得到;所述第二训练语料包括:样本句子、第三标注信息及第四标注信息,其中,第三标注信息指示了该样本句子的情感极性,第四标注信息指示了该样本句子包含的各个词的情感极性。在一种可能的实施方式中,所述利用基于BERT的句子情感分析模型分析各个所述词序列,以获取所述句子序列包含的各个句子的句子向量,包括:将所述句子序列包含的各个句子分别对应的词序列输入基于BERT的句子情感分析模型,获取所述句子情感分析模型的第二监督注意力层的输出,得到所述句子序列包含的各个句子的句子向量。在一种可能的实施方式中,所述句子情感分析模型和所述文本情感分析模型通过多组第三训练语料进行联合训练得到,所述第三训练语料包括:样本文本包含的各个样本句子、第一标注信息、各个样本句子分别对应的第三标注信息及第四标注信息,其中,第一标注信息用于指示样本文本的情感极性,第三标注信息用于指示其对应的样本句子的情感极性,第四标注信息用于指示其对应的样本句子包含的各个词的情感极性。第二方面,提供了一种对文本进行情感分析的装置,所述装置包括:分句处理模块,配置为对待处理文本进行分句处理,得到句子序列;句子向量确定模块,配置为确定所述句子序列包含的各个句子的句子向量;序列化处理模块,配置为利用各个句子向量,形成与所述句子序列对应的句子向量序列;模型调用模块,配置为将句子向量序列输入基于BERT的文本情感分析模型,得到该文本情感分类模型预测的所述待处理文本的情感极性。本文档来自技高网...

【技术保护点】
1.一种对文本进行情感分析的方法,所述方法包括:/n对待处理文本进行分句处理,得到句子序列;/n确定所述句子序列包含的各个句子的句子向量;/n利用各个句子向量,形成与所述句子序列对应的句子向量序列;/n将句子向量序列输入基于BERT的文本情感分析模型,得到该文本情感分类模型预测的所述待处理文本的情感极性。/n

【技术特征摘要】
1.一种对文本进行情感分析的方法,所述方法包括:
对待处理文本进行分句处理,得到句子序列;
确定所述句子序列包含的各个句子的句子向量;
利用各个句子向量,形成与所述句子序列对应的句子向量序列;
将句子向量序列输入基于BERT的文本情感分析模型,得到该文本情感分类模型预测的所述待处理文本的情感极性。


2.根据权利要求1所述的方法,其中,
所述文本情感分析模型包括:
第一向量转化层,配置为基于输入的当前句子向量序列,添加特殊符的表示向量,并根据表示向量和当前句子向量序列包含的各个句子向量的位置信息,对表示向量和当前句子向量序列包含的各个句子向量进行转化,形成第一向量序列;
第一Transformer编码器层,配置为对所述第一向量序列进行编码处理,得到第一特殊符编码向量,以及得到当前句子向量序列包含的各个句子向量分别对应的句子编码向量;
基于Transformer编码器的第一监督注意力层,至少配置为将所述第一特殊符编码向量的查询向量与所述第一特殊符编码向量的键向量之间的点积,确定为所述第一特殊符编码向量的监督注意力;以及,针对每个句子编码向量,将该句子编码向量的键向量与所述第一特殊符编码向量的查询向量之间的点积,确定为该句子编码向量的监督注意力;根据所述第一特殊符编码向量、各个句子编码向量及其监督注意力,得到文本表示向量;
文本情感分类层,配置为根据所述文本表示向量,预测当前句子向量序列对应的文本的情感极性。


3.根据权利要求2所述的方法,其中,
所述文本情感分析模型通过多组第一训练语料训练得到;
所述第一训练语料包括:样本句子向量序列、第一标注信息及第二标注信息,其中,样本句子向量序列包含的各个样本句子向量与样本文本包含的各个样本句子对应,第一标注信息指示了样本文本的情感极性,第二标注信息指示了样本文本包含的各个样本句子的情感极性。


4.根据权利要求3所述的方法,其中,
所述文本情感分析模型通过如下方式进行训练:
将所述第一训练语料包含的样本句子向量序列输入所述文本情感分析模型;
从所述文本情感分析模型的第一监督注意力层,获取各个样本句子编码向量的监督注意力,各个样本句子编码向量与所述样本句子向量序列包含的各个样本句子向量对应;以及,
获取所述文本情感分析模型的文本情感分类层的输出,得到所述第一训练语料对应的样本文本的当前情感极性;
根据所述当前情感极性、所述第一训练语料包含的第一标注信息、所述第一训练语料包含的第二标注信息、各个样本句子编码向量的监督注意力,确定损失函数;
在损失函数减小的方向,更新所述文本情感分析模型。


5.根据权利要求4所述的方法,其中,
所述确定损失函数,包括:
根据所述当前情感极性与所述第一训练语料包含的第一标注信息的比对,确定第一损失项;
根据各个样本句子编码向量的监督注意力与所述第一训练语料包含的第二标注信息的比对,确定所述样本句子向量序列包含的各个样本句子向量分别对应的第二损失项;
根据所述第一损失项以及各个所述第二损失项,得到所述损失函数。


6.根据权利要求1至5中任一所述的方法,其中,
所述确定所述句子序列包含的各个句子的句子向量,包括:
对所述句子序列包含的各个句子进行分词处理,得到所述句子序列包含的各个句子分别对应的词序列;
利用基于BERT的句子情感分析模型分析各个所述词序列,以获取所述句子序列包含的各个句子的句子向量。


7.根据权利要求6所述的方法,其中,
所述句子情感分析模型,包括:
第二向量转化层,配置为基于输入的当前词序列添加特殊符,并对特殊符和当前词序列包含的各个词进行嵌入处理,形成第二向量序列;
第二Transformer编码器层,配置为对所述第二向量序列进行编码处理,得到第二特殊符编码向量,以及得到当前词序列包含的各个词分别对应的词编码向量;
基于Transformer编码器的第二监督注意力层,至少配置为将所述第二特殊符编码向量的查询向量与所述第二特殊符编码向量的键向量之间的点积,确定为所述第二特殊符编码向量的监督注意力;以及,针对每个词编码向量,将该词编码向量的键向量与所述第二特殊符编码向量的查询向量之间的点积,确定为该词编码向量的监督注意力;根据所述第二特殊符编码向量、各个词编码向量及其监督注意力,得到当前句子向量;
句子情感分类层,配置为根据当前句子向量,预测所述当前词序列对应的句子的情感极性。


8.根据权利要求7所述的方法,其中,
所述句子情感分析模型通过多组第二训练语料训练得到;
所述第二训练语料包括:样本句子、第三标注信息及第四标注信息,其中,第三标注信息指示了该样本句子的情感极性,第四标注信息指示了该样本句子包含的各个词的情感极性。


9.根据权利要求7所述的方法,其中,
所述利用基于BERT的句子情感分析模型分析各个所述词序列,以获取所述句子序列包含的各个句子的句子向量,包括:
将所述句子序列包含的各个句子分别对应的词序列输入基于BERT的句子情感分析模型,获取所述句子情感分析模型的第二监督注意力层的输出,得到所述句子序列包含的各个句子的句子向量。


10.根据权利要求6所述的方法,其中,
所述句子情感分析模型和所述文本情感分析模型通过多组第三训练语料进行联合训练得到,所述第三训练语料包括:样本文本包含的各个样本句子、第一标注信息、各个样本句子分别对应的第三标注信息及第四标注信息,其中,第一标注信息用于指示样本文本的情感极性,第三标注信息用于指示其对应的样本句子的情感极性,第四标注信息用于指示其对应的样本句子包含的各个词的情感极性。


11.一种对文本进行情感分析的装置,所述装置包括:
分句处理模块,配置为对待处理文本进行分句处理,得到句子序列;
句子向量确定模块,配置为确定所述句子序列包含的各个句子的句子向量;
序列化...

【专利技术属性】
技术研发人员:梁忠平温祖杰蒋亮张家兴李小龙
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1