细粒度情感分析方法、系统、电子设备和存储介质技术方案

技术编号:23983727 阅读:22 留言:0更新日期:2020-04-29 12:32
本发明专利技术公开了一种细粒度情感分析方法、系统、电子设备和存储介质。方法包括:利用加入Attention机制的Bi‑LSTM训练多标签的粒度分类模型,所述粒度分类模型用于对文本所涉及的粒度进行分类;利用门控神经网络训练多分类的情感分类模型,所述情感分类模型用于对所述文本所涉及的粒度的情感偏向进行分类;在对待分析文本进行细粒度情感分析时,先利用所述粒度分类模型分出所述待分析文本所涉及的粒度,然后利用所述情感分类模型分出所述待分析文本所涉及的粒度的情感偏向,再然后将分类结果汇总得到对所述待分析文本的细粒度情感分析结果。本发明专利技术采用层级分类的方案总共只需两个模型,大大降低了训练模型的工程量及预测耗时。

Fine grained emotion analysis methods, systems, electronic devices and storage media

【技术实现步骤摘要】
细粒度情感分析方法、系统、电子设备和存储介质
本专利技术属于文本处理领域,尤其涉及一种细粒度情感分析方法、系统、电子设备和存储介质。
技术介绍
随着AI(人工智能)技术的发展,对用户的细粒度情感偏向分析也快速进步,尤其是针对电商网站、社交网络等互联网应用,需要从用户的评价、评论和用户的主观言论中分析出用户的情感态度,从而挖掘更深的价值。细粒度情感分析属于多标签文本分类任务,目前该任务场景下,主流技术多采用将多标签分类拆分为多个二分类模型的方案来解决。每一个粒度分别训练一个模型,上线使用时一个样本须遍历所有的分类模型,从而训练模型的工程量较大,且预测耗时较长。另外,细粒度情感分析中涉及的粒度较多,标注数据量也较大,若采用传统的标注数据方式将所有的样本所涉及的粒度和情感偏向逐一标注,标注代价太大。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中采用多个二分类模型并为每一个粒度训练一个模型的方式进行细粒度情感分析而导致训练模型的工程量大且预测耗时长的缺陷,提供一种细粒度情感分析方法、系统、电子设备和存储介质。本专利技术是通过下述技术方案来解决上述技术问题:一种细粒度情感分析方法,包括:利用加入Attention(注意力)机制的Bi-LSTM(双向长短期记忆网络)训练多标签的粒度分类模型,所述粒度分类模型用于对文本所涉及的粒度进行分类,每个标签分别表示一个粒度,每个粒度分别表示文本场景中的一个对象的一种属性,所述Attention机制内包含可训练的LabelEmbedding(标签嵌入)参数,所述LabelEmbedding参数表示当前粒度,用以控制Attention筛选当前粒度相关的信息;利用门控神经网络训练多分类的情感分类模型,所述情感分类模型用于对所述文本所涉及的粒度的情感偏向进行分类,每个分类分别表示一种情感偏向,所述情感分类模型包括AspectEmbedding(方面嵌入)参数,所述AspectEmbedding参数表示所述文本所涉及的粒度,由所述粒度分类模型的分类结果确定;在对待分析文本进行细粒度情感分析时,先利用所述粒度分类模型分出所述待分析文本所涉及的粒度,然后利用所述情感分类模型分出所述待分析文本所涉及的粒度的情感偏向,再然后将所述粒度分类模型和所述情感分类模型的分类结果汇总得到对所述待分析文本的细粒度情感分析结果。较佳地,在训练所述粒度分类模型时,基于主动学习算法挑选样本标注、训练初始模型、增加样本标注、扩充训练集、训练新模型,以及多次重复增加样本标注、扩充训练集和训练新模型的步骤直至所述粒度分类模型收敛;和/或,在训练所述情感分类模型时,基于主动学习算法挑选样本标注、训练初始模型、增加样本标注、扩充训练集、训练新模型,以及多次重复增加样本标注、扩充训练集和训练新模型的步骤直至所述情感分类模型收敛。较佳地,利用加入Attention机制的Bi-LSTM训练多标签的粒度分类模型的步骤具体包括:收集文本样本;对所述文本样本进行预处理,所述预处理包括繁简转换、大小写转换、去除特殊标点符号、分句中的至少一种以及分词;将分词后所得的词语利用词向量库映射为xi,利用Bi-LSTM提取语义特征,得i时刻的隐向量hi;分别以各粒度的LabelEmbedding参数为输入,利用Attention机制计算各粒度的context向量,其中,ct代表第t个粒度的context向量,st代表第t个粒度的LabelEmbedding参数;对各ct分别做全连接,输出维度均为1,并利用sigmoid(一种函数)作为激活函数,输出yt,其中,yt代表第t个粒度被涉及的概率值:利用binarycrossentropy(一种函数)损失函数计算损失,并利用反向传播优化模型。较佳地,利用门控神经网络训练多分类的情感分类模型的步骤具体包括:收集文本样本;对所述文本样本进行预处理,所述预处理包括繁简转换、大小写转换、去除特殊标点符号、分句中的至少一种以及分词;将分词后所得的词语利用词向量库映射为向量;利用门控神经网络训练情感分类模型,模型内不同粒度对应的AspectEmbedding参数的值不同。较佳地,若利用所述粒度分类模型分析出所述待分析文本没有涉及的粒度,则结束分析;若先利用所述粒度分类模型分析出所述待分析文本所涉及的粒度为多个,则利用所述情感分类模型分出所述待分析文本所涉及的每个粒度相对应的情感偏向。一种细粒度情感分析系统,包括:粒度分类模块,用于利用加入Attention机制的Bi-LSTM训练多标签的粒度分类模型,所述粒度分类模型用于对文本所涉及的粒度进行分类,每个粒度分别表示文本场景中的一个对象的一种属性,所述Attention机制内包含可训练的LabelEmbedding参数,所述LabelEmbedding参数表示当前粒度,用以控制Attention筛选当前粒度相关的信息;情感分类模块,用于利用门控神经网络训练多分类的情感分类模型,所述情感分类模型用于对所述文本所涉及的粒度的情感偏向进行分类,所述情感分类模型包括AspectEmbedding参数,所述AspectEmbedding参数表示所述文本所涉及的粒度,由所述粒度分类模型的分类结果确定;文本分析模块,用于在对待分析文本进行细粒度情感分析时,先利用所述粒度分类模型分出所述待分析文本所涉及的粒度,然后利用所述情感分类模型分出所述待分析文本所涉及的粒度的情感偏向,再然后将所述粒度分类模型和所述情感分类模型的分类结果汇总得到对所述待分析文本的细粒度情感分析结果。较佳地,所述粒度分类模块在训练所述粒度分类模型时,基于主动学习算法挑选样本标注、训练初始模型、增加样本标注、扩充训练集、训练新模型,以及多次重复增加样本标注、扩充训练集和训练新模型的过程直至所述粒度分类模型收敛;和/或,所述情感分类模块在训练所述情感分类模型时,基于主动学习算法挑选样本标注、训练初始模型、增加样本标注、扩充训练集、训练新模型,以及多次重复增加样本标注、扩充训练集和训练新模型的过程直至所述情感分类模型收敛。较佳地,所述粒度分类模块具体用于:收集文本样本;对所述文本样本进行预处理,所述预处理包括繁简转换、大小写转换、去除特殊标点符号、分句中的至少一种以及分词;将分词后所得的词语利用词向量库映射为xi,利用Bi-LSTM提取语义特征,得i时刻的隐向量hi;分别以各粒度的LabelEmbedding参数为输入,利用Attention机制计算各粒度的context向量,其中,ct代表第t个粒度的context向量,st代表第t个粒度的LabelEmbedding参数;对各ct分别做全连接,输出维度均为1,并利用sigmoid作为激活函数,输出yt,其中,yt代表第t个粒度被涉及的概率值:利用binarycrossentropy损失函数计算损失,并利本文档来自技高网...

【技术保护点】
1.一种细粒度情感分析方法,其特征在于,包括:/n利用加入Attention机制的Bi-LSTM训练多标签的粒度分类模型,所述粒度分类模型用于对文本所涉及的粒度进行分类,每个标签分别表示一个粒度,每个粒度分别表示文本场景中的一个对象的一种属性,所述Attention机制内包含可训练的Label Embedding参数,所述Label Embedding参数表示当前粒度,用以控制Attention筛选当前粒度相关的信息;/n利用门控神经网络训练多分类的情感分类模型,所述情感分类模型用于对所述文本所涉及的粒度的情感偏向进行分类,每个分类分别表示一种情感偏向,所述情感分类模型包括Aspect Embedding参数,所述Aspect Embedding参数表示所述文本所涉及的粒度,由所述粒度分类模型的分类结果确定;/n在对待分析文本进行细粒度情感分析时,先利用所述粒度分类模型分出所述待分析文本所涉及的粒度,然后利用所述情感分类模型分出所述待分析文本所涉及的粒度的情感偏向,再然后将所述粒度分类模型和所述情感分类模型的分类结果汇总得到对所述待分析文本的细粒度情感分析结果。/n

【技术特征摘要】
1.一种细粒度情感分析方法,其特征在于,包括:
利用加入Attention机制的Bi-LSTM训练多标签的粒度分类模型,所述粒度分类模型用于对文本所涉及的粒度进行分类,每个标签分别表示一个粒度,每个粒度分别表示文本场景中的一个对象的一种属性,所述Attention机制内包含可训练的LabelEmbedding参数,所述LabelEmbedding参数表示当前粒度,用以控制Attention筛选当前粒度相关的信息;
利用门控神经网络训练多分类的情感分类模型,所述情感分类模型用于对所述文本所涉及的粒度的情感偏向进行分类,每个分类分别表示一种情感偏向,所述情感分类模型包括AspectEmbedding参数,所述AspectEmbedding参数表示所述文本所涉及的粒度,由所述粒度分类模型的分类结果确定;
在对待分析文本进行细粒度情感分析时,先利用所述粒度分类模型分出所述待分析文本所涉及的粒度,然后利用所述情感分类模型分出所述待分析文本所涉及的粒度的情感偏向,再然后将所述粒度分类模型和所述情感分类模型的分类结果汇总得到对所述待分析文本的细粒度情感分析结果。


2.如权利要求1所述的细粒度情感分析方法,其特征在于,在训练所述粒度分类模型时,基于主动学习算法挑选样本标注、训练初始模型、增加样本标注、扩充训练集、训练新模型,以及多次重复增加样本标注、扩充训练集和训练新模型的步骤直至所述粒度分类模型收敛;
和/或,在训练所述情感分类模型时,基于主动学习算法挑选样本标注、训练初始模型、增加样本标注、扩充训练集、训练新模型,以及多次重复增加样本标注、扩充训练集和训练新模型的步骤直至所述情感分类模型收敛。


3.如权利要求1所述的细粒度情感分析方法,其特征在于,利用加入Attention机制的Bi-LSTM训练多标签的粒度分类模型的步骤具体包括:
收集文本样本;
对所述文本样本进行预处理,所述预处理包括繁简转换、大小写转换、去除特殊标点符号、分句中的至少一种以及分词;
将分词后所得的词语利用词向量库映射为xi,利用Bi-LSTM提取语义特征,得i时刻的隐向量hi;
分别以各粒度的LabelEmbedding参数为输入,利用Attention机制计算各粒度的context向量,其中,ct代表第t个粒度的context向量,st代表第t个粒度的LabelEmbedding参数;
对各ct分别做全连接,输出维度均为1,并利用sigmoid作为激活函数,输出yt,其中,yt代表第t个粒度被涉及的概率值:
利用binarycrossentropy损失函数计算损失,并利用反向传播优化模型。


4.如权利要求1所述的细粒度情感分析方法,其特征在于,利用门控神经网络训练多分类的情感分类模型的步骤具体包括:
收集文本样本;
对所述文本样本进行预处理,所述预处理包括繁简转换、大小写转换、去除特殊标点符号、分句中的至少一种以及分词;
将分词后所得的词语利用词向量库映射为向量;
利用门控神经网络训练情感分类模型,模型内不同粒度对应的AspectEmbedding参数的值不同。


5.如权利要求1所述的细粒度情感分析方法,其特征在于,若利用所述粒度分类模型分析出所述待分析文本没有涉及的粒度,则结束分析;
若先利用所述粒度分类模型分析出所述待分析文本所涉及的粒度为多个,则利用所述情感分类模型分出所述待分析文本所涉及的每个粒度相对应的情感偏向。


6.一种细粒度情感分析系统,其特征在于,包括:
粒度分类模块,用于利用加入Attention机制的Bi-LSTM训练多标签的粒度分类模型,所述粒度分类模型用于对文本所...

【专利技术属性】
技术研发人员:邓艳江罗超胡泓
申请(专利权)人:携程计算机技术上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1