一种基于层次网络的领域自适应词嵌入的情感分析方法技术

技术编号:24756477 阅读:62 留言:0更新日期:2020-07-04 09:14
本发明专利技术涉及一种基于层次网络的领域自适应词嵌入的情感分析方法,预先获取文档级情感分析的用户评论数据集;对评论数据集进行无用字符清理;采用领域自适应词嵌入模块、双向长短期记忆网络以及注意力机制构建基于层次网络的领域自适应词嵌入的情感分析模型;对模型进行训练,数据沿着神经网络正向传播,所有网络在输出时进行多元信息的融合,反向传播时通过对损失函数求偏导对参数进行实时更新,在模型测试时利用训练过程中得到的已配置好参数的模型进行情感极性分析。本发明专利技术在传统情感分析的基础上,额外考虑了用户信息和产品信息,提高评论情感分析的效果;帮助商家和平台识别用户情感倾向,在电子商务领域有很广阔的应用前景。

An emotion analysis method based on hierarchical network for domain adaptive word embedding

【技术实现步骤摘要】
一种基于层次网络的领域自适应词嵌入的情感分析方法
本专利技术属于文本情感分类
,具体涉及一种基于层次网络的领域自适应词嵌入的情感分析方法,特别适用于如影评、餐评等情感文本的文本情感分析。
技术介绍
随着现代化科学技术的不断发展,互联网已经成为现代人日常生活中必不可少的一部分,也成为当代人获取信息的最主要的来源,通过对情感文本进行处理可以更好的了解用户的情感倾向和关注要点,然而各大平台用户评价的不断激增致使以往对评论进行处理的方式成本消耗过大、错误率不容忽视,所以如何使用更先进的自动化分析工具对评论文本进行分析处理已经成为一个亟待解决的问题。粗粒度情感分析模型是指对整个句子和整个篇章进行分析,然而对于用户评论来讲,在评论时不但有评论文本,还包括一些用户信息和产品信息,目前的情感分析模型并未考虑将这些用户信息包括到建模过程中;同时文本包括词级、句级、篇章级等特征,现有模型无法捕捉多层次文本信息。
技术实现思路
专利技术目的:本专利技术提供一种基于层次网络的领域自适应词嵌入的情感分析方法,能帮助商家和平台识别用户情感倾向,用作后续推荐系统的构建,在电子商务领域有很广阔的应用前景。技术方案:本专利技术所述的一种基于层次网络的领域自适应词嵌入的情感分析方法,具体包括以下步骤:(1)预先获取文档级情感分析的用户评论数据集;(2)对评论数据集统一格式并进行无用字符清理;(3)采用领域自适应词嵌入模块、双向长短期记忆网络以及注意力机制构建基于层次网络的领域自适应词嵌入的情感分析模型;(4)对模型进行训练,数据沿着神经网络正向传播,所有网络在输出时进行多元信息的融合,反向传播时通过对损失函数求偏导对参数进行实时更新,在模型测试时利用训练过程中得到的已配置好参数的模型进行情感极性分析。进一步地,所述步骤(2)实现过程如下:将情感数据集表示为G=[(t1,y1),(t2,y2),…,(tn,yn)],其中ti表示数据集中第i个样本,yi是样本对应的标签,n是样本的总数;ti表示为{ui,pi,di}的形式,其中ui代表对应的用户信息,pi代表对应的产品信息,di代表对应的文本信息。进一步地,所述步骤(3)包括以下步骤:(31)将步骤(2)中处理好的评论文本送至领域自适应词嵌入模块,得到能体现用户偏好和产品信息的单词词向量;(32)将单词向量送至双向长短期记忆网络进行文本特征提取;(33)将文本特征通过注意力机制来按照重要性进行加权排序,获取句粒度文本特征;(34)将步骤(33)处理后的句粒度文本特征再输入至(32)中来获取篇章粒度的文本特征;(35)将步骤(34)处理后的篇章级文本特征通过注意力机制来按照重要性进行加权排序,得到所需篇章级文本特征。进一步地,所述步骤(4)通过以下公式实现:y=softmax(Wcd2+bc)其中,softmax进行归一化,旨在求得一个概率,d2为原数据经处理后的得到的文本特征,Wc和bc分别为权重和偏差,Loss为最小交叉熵损失函数,N是总文本数,C是分类类别数,pj为实际类别,yj为预测类别,λ||Θ||2为正则化项。进一步地,步骤(31)所述的领域自适应词嵌入模块是在不含用户信息和产品信息的词向量的基础上加入一个包含用户信息和产品信息的偏差。有益效果:与现有技术相比,本专利技术的有益效果:1、在传统情感分析的基础上,额外考虑了用户信息和产品信息,提高评论情感分析的效果;2、帮助商家和平台识别用户情感倾向,可以用作后续推荐系统的构建,在电子商务领域有很广阔的应用前景。附图说明图1是本专利技术的方法流程图;图2是基于层次网络的领域自适应词嵌入的情感分析模型结构示意图。具体实施方式下面结合附图对本专利技术作进一步的详细描述。本实施方式采用开发平台选用Ubuntu16.04,深度学习开发框架选择pytorch3.6,如图1所示,具体包括以下步骤:步骤1,获取一定量文档级情感分析的用户评论文本。语料的获取过程如下所示:收集电商平台(如美团、淘宝、京东等),构建粗粒度情感分析用户评论数据集;或利用现有的符合标准的粗粒度情感分析数据集作为本专利技术的数据集,本专利技术所需数据集中每条数据需包含用户信息、产品信息、评论文本、评论极性。本实施方式的数据集直接采用现有的公开数据集IMDB,该数据集包含84919条评论,包含1310个用户信息,1635个产品信息,最终将评论文本分成10类。数据集中每条数据包含用户id、产品信息、情绪级别和评论文本。步骤2,数据预处理。将数据集中每条数据的用户id、产品信息、情绪级别、评论文本用空格符隔开,进行无用字符清理并将全部单词转换成小写。统一每条数据的格式:将情感数据集表示为G=[(t1,y1),(t2,y2),…,(tn,yn)],其中ti表示数据集中第i个样本,yi是样本对应的标签,n是样本的总数。ti表示为{ui,pi,di}的形式,其中ui代表对应的用户信息,pi代表对应的产品信息,di代表对应的文本信息,将文本表示成计算机可以识别和处理的计算机语言。将ui和pi按照均匀分布U(-0.01,0.01)随机初始化为一个多维词向量ui和pi;将评论di按符号分成m个句子,即di={s1,s2,…,sm},每个句子含n个词,即si={w1,w2,w3,…,wn},通过预训练的词向量最终将di转化为词向量矩阵di。步骤3,模型构建。针对步骤2中处理好的评论文本构建一种基于层次网络的领域自适应词嵌入的情感分析模型,该模型采用领域自适应词嵌入模块、双向长短期记忆网络以及注意力机制,如图2所示,具体过程如下:步骤3.1,将步骤2中处理好的评论文本送至领域自适应词嵌入模块,得到能体现用户偏好和产品信息的单词词向量。考虑词级偏好偏差,如对于用户来讲,用户更喜欢使用“terrible”当做一个积极副词而不是这个词更常见的使用场景,即表示一种消极情感。本专利技术在步骤2的基础上为原始词向量添加一个偏差,优选地,该偏差是利用用户信息和产品信息的相关特征在原始词向量的基础上进行一个非线性转换。r=tanh(Wuwi+Wpwi)wi=wi+r其中,r是本文的词级偏好偏差,wi是原始词向量,Wu和Wp是对应用户和产品的权重向量。步骤3.2,将步骤3.1中得到的词向量送至双向长短期记忆网络进行文本特征提取。下面给出BiLSTM的具体结构和得到所需文本特征的具体计算流程:其中σ代表sigmoid函数,ft,it,ot分别对应t时刻的遗忘门,输入门以及输出门,wt是t时刻的输入,ct是t时刻单元的状态,ht表示t时刻LSTM的输出,ht-1是t-1时刻LSTM的输出。BiLSTM由一个前向LSTM和一个后向LSTM组成,最后合并两个方向上LSTM的结果得到所需的文本特征。其中和表示两个方向上的LSTM,和表示t时刻两个方向上L本文档来自技高网...

【技术保护点】
1.一种基于层次网络的领域自适应词嵌入的情感分析方法,其特征在于,包括以下步骤:/n(1)预先获取文档级情感分析的用户评论数据集;/n(2)对评论数据集统一格式并进行无用字符清理;/n(3)采用领域自适应词嵌入模块、双向长短期记忆网络以及注意力机制构建基于层次网络的领域自适应词嵌入的情感分析模型;/n(4)对模型进行训练,数据沿着神经网络正向传播,所有网络在输出时进行多元信息的融合,反向传播时通过对损失函数求偏导对参数进行实时更新,在模型测试时利用训练过程中得到的已配置好参数的模型进行情感极性分析。/n

【技术特征摘要】
1.一种基于层次网络的领域自适应词嵌入的情感分析方法,其特征在于,包括以下步骤:
(1)预先获取文档级情感分析的用户评论数据集;
(2)对评论数据集统一格式并进行无用字符清理;
(3)采用领域自适应词嵌入模块、双向长短期记忆网络以及注意力机制构建基于层次网络的领域自适应词嵌入的情感分析模型;
(4)对模型进行训练,数据沿着神经网络正向传播,所有网络在输出时进行多元信息的融合,反向传播时通过对损失函数求偏导对参数进行实时更新,在模型测试时利用训练过程中得到的已配置好参数的模型进行情感极性分析。


2.根据权利要求1所述的一种基于层次网络的领域自适应词嵌入的情感分析方法,其特征在于,所述步骤(2)实现过程如下:
将情感数据集表示为G=[(t1,y1),(t2,y2),…,(tn,yn)],其中ti表示数据集中第i个样本,yi是样本对应的标签,n是样本的总数;ti表示为{ui,pi,di}的形式,其中ui代表对应的用户信息,pi代表对应的产品信息,di代表对应的文本信息。


3.根据权利要求1所述的一种基于层次网络的领域自适应词嵌入的情感分析方法,其特征在于,所述步骤(3)包括以下步骤:
(31)将步骤(2)中处理好的评论文本...

【专利技术属性】
技术研发人员:李欣栩杨春霞张贺舒瞿涛吴佳君
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1