当前位置: 首页 > 专利查询>复旦大学专利>正文

一种端到端的基于方面的情感分析方法技术

技术编号:24996918 阅读:68 留言:0更新日期:2020-07-24 17:59
本发明专利技术公开了一种端到端的基于方面的情感分析方法,包含如下步骤:S1,确定情感分析的数据集,所述数据集包括训练集、验证集和测试集;S2,读入数据集,对数据集进行标记,并导入词向量;S3,通过pytorch库搭建设计的模型,输入相应的数据,并得到相应的输出;S4,利用训练集,验证集对模型进行训练,得到训练好的模型进而得到情感分析结果。本发明专利技术不需要任何辅助结构的模型,通俗易懂,结构比较简单,而且解决了上述的那些辅助结构解决的问题,模型的效果更好。

【技术实现步骤摘要】
一种端到端的基于方面的情感分析方法
本专利技术涉及自然语言处理领域,特别涉及一种端到端的基于方面的情感分析方法。
技术介绍
情感分析主要应用与互联网产生的大量非结构化数据,通过情感分析技术,将其转换为结构化数据,从而得到网友对于一些事情事物的看法及态度,在商业应用以及舆情分析中有着很重要的应用。通常,在分析目标的情感时,可能不仅对整体的情感态度感兴趣,而且对目标的各个方面的情感态度有兴趣,而这就是基于方面的情感分析。现在的主要情感分析方法有基于字典的跟机器学习的。其中机器学习领域中的深度学习应用更加广泛,被越来越多的研究人员研究。但是目前的情感分析的深度学习模型比较复杂,利用了各种辅助结构,模型比较繁琐。例如为了解决方面短语跟观点短语关系以及标签序列之间的关系,分别引入辅助结构去解决问题。为了解决以上的问题,我们提供了一种端到端的基于方面的情感分析方法。上述系统是一种端到端的,不需要任何辅助结构的模型,模型通俗易懂,结构比较简单,而且解决了上述的那些辅助结构解决的问题,模型的效果更好。
技术实现思路
本专利技术的目的是提供一种端到端的基于方面的情感分析方法,不需要任何辅助结构的模型,通俗易懂,结构比较简单,而且解决了上述的那些辅助结构解决的问题,模型的效果更好。为了实现以上目的,本专利技术是通过以下技术方案实现的:一种端到端的基于方面的情感分析方法,其特点是,包含如下步骤:S1,确定情感分析的数据集,所述数据集包括训练集、验证集和测试集;S2,读入数据集,对数据集进行标记,并导入词向量;S3,通过pytorch库搭建设计的模型,输入相应的数据,并得到相应的输出;S4,利用训练集,验证集对模型进行训练,得到训练好的模型进而得到情感分析结果。所述的步骤S2包括:S2.1,将数据集读入内存,并将数据集进行小写处理,同时将数据集的标签转换为符合的标签;S2.2,创建字典以及标签集合,并进行标记,同时将数据集的输入语句以及对应的标签序列进行标记;S2.3,读入预训练好的词向量。所述的步骤S3包括:S3.1,搭建查找表,将数据集的输入语句进行向量化,将自然文本转化为计算机可以理解的数据;S3.2,搭建双向长短期记忆网络层,所述的双向长短期记忆网络层输入词向量,并输出是网络的隐藏状态,该隐藏状态包含输入语句的语义信息跟语法信息;S3.3,搭建自注意力网络层,所述的自注意力网络层输入网络的隐藏状态,并输出一n*n矩阵,其中n是输入语句的长度,所述的n*n矩阵表示输入语句各个词之间的相互作用关系;S3.4,搭建条件随机场层,所述的条件随机场层利用转移矩阵得到将输入n*n矩阵转换为语句的标签序列之间的关系。所述的步骤S3.4包括:设置一全连接层,所述的全连接层将n*n矩阵变化得到一n*k矩阵,其中k是标签集合的元素个数;条件随机场层输入所述的n*k矩阵输出输入语句的所有标签序列的得分,并根据得分最终计算得到损失函数。所述的词向量为Glove词向量。所述的步骤S4后还包括:S5,利用测试集测试模型的性能,并分析测试结果。本专利技术与现有技术相比,具有以下优点:对非结构化的自然文本进行情感分析,通过构建端到端的模型,没有使用辅助结构。模型简单明了,效果显著,更易让人理解接受,便于使用。附图说明图1为本专利技术的模型结构图。图2是本专利技术中使用的自注意力网络结构图。图3是本专利技术的模型使用流程图。具体实施方式以下结合附图,通过详细说明一个较佳的具体实施例,对本专利技术做进一步阐述。在下文中结合图示在参考实施例中更完全地描述本专利技术,本专利技术提供优选实施例,但不应该被认为仅限于在此阐述的实施例。图1是本模型的结构图。为了训练本模型,需要按照训练步骤进行训练。步骤如下:步骤1:确定情感分析的数据集,所述数据集包括训练集,验证集,测试集。步骤2-1:将数据集读入内存,并将数据集进行小写处理,同时将数据集的标签转换为符合的标签。步骤2-2:创建字典以及标签集合,并进行标记。同时将数据集的输入语句以及对应的标签序列进行标记。步骤2-3:读入预训练好的词向量,这里我们使用Glove词向量,也可以使用其他预训练好的词向量。步骤3:模型已经搭建好,可以直接使用搭建好的模型;S3.1,搭建查找表,将数据集的输入语句进行向量化,将自然文本转化为计算机可以理解的数据;S3.2,搭建双向长短期记忆网络层,所述的双向长短期记忆网络层输入词向量,并输出是网络的隐藏状态,该隐藏状态包含输入语句的语义信息跟语法信息;S3.3,搭建自注意力网络层,所述的自注意力网络层输入网络的隐藏状态,并输出一n*n矩阵,其中n是输入语句的长度,所述的n*n矩阵表示输入语句各个词之间的相互作用关系;得到方面短语以及对应的观点短语之间的关系;该网络层的输入是上一层双向长短期记忆网络层的输出,即网络的隐藏状态,输出是一个n*n的矩阵(n是输入语句的长度),该矩阵表示输入语句各个词之间的相互作用关系;S3.4,搭建条件随机场层,所述的条件随机场层利用转移矩阵得到将输入n*n矩阵转换为语句的标签序列之间的关系。条件随机场的输入是一个n*k的矩阵(k是标签集合的元素个数),表示输入语句各个词的所有标签的相应概率值,该矩阵是自注意力网络层n*n输出矩阵经过一个全连接层线性变化得到的。进一步地,上述的步骤S3.4包括:设置一全连接层,所述的全连接层将n*n矩阵变化得到一n*k矩阵,其中k是标签集合的元素个数,;条件随机场层输入所述的n*k矩阵输出输入语句的所有标签序列的得分,并根据得分最终计算得到损失函数。步骤4:进行训练,利用训练集,验证集对模型进行训练,得到训练好的模型进而得到情感分析结果。步骤5:利用测试集测试模型的性能,并分析测试结果。图2是本模型使用的自注意力网络结构图。自从自注意力网络专利技术以来,有越来越多的自注意力网络变型结构,其结果目的也不相同。本模型使用的自注意力网络模型就是其中一种,用来发现句子各词语之间的语义关系,并将其表示为权重,用于后续计算。如图所示,QKV是长短期记忆网络输出的隐藏状态,自注意力网络中,Q=K=V。接着对QK进行矩阵乘法。接着是对矩阵乘法结果进行数值变换。然后将输入语句的当前状态的后续词语遮掩。最后是进行数值归一化。图3是本模型的使用流程图。首先是需要获取需要进行情感分析的数据,这取决于使用者本人的目的。其次是需要将数据处理成模型需要的格式。本模型适用于英文的情感分析,输入是句子。在输入前,需要将句子进行小写化处理,同时将所有数字替换为0。下一步就是决定是否使用预训练好的模型,若使用预训练好的模型,则可以直接输入语句,并得到情感分析结果。或者为了得到更好的结果,可以重新训练模型,并进行网络微本文档来自技高网...

【技术保护点】
1.一种端到端的基于方面的情感分析方法,其特征在于,包含如下步骤:/nS1,确定情感分析的数据集,所述数据集包括训练集、验证集和测试集;/nS2,读入数据集,对数据集进行标记,并导入词向量;/nS3,通过pytorch库搭建设计的模型,输入相应的数据,并得到相应的输出;/nS4,利用训练集,验证集对模型进行训练,得到训练好的模型进而得到情感分析结果。/n

【技术特征摘要】
1.一种端到端的基于方面的情感分析方法,其特征在于,包含如下步骤:
S1,确定情感分析的数据集,所述数据集包括训练集、验证集和测试集;
S2,读入数据集,对数据集进行标记,并导入词向量;
S3,通过pytorch库搭建设计的模型,输入相应的数据,并得到相应的输出;
S4,利用训练集,验证集对模型进行训练,得到训练好的模型进而得到情感分析结果。


2.如权利要求1所述的端到端的基于方面的情感分析方法,其特征在于,所述的步骤S2包括:
S2.1,将数据集读入内存,并将数据集进行小写处理,同时将数据集的标签转换为符合的标签;
S2.2,创建字典以及标签集合,并进行标记,同时将数据集的输入语句以及对应的标签序列进行标记;
S2.3,读入预训练好的词向量。


3.如权利要求1所述的端到端的基于方面的情感分析方法,其特征在于,所述的步骤S3包括:
S3.1,搭建查找表,将数据集的输入语句进行向量化,将自然文本转化为计算机可以理解的数据;
S3.2,搭建双向长短期记忆网络层,所述的双向长短期记忆网...

【专利技术属性】
技术研发人员:董永川邹乔莎史传进
申请(专利权)人:复旦大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1