文本数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:23315169 阅读:61 留言:0更新日期:2020-02-11 17:49
本申请实施例公开了一种文本数据处理方法、装置、电子设备及存储介质,该方法包括:获取待分类文本数据,从中提取方面特征词,获取待分类文本数据的文本词向量表示以及方面特征词的方面特征词向量表示,并分别输入目标神经网络,得到文本词向量表示的第一隐藏层含义和方面特征词向量表示的第二隐藏层含义,基于第一隐藏层含义和第二隐藏层含义,得到方面特征词的目标分类特征,根据方面特征词的目标分类特征,获取方面特征词的预测情感极性,根据预测情感极性对待分类文本数据进行情感分类,以得到方面特征词对应的情感分类结果并显示。本申请基于注意力机制和神经网络对方面特征词的情感极性实现了准确判断。

Text data processing method, device, electronic equipment and storage medium

【技术实现步骤摘要】
文本数据处理方法、装置、电子设备及存储介质
本申请涉及自然语言处理
,更具体地,涉及一种文本数据处理方法、装置、电子设备及存储介质。
技术介绍
情感分析是自然语言处理中的一项基本任务,可以用来挖掘用户的意见,进行数据分析、舆情监控等任务。情感分析又可分为情感信息的抽取、情感信息的分类以及情感信息的检索与归纳。其中,情感分类是指根据文本所表达的含义和情感信息将文本划分成褒扬的或贬义的两种或几种类型,是对文本作者倾向性和观点、态度的划分。但一个句子针对不同方面可能涉及多种不同的情感,目前在对包含多种情感或多个方面的文本进行情感分类时,存在局限性。
技术实现思路
本申请提出了一种文本数据处理方法、装置、电子设备及存储介质,以改善上述缺陷。第一方面,本申请实施例提供了一种文本数据处理方法,所述方法包括:获取待分类文本数据;从所述待分类文本数据中提取方面特征词;获取所述待分类文本数据的文本词向量表示以及所述方面特征词的方面特征词向量表示;将所述文本词向量表示和所述方面特征词向量表示分别输入目标神经网络,得到所述文本词向量表示的第一隐藏层含义和所述方面特征词向量表示的第二隐藏层含义,其中,所述目标神经网络被预先训练,用于根据输入的词向量表示,输出所述词向量表示的隐藏层含义;基于所述第一隐藏层含义和所述第二隐藏层含义,得到所述方面特征词的目标分类特征;根据所述方面特征词的目标分类特征,获取所述方面特征词的预测情感极性;根据所述预测情感极性对所述待分类文本数据进行情感分类,以得到所述方面特征词对应的情感分类结果并显示。第二方面,本申请实施例还提供了一种文本数据处理装置,所述装置包括:文本获取模块,用于获取待分类文本数据;文本提取模块,用于从所述待分类文本数据中提取方面特征词;表示获取模块,用于获取所述待分类文本数据的文本词向量表示以及所述方面特征词的方面特征词向量表示;网络学习模块,用于将所述文本词向量表示和所述方面特征词向量表示分别输入目标神经网络,得到所述文本词向量表示的第一隐藏层含义和所述方面特征词向量表示的第二隐藏层含义,其中,所述目标神经网络被预先训练,用于根据输入的词向量表示,输出所述词向量表示的隐藏层含义;目标分类模块,用于基于所述第一隐藏层含义和所述第二隐藏层含义,得到所述方面特征词的目标分类特征;情感预测模块,用于根据所述方面特征词的目标分类特征,获取所述方面特征词的预测情感极性;情感分类模块,用于根据所述预测情感极性对所述待分类文本数据进行情感分类,以得到所述方面特征词对应的情感分类结果并显示。第三方面,本申请实施例还提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行上述第一方面所述的方法。第四方面,本申请实施例还提供了一种计算机可读取存储介质,计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述第一方面所述的方法。本申请提供的文本数据处理方法、装置、电子设备及存储介质,通过获取待分类文本数据,然后从待分类文本数据中提取方面特征词,接着获取待分类文本数据的文本词向量表示以及方面特征词的方面特征词向量表示,并将文本词向量表示和方面特征词向量表示分别输入目标神经网络,得到文本词向量表示的第一隐藏层含义和方面特征词向量表示的第二隐藏层含义,其中,目标神经网络被预先训练,用于根据输入的词向量表示,输出词向量表示的隐藏层含义,然后基于第一隐藏层含义和第二隐藏层含义,得到方面特征词的目标分类特征,再根据方面特征词的目标分类特征,获取方面特征词的预测情感极性,最后根据预测情感极性对待分类文本数据进行情感分类,以得到方面特征词对应的情感分类结果并显示。由此,本申请提出了一种方面级别(AspectLevel)的基于神经网络的注意力机制模型,可以更好地获取方面特征词和待分类文本数据的交互信息并充分利用,从而提高方面级别文本情感分类的准确度。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了本申请一实施例提供的文本数据处理方法的方法流程图;图2示出了本申请另一实施例提供的文本数据处理方法的方法流程图;图3示出了本申请另一实施例提供的文本数据处理方法中步骤S2051至步骤S2053的方法流程图;图4示出了本申请另一实施例提供的文本数据处理方法中步骤S2081至步骤S2083的方法流程图;图5示出了本申请另一实施例提供的文本数据处理方法的流程示意图;图6示出了本申请实施例提供的文本数据处理装置的模块框图;图7示出了本申请实施例提供的电子设备的结构框图;图8示出了本申请实施例的用于保存或者携带实现根据本申请实施例的文本数据处理方法的程序代码的存储单元。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。情感分类包括三种不同级别,分别是文档级别、句子级别和方面级别(AspectLevel)。其中,文档级情感分类将观点鲜明的文档(例如,产品评论)分类为整体积极的或消极的观点。它将整个文档当做基本的信息单元,并假定文档是观点鲜明的,包含对单个实体(例如,某个型号的手机)的观点。句子级情感分类对文档内单独的语句进行分类。然而,单独的句子不能假定为观点鲜明的。和文档级、语句级情感分类相比,方面级别的情感分类更加细粒化。它的任务是提取和总结人们对某实体的观点以及实体(也被称为目标、方面特征词(Aspect))的特征。例如一篇产品评论,方面级别的情感分类的目的是分别总结对产品或事件不同方面的积极和消极观点。当一个句子中存在多个方面特征词的情况下,为了分析不同方面特征词的情感极性,我们需要一个特定的模型来完成任务,这与传统的情感分类模型不同。例如,在评论句子“餐厅的食物味道很好,但是服务员的服务态度很差”中,有两个方面特征词:“味道”和“服务态度”,其中“味道”的情感极性是积极的,而“服务态度”的情感极性是消极的。该例子的整个句子的情感极性由积极和消极两种组成。如果我们不考虑方面特征词的信息,就很难判断这个句子的情感极性,这种类型的错误通常存在于一般的情感分类任务中。目前,一般基于IAN模型处理情感分类任务,该模型使用两个长短期记忆网络(longshort-termmemory,LSTM)分别对方面特征词和它的上下文进行建模。它使用方面特征词和其上下文的隐藏状态为目标生成注意向量。基于这两个注意向量,进行运算得到最终的表示向量。具体步骤如下:步骤一:获得方面特征词和其上下文的词嵌入矩阵。步骤二:使用两个LSTM来学习方面特征词和其上下文的本文档来自技高网
...

【技术保护点】
1.一种文本数据处理方法,其特征在于,所述方法包括:/n获取待分类文本数据;/n从所述待分类文本数据中提取方面特征词;/n获取所述待分类文本数据的文本词向量表示以及所述方面特征词的方面特征词向量表示;/n将所述文本词向量表示和所述方面特征词向量表示分别输入目标神经网络,得到所述文本词向量表示的第一隐藏层含义和所述方面特征词向量表示的第二隐藏层含义,其中,所述目标神经网络被预先训练,用于根据输入的词向量表示,输出所述词向量表示的隐藏层含义;/n基于所述第一隐藏层含义和所述第二隐藏层含义,得到所述方面特征词的目标分类特征;/n根据所述方面特征词的目标分类特征,获取所述方面特征词的预测情感极性;/n根据所述预测情感极性对所述待分类文本数据进行情感分类,以得到所述方面特征词对应的情感分类结果并显示。/n

【技术特征摘要】
1.一种文本数据处理方法,其特征在于,所述方法包括:
获取待分类文本数据;
从所述待分类文本数据中提取方面特征词;
获取所述待分类文本数据的文本词向量表示以及所述方面特征词的方面特征词向量表示;
将所述文本词向量表示和所述方面特征词向量表示分别输入目标神经网络,得到所述文本词向量表示的第一隐藏层含义和所述方面特征词向量表示的第二隐藏层含义,其中,所述目标神经网络被预先训练,用于根据输入的词向量表示,输出所述词向量表示的隐藏层含义;
基于所述第一隐藏层含义和所述第二隐藏层含义,得到所述方面特征词的目标分类特征;
根据所述方面特征词的目标分类特征,获取所述方面特征词的预测情感极性;
根据所述预测情感极性对所述待分类文本数据进行情感分类,以得到所述方面特征词对应的情感分类结果并显示。


2.根据权利要求1所述的方法,其特征在于,所述目标神经网络包括双向长短期记忆网络。


3.根据权利要求1或2所述的方法,其特征在于,所述目标神经网络包括第一神经网络和第二神经网络,所述将所述文本词向量表示和所述方面特征词向量表示分别输入目标神经网络,得到所述文本词向量表示的第一隐藏层含义和所述方面特征词向量表示的第二隐藏层含义,包括:
将所述文本词向量表示输入所述第一神经网络,得到所述文本词向量表示的第一隐藏层含义;
将所述方面特征词向量表示输入所述第二神经网络,得到所述方面特征词向量表示的第二隐藏层含义。


4.根据权利要求1所述的方法,其特征在于,所述基于所述第一隐藏层含义和所述第二隐藏层含义,得到所述方面特征词的目标分类特征,包括:
基于所述第一隐藏层含义和所述第二隐藏层含义,得到第一矩阵和第二矩阵,其中,所述第一矩阵为所述待分类文本数据对所述方面特征词的注意力矩阵,所述第二矩阵为所述方面特征词对所述待分类文本数据的注意力矩阵;
根据所述第一矩阵和所述第二矩阵,得到所述待分类文本数据和所述方面特征词的相互注意力;
基于所述相互注意力,得到所述方面特征词的目标分类特征。


5.根据权利要求4所述的方法,其特征在于,所述基于所述第一隐藏层含义和所述第二隐藏层含义,得到第一矩阵和第二矩阵,包括:
对所述第一隐藏层含义和所述第二隐藏层含义分别求平均,得到所述待分类文本数据的文本初始表示和所述方面特征词的方面特征词初始表示;
将所述文本初始表示和所述方面特征词初始表示相乘得到初始矩阵;
将所述初始矩阵的行和列分别基于softmax函数,得到所述第一...

【专利技术属性】
技术研发人员:姜楠田芳李进万涛黄伟
申请(专利权)人:华东交通大学
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1