一种基于深度多任务学习的细粒度文本观点分析方法技术

技术编号：24708166 阅读：50 留言：0更新日期：2020-06-30 23:59

本发明专利技术公开了一种基于深度多任务学习的细粒度文本观点分析方法，该方法基于深度神经网络BERT，通过多任务学习的方法，提取文本中被评论的方面词，并判断该方面词的情感极性。首先利用分词工具将文本分为一串词序列；将词序列输入BERT网络，获得BERT每一层的隐藏层输出；将BERT中间层的隐藏层输出输入到一个全连接网络加条件随机场的神经网络中，通过序列标注的方法得到文本中方面词的结果；将BERT最高层的隐藏层输出输入到一个三元分类器中，得到文本中每一个词的情感极性；将方面词结果和情感极性判别结果组合，得到最终文本的细粒度情感分析结果。这种方法不仅能够同时获取文本中方面词和对应的情感极性结果，而且使情感分析的准确率大大提升。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度多任务学习的细粒度文本观点分析方法
本专利技术属于文本分析领域，尤其涉及一种基于深度多任务学习的细粒度文本观点分析方法。
技术介绍
随着互联网用户的不断增加，用户所创造的内容数据呈爆炸增长。在用户生成的内容数据中，文本数据占大量比例，这些文本数据中所蕴藏的用户情感信息是十分重要的。如何从文本数据中挖掘情感至关重要，情感分析技术也就应运而生。情感分析技术是自然语言处理(NaturalLanguageProcessing，NLP)中一个重要方向，分为文档级情感分析、句子级情感分析和方面级情感分析。文档级和句子级针对整篇文档或整句话判断单一的情感极性，而方面级情感分析则用于解决细粒度的情感分析问题，对于每一条文本数据，识别其中的方面词并判断评论者对该方面的情感。例如对于饭店的评论“Greatfoodbuttheservicewasdreadful！”中，细粒度情感分析能够识别用户对方面词“food”的情感是正向的，而对于方面词“service”的评价却是负向的。细粒度情感分析在实际生产生活中有着重要作用...

【技术保护点】
1.一种基于深度多任务学习的细粒度文本观点分析方法，其特征在于，包括如下步骤：/n(1)输入文本序列，方面词及对应的情感极性等。/n(2)首先利用分词工具将步骤(1)输入的文本序列按照分词规范重新组合成具有独立含义的词序列，在词序列的开头和结尾分别添加“[CLS]”和“[SEP]”标志位；然后根据预先设定的最大句子长度，在未达到最大长度的词序列末尾作0填充，得到预处理后的词序列S。/n(3)通过序列标注的方式对预处理后的词序列S中每一个词作标注表示方面词位置；所述序列标注具体为标注方面词的开始位置、方面词的中间位置和非方面词位置；并对预处理后的词序列S中每一个词标注情感极性，方面词的情感极性包...

【技术特征摘要】
1.一种基于深度多任务学习的细粒度文本观点分析方法，其特征在于，包括如下步骤：
(1)输入文本序列，方面词及对应的情感极性等。
(2)首先利用分词工具将步骤(1)输入的文本序列按照分词规范重新组合成具有独立含义的词序列，在词序列的开头和结尾分别添加“[CLS]”和“[SEP]”标志位；然后根据预先设定的最大句子长度，在未达到最大长度的词序列末尾作0填充，得到预处理后的词序列S。
(3)通过序列标注的方式对预处理后的词序列S中每一个词作标注表示方面词位置；所述序列标注具体为标注方面词的开始位置、方面词的中间位置和非方面词位置；并对预处理后的词序列S中每一个词标注情感极性，方面词的情感极性包括正向情感、负向情感和中性情感，非方面词作特殊标注。
(4)将步骤(2)预处理后的词序列S输入细粒度文本观点分析模型结合步骤(3)标注的方面词位置和情感极性进行训练；所述细粒度文本观点分析模型包括BERT模型、方面词抽取网络和情感极性判别网络；所述细粒度文本观点分析模型的损失函数为方面词抽取网络的损失函数与情感极性判别网络的损失函数之和；其中，所述方面词抽取网络的损失函数为最大似然函数；所述情感极性判别网络的损失函数为交叉熵损失函数，且在步骤(3)中作特殊标注的非方面词的情感极性不计入该损失函数。
(5)将待测文本序列经过步骤(2)预处理得到词序列，输入步骤(4)训练得到的细粒度文本观点分析模型，得...

【专利技术属性】
技术研发人员：王乾宇，蔡铭，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人