【技术实现步骤摘要】
一种基于深度多任务学习的细粒度文本观点分析方法
本专利技术属于文本分析领域,尤其涉及一种基于深度多任务学习的细粒度文本观点分析方法。
技术介绍
随着互联网用户的不断增加,用户所创造的内容数据呈爆炸增长。在用户生成的内容数据中,文本数据占大量比例,这些文本数据中所蕴藏的用户情感信息是十分重要的。如何从文本数据中挖掘情感至关重要,情感分析技术也就应运而生。情感分析技术是自然语言处理(NaturalLanguageProcessing,NLP)中一个重要方向,分为文档级情感分析、句子级情感分析和方面级情感分析。文档级和句子级针对整篇文档或整句话判断单一的情感极性,而方面级情感分析则用于解决细粒度的情感分析问题,对于每一条文本数据,识别其中的方面词并判断评论者对该方面的情感。例如对于饭店的评论“Greatfoodbuttheservicewasdreadful!”中,细粒度情感分析能够识别用户对方面词“food”的情感是正向的,而对于方面词“service”的评价却是负向的。细粒度情感分析在实际生产生活中有着重要作用 ...
【技术保护点】
1.一种基于深度多任务学习的细粒度文本观点分析方法,其特征在于,包括如下步骤:/n(1)输入文本序列,方面词及对应的情感极性等。/n(2)首先利用分词工具将步骤(1)输入的文本序列按照分词规范重新组合成具有独立含义的词序列,在词序列的开头和结尾分别添加“[CLS]”和“[SEP]”标志位;然后根据预先设定的最大句子长度,在未达到最大长度的词序列末尾作0填充,得到预处理后的词序列S。/n(3)通过序列标注的方式对预处理后的词序列S中每一个词作标注表示方面词位置;所述序列标注具体为标注方面词的开始位置、方面词的中间位置和非方面词位置;并对预处理后的词序列S中每一个词标注情感极性 ...
【技术特征摘要】
1.一种基于深度多任务学习的细粒度文本观点分析方法,其特征在于,包括如下步骤:
(1)输入文本序列,方面词及对应的情感极性等。
(2)首先利用分词工具将步骤(1)输入的文本序列按照分词规范重新组合成具有独立含义的词序列,在词序列的开头和结尾分别添加“[CLS]”和“[SEP]”标志位;然后根据预先设定的最大句子长度,在未达到最大长度的词序列末尾作0填充,得到预处理后的词序列S。
(3)通过序列标注的方式对预处理后的词序列S中每一个词作标注表示方面词位置;所述序列标注具体为标注方面词的开始位置、方面词的中间位置和非方面词位置;并对预处理后的词序列S中每一个词标注情感极性,方面词的情感极性包括正向情感、负向情感和中性情感,非方面词作特殊标注。
(4)将步骤(2)预处理后的词序列S输入细粒度文本观点分析模型结合步骤(3)标注的方面词位置和情感极性进行训练;所述细粒度文本观点分析模型包括BERT模型、方面词抽取网络和情感极性判别网络;所述细粒度文本观点分析模型的损失函数为方面词抽取网络的损失函数与情感极性判别网络的损失函数之和;其中,所述方面词抽取网络的损失函数为最大似然函数;所述情感极性判别网络的损失函数为交叉熵损失函数,且在步骤(3)中作特殊标注的非方面词的情感极性不计入该损失函数。
(5)将待测文本序列经过步骤(2)预处理得到词序列,输入步骤(4)训练得到的细粒度文本观点分析模型,得...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。