当前位置: 首页 > 专利查询>中南大学专利>正文

聚焦属性相关文本的属性级情感分类方法技术

技术编号:25346531 阅读:54 留言:0更新日期:2020-08-21 17:05
本发明专利技术提供了一种聚焦属性相关文本的属性级情感分类方法,包括:步骤1,对数据进行预处理使得数据中的每个样本包含属性X

【技术实现步骤摘要】
聚焦属性相关文本的属性级情感分类方法
本专利技术涉及数据处理
,特别涉及一种聚焦属性相关文本的属性级情感分类方法。
技术介绍
随着移动互联网时代的到来,数以亿计的网民越来越倾向于在微博、知乎等互联网社交平台和淘宝、京东等购物网站上公开发表自己的观点和评论。研究如何从这些观点和评论中抽取出有价值的信息对于整个社会来说是十分重要的。为了解决这个问题,情感分析方法被认为是一种有效的解决方案,并且已经成功应用到了舆情监督、民意调查、口碑分析和市场情绪分析等领域。情感分析方法按粒度来划分一般可以分为文档及情感分析方法、句子级情感分析方法和属性级情感分析方法。但是,文档级情感分析方法和句子级情感分析方法仅针对文本的整体情感倾向进行分析,无法得到文本中特定实体(属性词)的情感倾向。为了克服传统情感分析无法得到文本中属性词情感倾向的问题,研究人员尝试使用属性级情感分析方法来解决这个问题。目前,有许多网络结构被应用于属性级情感分析,其中效果较好、使用较广泛的是Attention-LSTM网络。具体的,LSTM结构能够学习到蕴含在文本中的语义信息,A本文档来自技高网...

【技术保护点】
1.一种聚焦属性相关文本的属性级情感分类方法,其特征在于,包括:/n步骤1,对数据进行预处理使得数据中的每个样本包含属性X

【技术特征摘要】
1.一种聚焦属性相关文本的属性级情感分类方法,其特征在于,包括:
步骤1,对数据进行预处理使得数据中的每个样本包含属性Xa和上下文Xc,通过Bert预训练模型来获得属性和上下文的文本表征序列和其中,M和N分别代表输入样本中属性的个数和上下文的长度;
步骤2,将上下文的文本表征序列Ec复制一份,将第一份上下文的文本表征序列Ec与属性的文本表征序列Ea进行拼接,得到全局上下文的文本表征序列Eac,再对全局上下文的文本表征序列Eac使用双向长短时记忆网络和多头自注意力机制进行特征提取,得到全局上下文隐藏状态序列对第二份上下文的文本表征序列Ec直接使用双向长短时记忆网络和多头自注意力机制进行特征提取,得到上下文隐藏状态序列
步骤3,使用掩盖方法对上下文隐藏状态序列进行操作,得到属性相关文本的隐藏序列Hf,将隐藏序列Hf与属性的文本表征序列Ea进行拼接,得到属性上下文序列Eaf,对属性上下文序列Eaf使用长短时记忆网络与多头自注意力机制进行特征提取,得到隐藏状态序列
步骤4,将得到的隐藏状态序列与进行拼接,得到序列向量对序列向量执行最大池化操作,再使用多头自注意力机制进行特征提取,得到隐藏状态序列
步骤5,将得到的隐藏状态序列输入到采取Sigmoid激活函数的全连接层中,得到模型预测结果
步骤6,定义模型的损失进行模型评估与优化。


2.根据权利要求1所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤1具体包括:
通过Bert预训练模型得到的文本表征序列,动态的表征文本中每个词的词向量,获取文本表征向量的公式如下所示:
Ea=Berta(Xa)(I)
Ec=Bertc(Xc)(2)
其中,Ea和Ec分别是属性和上下文的文本表征序列,Berta和Bertc分别是属性和上下本的相应Bert预训练模型。


3.根据权利要求2所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤2具体包括:
Ea和Ec拼接过程可以用如下公式表示:



其中,Eac是全局上下文的文本表征序列;
Bi-LSTM的特征抽取过程可以使用如下公式表示:






其中,为上下文隐藏状态序列,为全局上下文隐藏状态序列。


4.根据权利要求3所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤2还包括:
Bi-LSTM的特征抽取过程可以由以下公式详细表示,以处理Ec为例:









其中,表示的是向前的LSTM输出的隐藏状态表示,表示的是向后的LSTM输出的隐藏状态表示,将和进行拼接得到了该文本序列的隐藏状态表示


5.根据权利要求4所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤2还包...

【专利技术属性】
技术研发人员:邓晓衡李练刘奥
申请(专利权)人:中南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1