当前位置: 首页 > 专利查询>燕山大学专利>正文

一种基于迁移学习的方面级别情感分析方法及装置制造方法及图纸

技术编号:34552277 阅读:26 留言:0更新日期:2022-08-17 12:37
本发明专利技术公开一种基于迁移学习的方面级别情感分析方法及装置,属于自然语言处理技术领域,该方法包括获取方面级别的情感分析数据集并进行预处理,得到包含方面级别评价实体和上下文的样本序列,作为无标签数据;构建RoBERTa模型,使用无标签数据做掩码预测任务训练RoBERTa模型,得到完成此阶段训练任务的RoBERTa模型;获取文档级别情感数据集;对完成掩码预测预训练任务的RoBERTa模型,做文档级别情感分析任务训练此模型;构建融合评论文本信息、方面信息的句子对作为第二样本序列;将第二样本序列输入已完成文档级别情感分析任务的RoBERTa模型,输出情感类别标签,使其可以获得准确率更高的精度表现。获得准确率更高的精度表现。获得准确率更高的精度表现。

【技术实现步骤摘要】
一种基于迁移学习的方面级别情感分析方法及装置


[0001]本专利技术属于自然语言
,尤其涉及一种基于迁移学习的方面级别情 感分析方法及装置。

技术介绍

[0002]自然语言处理(Natural Language Processing,NLP)是为了让计算机理并 处理现实世界中的人类语言应运而生的人工智能技术,属于语言学与计算机科 学的交叉学科。情感分析是NLP中一个应用领域广泛,联系实际紧密并且富有 挑战性的任务。方面级别情感分析可以识别出样本数据中特定属性对应的情感 极性,例如评论文本“这个餐厅环境很优美,但是服务太糟糕。”分别针对环 境与服务两个方面术语提出了更具体的情感极性判别。近年来,研究者越来越 多的使用细粒度的文本情绪分类方法来根据社交网络和电商平台的评论数据来 进行决策。基于目标实体和上下文评论文本的方面级别情绪文本分类是一项细 粒度情感分析任务,进行数据集标注时需要大量的相关领域知识和专家级别的 注释工作。细粒度文本分类任务因缺乏高质量标签数据,训练出来的深度学习 模型泛化误差大,限制了模型在测试集情感极性判断的准确率提高本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于迁移学习的方面级别情感分析方法,其特征在于,包括:获取方面级别的情感分析数据集并进行预处理,去掉情感极性标签,得到包含方面级别评价实体和上下文的第一样本序列,作为无标签数据;构建RoBERTa模型,使用无标签数据做掩码预测任务训练RoBERTa模型,得到完成此阶段训练任务的RoBERTa模型;获取与方面级别情感分析相同场景下的文档级别情感数据集;对完成自监督掩码预测训练任务的RoBERTa模型,做文档级别情感分析任务训练此模型;再次获取方面级别情感分析数据集,构建融合评论文本信息、方面信息的句子对作为第二样本序列;将第二样本序列输入已完成文档级别情感分析任务的RoBERTa模型,进行方面级别情感分析,输出情感类别标签。2.根据权利要求1所述的一种基于迁移学习的方面级别情感分析方法,其特征在于,将所述第一样本序列中的每条评论文本转换为表格格式。3.根据权利要求1所述的一种基于迁移学习的方面级别情感分析方法,其特征在于,所述掩码预测任务训练RoBERTa模型包括:获取无标签数据的评论文本序列{w1,w2,.....w
n
‑1,w
n
}以百分十五的概率做随机掩码,得到掩码标志位;构建RoBERTa模型,做掩码预测的预训练任务训练RoBERTa模型,得到训练好的RoBERTa模型。4.根据权利要求1所述的一种基于迁移学习的方面级别情感分析方法,其特征在于,所述获取与方面级别情感分析相同场景下的文档级别情感数据集包括:获取文档级别情感分析数据集,根据评论对应的评分区间划分出情感极性类别,筛除空标签和评论文本乱码的样本,得到数据处理后相同场景下的文档级别情感分析数据集。5.根据权利要求1所述的一种基于迁移学习的方面级别情感分析方法,其特征在于,所述对完成自监督掩码预测训练任务的RoBERTa模型,做文档级别情感分析任务训练此模型包括:通过Transformer编码器的语言模型,捕获文档级别情感分析数据中评论文本不同层次的结构知识和语义信息,使用文档级别情感分析任务训练RoBERTa模型过程中设置分层学习率,用于...

【专利技术属性】
技术研发人员:侯培国夏宇同
申请(专利权)人:燕山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1