一种基于双阶段扩散模型的情感分析数据增强方法技术

技术编号:46616501 阅读:0 留言:0更新日期:2025-10-14 21:12
本发明专利技术涉及数据处理领域,尤其涉及一种基于双阶段扩散模型的情感分析数据增强方法,包括:获取原始评论文本数据集并预处理;建立Transformer模型和Diffusion模型进行预训练;将量化文本表示输入到训练好的Transformer模型中,实现全局语义表征的建模与提取;采用训练好的Diffusion模型在全局语义表征的嵌入空间提取得到伪样本;构建基于Diffusion架构的奖励评估模型,筛选出最优样本并合并至原始数据集中。本发明专利技术的有益效果在于:提升了模型对复杂情感语义的理解能力,直接扩充高质量、多样化且情感特征鲜明的文本情感数据,有效解决了情感分析任务中数据确数据稀缺和分布不均衡的问题。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,尤其涉及一种基于双阶段扩散模型的情感分析数据增强方法


技术介绍

1、情感分析作为自然语言处理领域的一个重要分支,旨在通过文本数据识别和理解人类情感倾向。在情感分析实践中,高质量、多样化的训练样本对于模型性能提升具有关键作用。然而,当前情感分析面临一系列显著挑战,其中最为突出的是专业领域数据的稀缺性和标注成本高昂问题。真实场景中的情感表达往往与通用语料存在明显差异,最为相似的是社交媒体文本和评论数据。但专业领域情感文本除了包含常规的情感词汇外,还具有领域特定的表达方式和隐含语义规则,如医疗领域的症状描述隐含焦虑情绪、金融市场的专业术语隐含投资者情感倾向等。这使得传统的样本生成方法难以满足需求。

2、传统情感分析数据增强方法主要基于规则替换或预训练语言模型生成。这些方法无法有效捕捉专业领域特有的语言风格和情感表达模式,尤其是那些具有领域知识背景的隐含情感线索。面对这一问题,针对情感数据的特殊性,现有研究提出了多种解决方案。有的工作将领域知识融入生成模型,利用外部知识图谱指导文本生成;也有的工作采用对抗生成网络,通过判别本文档来自技高网...

【技术保护点】

1.一种基于双阶段扩散模型的情感分析数据增强方法,其特征在于包括以下步骤:

2.根据权利要求1所述的一种基于双阶段扩散模型的情感分析数据增强方法,其特征在于,所述步骤(1)中原始评论文本数据集预处理包括:对原始评论文本数据集中的离散文本进行分布式表征学习,嵌入后进行归一化处理得到统一的量化文本表示。

3.根据权利要求2所述的一种基于双阶段扩散模型的情感分析数据增强方法,其特征在于,所述离散文本为原始评论文本对应的细粒度四元组标注。

4.根据权利要求1所述的一种基于双阶段扩散模型的情感分析数据增强方法,其特征在于,所述步骤(2)中Transformer模...

【技术特征摘要】

1.一种基于双阶段扩散模型的情感分析数据增强方法,其特征在于包括以下步骤:

2.根据权利要求1所述的一种基于双阶段扩散模型的情感分析数据增强方法,其特征在于,所述步骤(1)中原始评论文本数据集预处理包括:对原始评论文本数据集中的离散文本进行分布式表征学习,嵌入后进行归一化处理得到统一的量化文本表示。

3.根据权利要求2所述的一种基于双阶段扩散模型的情感分析数据增强方法,其特征在于,所述离散文本为原始评论文本对应的细粒度四元组标注。

4.根据权利要求1所述的一种基于双阶段扩散模型的情感分析数据增强方法,其特征在于,所述步骤(2)中transformer模型和diffusion模型并行完成独立预训练,具体包括以下步骤:

5.根据权利要求4所述的一种基于双阶段扩散模型的情感分析数据增强方法,其特征在于,所述损失函数包括第一损失函数、第二损失函数、第三损失函数及第四损失函数;所述第一损失函数为:根据最终生成的情感样本以及预处理后的原始样本,采用边缘均值损失函数计算损失值,目标为最小化变分下限;所述第二损失函数、第三损失函数为:根据全局语义表征标签和量化文本表示标签,采用相似度对比交叉...

【专利技术属性】
技术研发人员:朱李楠陈祥钒孔祥杰沈国江刘志陈建林徐梦菲邵齐·穆罕默德·马里尔
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1