一种情感分析模型训练方法、装置和存储介质制造方法及图纸

技术编号:33721781 阅读:14 留言:0更新日期:2022-06-08 21:14
本申请涉及一种情感分析模型训练方法,包括:获取原始训练样本集;将所述原始训练样本集输入BT文本增强模块,得到第一训练样本集;将所述原始训练样本集输入EDA文本增强模块,得到第二训练样本集;将所述第一训练样本集和所述第二训练样本集输入到筛选融合模块,得到第三训练样本;将所述第三训练样本集输入到卷积神经网络模块,对所述卷积神经网络模块进行训练,得到所述情感分析模型。本申请实施例可以利用较小数据对模型进行训练,能达到大数据集对模型的训练效果。集对模型的训练效果。集对模型的训练效果。

【技术实现步骤摘要】
一种情感分析模型训练方法、装置和存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种情感分析模型训练方法。

技术介绍

[0002]随着生活水平提高,手机、平板等移动电子设备大规模普及,使互联 网的受众群体由少数变为大多数。人类与互联网的交互方式,也由传统的 鼠标、键盘,逐步转变为触摸屏、语音、手势等,使人们通过互联网沟通 交流更加便捷。互联网用户逐渐由之前信息被动接受者角色,转变为信息 创造者的角色。
[0003]种类繁多的网络平台在这种情况下应运而生,如微博、贴吧、淘宝、 京东、腾讯新闻,还有一些社交软件,如抖音、快手等。人们在通过这些 网络媒介接受外界信息,同时也通过这些网络媒介提供的各种评论功能, 书写、发表自己对某些事物的看法,这些网络平台成为人们交流和表达观 点的场所。因此这些网络平台保留了海量带有情感的文本信息,通过对这些 带感情倾向的文本进行情感分析,能够得出有价值的信息[2]。如果仅仅依 靠人力去搜集、统计和分析这些海量数据,对于那些具有很强时效性的信 息,要在较短时间得出结论,这显然不太现实。因此迫切的需要计算机能 够帮助人们搜集、统计和分析处理这些数据,并最终能够给出建议。
[0004]自从在技术上解决了深度学习网络模型的训练问题,卷积神经网络在 自然语言处理领域得到了广泛的应用。特别是卷积神经网络在图像方面取 得出色表现,研究者们开始考虑将卷积神经网络迁移到情感分析研究这个 方向,经过不断的研究表明卷积神经网络能很好的处理文本情感分析问题, 卷积神经网络在文本情感分析领域开始得到广泛应用。
[0005]神经网络模型性能的优劣,最终主要取决于对其训练的数据集,但是 在实际训练场景中,就会遇到训练集不足的问题,导致模型欠拟合,模型 的最终训练结果不能使人满意;面临着文本分类任务中各类别样本数目不 均衡,例如在分类中一组包含数据300条,另外一类包含数据10000条, 数据面临着严重的不均衡问题。这样训练出来的模型性能比较差,对小样 本处于欠拟合状态,在实际预测中对这一类给予的概率较低。该模型不能 迁移到新的数据集中对新数据集进行分析,模型训练是失败的。

技术实现思路

[0006]鉴于上述现有技术的不足,本申请的目的在于提供一种情感分析模型 训练方法,旨在提出一种适用于复杂的实际营销场景的情感分析模型训练 方法。
[0007]第一方面,本申请提供一种情感分析模型训练方法,包括:
[0008]获取原始训练样本集;
[0009]将所述原始训练样本集输入BT文本增强模块,得到第一训练样本集;
[0010]将所述原始训练样本集输入EDA文本增强模块,得到第二训练样本集;
[0011]将所述第一训练样本集和所述第二训练样本集输入到筛选融合模块, 得到第三
训练样本;
[0012]将所述第三训练样本集输入到卷积神经网络模块,对所述卷积神经网 络模块进行训练,得到所述情感分析模型。
[0013]在一种可选的实施方式中,所述将所述第一训练样本集和所述第二训 练样本集输入到筛选融合模块,得到第三训练样本,包括:
[0014]将所述第一训练样本集向量化,得到第一向量化训练样本集;
[0015]将所述第二训练样本集向量化,得到第二向量化训练样本集;
[0016]删除所述第一向量化训练样本集中的第一冗余向量;
[0017]其中,所述第一冗余向量为所述第二向量化训练样本集中存在与所述 第一冗余向量相似度大于阈值的向量;
[0018]将所述第二向量化训练样本集和删除所述第一冗余向量后的第一量化 训练样本集合并得到所述第三训练样本。
[0019]在一种可选的实施方式中,所述将所述第一训练样本集和所述第二训 练样本集输入到筛选融合模块,得到第三训练样本,包括:
[0020]将所述第一训练样本集向量化,得到第一向量化训练样本集;
[0021]将所述第二训练样本集向量化,得到第二向量化训练样本集;
[0022]或者删除所述第二向量化训练样本集中的第二冗余向量;
[0023]其中,所述第二冗余向量为所述第一向量化训练样本集中存在与所述 第二冗余向量相似度大于阈值的向量;
[0024]将所述第一向量化训练样本集和删除所述第二冗余向量后的第二量化 训练样本集合并得到所述第三训练样本
[0025]在一种可选的实施方式中,所述卷积神经网络模块包括:输入层、卷 积层、池化层、全连接层和Softmax层。
[0026]在一种可选的实施方式中,所述将所述第一训练样本集向量化包括:
[0027]使用jieba分词工具对所述第一训练样本集进行洗词;
[0028]使用Word2vec处理洗词后的第一训练样本集,得到所述第一向量化训 练样本集;
[0029]所述将所述第二训练样本集向量化包括:
[0030]使用所述jieba分词工具对所述第二训练样本集进行洗词;
[0031]使用所述Word2vec处理洗词后的第二训练样本集,得到所述第二向量 化训练样本集。
[0032]第二方面,本申请提供一种数据处理装置,其特征在于,包括:获取 单元,用于获取原始训练样本集;
[0033]BT文本增强单元,用于对所述原始训练样本集进行处理,得到第一训 练样本集;
[0034]EDA文本增强单元,用于对所述原始训练样本集进行处理,得到第二 训练样本集;
[0035]筛选融合单元,用于对所述第一训练样本集和所述第二训练样本集进 行处理,得到第三训练样本;
[0036]训练单元,用于将所述第三训练样本集输入到卷积神经网络模块,对 所述卷积神经网络模块进行训练,得到所述情感分析模型。
[0037]第三方面,本申请提供一种计算机设备,包括存储器、处理器及存储 在存储器上
并可在处理器上运行的计算机程序,其特征在于,上述处理器 执行上述计算机程序时实现上述第一方面提供的上述的情感分析模型训练 方法。
[0038]第三方面,本申请提供一种计算机可读存储介质,其特征在于,上述 计算机可读存储介质存储有执行计算机程序,上述计算机程序被处理器执 行时实现上述第一方面提供的上述的情感分析模型训练方法。
[0039]在本申请实施例中,利用BT文本增强模块和EDA文本增强模块对原 始训练样本集进行文本增强,将增强过后的数据输入筛选融合模块中,利 用余弦相似度原理进行融合、过滤、降噪处理,相比于单独使用一种增强 方法能得到一个语义度更加丰富,冗余更小的数据集。再经过卷积神经网 络特征提取后,对文本情感分类。相比于单纯使用原数据集对卷积神经网 络进行训练,该网络模型确实能够提高分类效果;并且利用较小数据对模 型进行训练,能达到大数据集对模型的训练效果。
附图说明
[0040]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需 要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种情感分析模型训练方法,其特征在于,获取原始训练样本集;将所述原始训练样本集输入BT文本增强模块,得到第一训练样本集;将所述原始训练样本集输入EDA文本增强模块,得到第二训练样本集;将所述第一训练样本集和所述第二训练样本集输入到筛选融合模块,得到第三训练样本;将所述第三训练样本集输入到卷积神经网络模块,对所述卷积神经网络模块进行训练,得到所述情感分析模型。2.如权利要求1所述的情感分析模型训练方法,其特征在于,所述将所述第一训练样本集和所述第二训练样本集输入到筛选融合模块,得到第三训练样本,包括:将所述第一训练样本集向量化,得到第一向量化训练样本集;将所述第二训练样本集向量化,得到第二向量化训练样本集;删除所述第一向量化训练样本集中的第一冗余向量;其中,所述第一冗余向量为所述第二向量化训练样本集中存在与所述第一冗余向量相似度大于阈值的向量;将所述第二向量化训练样本集和删除所述第一冗余向量后的第一量化训练样本集合并得到所述第三训练样本。3.如权利要求2所述的情感分析模型训练方法,其特征在于,所述将所述第一训练样本集和所述第二训练样本集输入到筛选融合模块,得到第三训练样本,包括:将所述第一训练样本集向量化,得到第一向量化训练样本集;将所述第二训练样本集向量化,得到第二向量化训练样本集;或者删除所述第二向量化训练样本集中的第二冗余向量;其中,所述第二冗余向量为所述第一向量化训练样本集中存在与所述第二冗余向量相似度大于阈值的向量;将所述第一向量化训练样本集和删除所述第二冗余向量后的第二量化训练样本集合并得到所述第三训练样本...

【专利技术属性】
技术研发人员:李明超张寿明
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1