文本情感分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35293208 阅读:15 留言:0更新日期:2022-10-22 12:39
本发明专利技术涉及智能决策技术,揭露一种文本情感分类方法,包括:对文本集进行聚类,得到多个文本簇,在任意一个所述文本簇选择文本构建正负样本对预构建的模型相同的第一模型及第二模型进行训练,得到训练完成的第一模型及训练完成的第二模型;对所述训练完成的第一模型及所述训练完成的第二模型进行模型筛选,得到文本情感分类模型;当获取待分类文本时,利用所述文本情感分类模型对所述待分类文本进行分类,得到情感分类结果。本发明专利技术还涉及一种区块链技术,所述文本簇可以存储在区块链节点中。本发明专利技术还提出一种文本情感分类装置、设备以及介质。本发明专利技术可以提高文本情感分类的准确度。本发明专利技术可以提高文本情感分类的准确度。本发明专利技术可以提高文本情感分类的准确度。

【技术实现步骤摘要】
文本情感分类方法、装置、电子设备及存储介质


[0001]本专利技术涉及智能决策技术,尤其涉及一种文本情感分类方法、装置、电子设备及存储介质。

技术介绍

[0002]随着自然语言理解技术的发展,文本的情感分类也越来越受到人们的关注。
[0003]但是现有的文本情感分类直接利用情感标记的文本(如标记为积极、消极、中性)对模型进行训练,利用训练的模型对文本进行情感分类(如:将文本分为积极、消极、中性),但这种训练方法导致训练的模型无法学习同一情感类别的文本差异(如标记的情感都是中性,但是有的偏积极,有的偏消极,模型无法学习同一情感标记文本的差异),从而导致文本情感分类的准确度较低。

技术实现思路

[0004]本专利技术提供一种文本情感分类方法、装置、电子设备及存储介质,其主要目的在于提高了文本情感分类的准确度。
[0005]获取文本集,其中,所述文本集中每个文本都有对应的情感标签;
[0006]将每个所述文本转换为向量,得到文本向量,并利用所述文本向量将所述文本集中的所有文本进行聚类,得到预设数量的文本簇;
[0007]在任意一个所述文本簇中随机选取预设数量的文本,得到训练文本集;
[0008]依次选取所述训练文本集的文本为训练文本,并将所述训练文本进行同义词替换,得到所述训练文本对应的正样本文本;
[0009]筛选所述训练文本集中与所述训练文本情感标签不同的相似文本,得到所述训练文本对应的负样本文本;
[0010]利用每个所述训练样本及该训练样本对应的正样本文本及负样本文本对预构建的模型相同的第一模型及第二模型进行训练,得到训练完成的第一模型及训练完成的第二模型;
[0011]对所述训练完成的第一模型及所述训练完成的第二模型进行模型筛选,得到文本情感分类模型;
[0012]当获取待分类文本时,利用所述文本情感分类模型对所述待分类文本进行分类,得到情感分类结果。
[0013]可选地,所述利用所述文本向量将所述文本集中的所有文本进行聚类,得到预设数量的文本簇,包括:
[0014]步骤A:在所有所述文本向量中随机选取预设数量的文本向量,并将选取的每个文本向量作为质心;
[0015]步骤B:计算每一个所述文本向量与每个所述质心的距离,将每条所述文本向量向距离最近的所述质心凝集汇总,得到对应初始向量簇;
[0016]步骤C:根据所述初始向量簇及所述质心进行质心波动计算,得到质心波动值;
[0017]步骤D:判断所述质心波动值是否为0,
[0018]步骤E:当所述质心波动值为0,将所述初始向量簇确定为所述文本向量簇,并将每个所述文本向量簇中所有文本向量对应的文本汇总,得到对应的文本簇;
[0019]步骤F:当所述质心波动值不为0,将所述簇平均值作为新的质心,并返回步骤B。
[0020]可选地,所述将所述训练文本进行同义词替换,得到所述训练文本对应的正样本文本,包括:
[0021]将所述训练文本的任意一个词语或多个词语替换为对应的词语的同义词,得到所述训练文本对应的正样本文本。
[0022]可选地,所述筛选所述训练文本集中与所述训练文本情感标签不同的相似文本,得到所述训练文本对应的负样本文本,包括:
[0023]筛选所述训练文本集中与所述训练文本情感标签不同的文本,得到筛选文本集;
[0024]计算所述训练文本与所述筛选文本集中每个文本的相似度,得到对应的文本相似度;
[0025]将所述筛选文本集中最大文本相似度对应的文本确认为所述训练文本对应的负样本文本。
[0026]可选地,所述利用每个所述训练样本及该训练样本对应的正样本文本及负样本文本对预构建的模型相同的第一模型及第二模型进行训练,得到训练完成的第一模型及训练完成的第二模型,包括:
[0027]利用所述第一模型对所述训练文本进行特征提取,得到训练文本特征向量;
[0028]利用所述第二模型对所述正样本文本进行特征提取,得到正样本文本特征向量;
[0029]利用所述第二模型对所述负样本文本进行特征提取,得到负样本文本特征向量;
[0030]分别计算所述训练文本特征向量与所述正样本文本特征向量及所述负样本文本特征向量的相似度,得到第一相似度分数及第二相似度分数;
[0031]基于预设损失函数,利用所述第一相似度分数及所述第二相似度分数进行计算,得到目标损失值;
[0032]当所述目标损失值大于或等于预设损失阈值,则更新所述第一模型及所述第二模型的模型参数,并返回所述在任意一个所述文本簇中随机选取预设数量的文本步骤;
[0033]当所述目标损失值小于预设损失阈值,则输出训练完成的第一模型及训练完成的第二模型。
[0034]可选地,所述对所述训练完成的第一模型及所述训练完成的第二模型进行模型筛选,得到文本情感分类模型,包括:
[0035]获取测试文本集,其中,所述测试文本集中每个测试文本都有对应的情感标签;
[0036]对所述训练完成的第一模型对所述测试文本集中每个测试文本进行分类以判断分类结果与对应的测试文本的情感标签是否一致,得到第一测试准确率;
[0037]对所述训练完成的第二模型对所述测试文本集中每个测试文本进行分类以判断分类结果与对应的测试文本的情感标签是否一致,得到第二测试准确率;
[0038]判断所述第一测试准确率是否大于所述第二测试准确率,并根据判断结果对所述训练完成的第一模型及所述训练完成的第二模型进行模型筛选,得到所述文本情感分类模
型。
[0039]可选地,所述根据测试结果对所述训练完成的第一模型及所述训练完成的第二模型进行模型筛选,得到所述文本情感分类模型,包括:
[0040]当所述判断结果为第一测试准确率大于第二测试准确率,将所述训练完成的第一模型确定为所述文本情感分类模型;
[0041]当所述判断结果为第一测试准确率不大于所述第二测试准确率,将所述训练完成的第二模型确定为所述文本情感分类模型。
[0042]为了解决上述问题,本专利技术还提供一种文本情感分类装置,所述装置包括:
[0043]正负样本构建模块,用于获取文本集,其中,所述文本集中每个文本都有对应的情感标签;将每个所述文本转换为向量,得到文本向量,并利用所述文本向量将所述文本集中的所有文本进行聚类,得到预设数量的文本簇;在任意一个所述文本簇中随机选取预设数量的文本,得到训练文本集;依次选取所述训练文本集的文本为训练文本,并将所述训练文本进行同义词替换,得到所述训练文本对应的正样本文本;筛选所述训练文本集中与所述训练文本情感标签不同的相似文本,得到所述训练文本对应的负样本文本;
[0044]模型训练筛选模块,用于利用每个所述训练样本及该训练样本对应的正样本文本及负样本文本对预构建的模型相同的第一模型及第二模型进行训练,得到训练完成的第一模型及训练完成的第二模型;对所述训练完成的第一模型及所述训练完成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本情感分类方法,其特征在于,所述方法包括:获取文本集,其中,所述文本集中每个文本都有对应的情感标签;将每个所述文本转换为向量,得到文本向量,并利用所述文本向量将所述文本集中的所有文本进行聚类,得到预设数量的文本簇;在任意一个所述文本簇中随机选取预设数量的文本,得到训练文本集;依次选取所述训练文本集的文本为训练文本,并将所述训练文本进行同义词替换,得到所述训练文本对应的正样本文本;筛选所述训练文本集中与所述训练文本情感标签不同的相似文本,得到所述训练文本对应的负样本文本;利用每个所述训练样本及该训练样本对应的正样本文本及负样本文本对预构建的模型相同的第一模型及第二模型进行训练,得到训练完成的第一模型及训练完成的第二模型;对所述训练完成的第一模型及所述训练完成的第二模型进行模型筛选,得到文本情感分类模型;当获取待分类文本时,利用所述文本情感分类模型对所述待分类文本进行分类,得到情感分类结果。2.如权利要求1所述的文本情感分类方法,其特征在于,所述利用所述文本向量将所述文本集中的所有文本进行聚类,得到预设数量的文本簇,包括:步骤A:在所有所述文本向量中随机选取预设数量的文本向量,并将选取的每个文本向量作为质心;步骤B:计算每一个所述文本向量与每个所述质心的距离,将每条所述文本向量向距离最近的所述质心凝集汇总,得到对应初始向量簇;步骤C:根据所述初始向量簇及所述质心进行质心波动计算,得到质心波动值;步骤D:判断所述质心波动值是否为0,步骤E:当所述质心波动值为0,将所述初始向量簇确定为所述文本向量簇,并将每个所述文本向量簇中所有文本向量对应的文本汇总,得到对应的文本簇;步骤F:当所述质心波动值不为0,将所述簇平均值作为新的质心,并返回步骤B。3.如权利要求1所述的文本情感分类方法,其特征在于,所述将所述训练文本进行同义词替换,得到所述训练文本对应的正样本文本,包括:将所述训练文本的任意一个词语或多个词语替换为对应的词语的同义词,得到所述训练文本对应的正样本文本。4.如权利要求1所述的文本情感分类方法,其特征在于,所述筛选所述训练文本集中与所述训练文本情感标签不同的相似文本,得到所述训练文本对应的负样本文本,包括:筛选所述训练文本集中与所述训练文本情感标签不同的文本,得到筛选文本集;计算所述训练文本与所述筛选文本集中每个文本的相似度,得到对应的文本相似度;将所述筛选文本集中最大文本相似度对应的文本确认为所述训练文本对应的负样本文本。5.如权利要求1所述的文本情感分类方法,其特征在于,所述利用每个所述训练样本及该训练样本对应的正样本文本及负样本文本对预构建的模型相同的第一模型及第二模型
进行训练,得到训练完成的第一模型及训练完成的第二模型,包括:利用所述第一模型对所述训练文本进行特征提取,得到训练文本特征向量;利用所述第二模型对所述正样本文本进行特征提取,得到正样本文本特征向量;利用所述第二模型对所述负样本文本进行特征提取,得到负样本文本特征向量;分别计算所述训练文本特征向量与所述正样本文本特征向量及所述负样本文本特征向量的相似度,得到第一相似度分数及第二相似度分数;基于预设损失函...

【专利技术属性】
技术研发人员:舒畅陈又新肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1