一种情感分类模型的训练方法及装置制造方法及图纸

技术编号:28135579 阅读:31 留言:0更新日期:2021-04-21 19:03
本发明专利技术实施例提供一种情感分类模型的训练方法及装置,所述方法包括:获取作为训练样本的文本,并根据文本的文本长度划分文本的分类;所述文本是用户评论文本;确定与划分后每类文本分别对应的批量样本数;其中,所述批量样本数的数量与划分后每类文本的文本长度呈反比例变化;利用与每批批量样本数相对应的批量样本分别训练情感分类模型。所述装置执行上述方法。本发明专利技术实施例提供的情感分类模型的训练方法及装置,通过确定与划分后每类文本分别对应的批量样本数,并利用与每批批量样本数相对应的批量样本分别训练情感分类模型,能够加快情感分类模型的训练速度。快情感分类模型的训练速度。快情感分类模型的训练速度。

【技术实现步骤摘要】
一种情感分类模型的训练方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种情感分类模型的训练方法及装置。

技术介绍

[0002]随着电子商务的快速发展,越来越多的消费者在互联网平台上发表产品评论。评论可以反映出消费者对某一产品的某个属性的喜好程度,即情感分类,例如可以为积极、消极或中立。
[0003]现有技术通过建立情感分类模型来实现对情感进行分类,例如可以采用如下步骤:1.构造语言学特征,包括n-gram特征、语义特征、句法依赖特征、属性类别特征等;2.通过奇异值分解进行特征降维;3.采用one-vs-all策略的分类算法训练分类器;4.将模型效果反馈到特征空间进行进一步优化。
[0004]由于,上述模型的训练方法中用到的训练样本的特征类别繁多,并且,标记带有一定的主观因素,甚至可能存在错误,因此,给整个模型的训练加大了难度,甚至会导致模型无法收敛。

技术实现思路

[0005]针对现有技术存在的问题,本专利技术实施例提供一种情感分类模型的训练方法及装置。
[0006]本专利技术实施例提供一种情感分类模型的训练方法,包括:
[0007]获取作为训练样本的文本,并根据文本的文本长度划分文本的分类;所述文本是用户评论文本;
[0008]确定与划分后每类文本分别对应的批量样本数;其中,所述批量样本数的数量与划分后每类文本的文本长度呈反比例变化;
[0009]利用与每批批量样本数相对应的批量样本分别训练情感分类模型。
[0010]其中,所述根据文本的文本长度划分文本,包括:
[0011]根据依次递减的预设文本长度阈值和所有文本的文本长度,依次划分所有文本。
[0012]其中,所述确定与划分后每类文本分别对应的批量样本数,包括:
[0013]根据依次递增的预设批量样本数阈值和划分后每类文本,依次确定与划分后每类文本分别对应的批量样本数。
[0014]其中,所述利用利用与每批批量样本数相对应的批量样本分别训练情感分类模型之前,所述情感分类模型的训练方法还包括:
[0015]在一批批量样本中设置至少一个未知分类词。
[0016]其中,所述在在一批批量样本中设置至少一个未知分类词,包括:
[0017]在预设数值区间内生成随机数,并根据所述随机数和一批批量样本中的词数量,确定未知分类词的数量;其中,所述预设数值区间为(0,0.1);
[0018]随机抽取等于未知分类词的数量的未知分类词。
[0019]其中,所述在一批批量样本中设置至少一个未知分类词,包括:
[0020]通过MASK技术设置至少一个未知分类词。
[0021]其中,所述利用与每批批量样本数相对应的批量样本分别训练情感分类模型,包括:
[0022]固定一部分模型权重,以使固定后的模型权重不在训练所述情感分类模型的过程中进行变化。
[0023]本专利技术实施例提供一种情感分类模型的训练装置,包括:
[0024]划分单元,用于获取作为训练样本的文本,并根据文本的文本长度划分文本的分类;所述文本是用户评论文本;
[0025]确定单元,用于确定与划分后每类文本分别对应的批量样本数;其中,所述批量样本数的数量与划分后每类文本的文本长度呈反比例变化;
[0026]训练单元,用于利用与每批批量样本数相对应的批量样本分别训练情感分类模型。
[0027]本专利技术实施例提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,
[0028]所述处理器执行所述计算机程序时实现如下方法步骤:
[0029]获取作为训练样本的文本,并根据文本的文本长度划分文本的分类;所述文本是用户评论文本;
[0030]确定与划分后每类文本分别对应的批量样本数;其中,所述批量样本数的数量与划分后每类文本的文本长度呈反比例变化;
[0031]利用与每批批量样本数相对应的批量样本分别训练情感分类模型。
[0032]本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下方法步骤:
[0033]获取作为训练样本的文本,并根据文本的文本长度划分文本的分类;所述文本是用户评论文本;
[0034]确定与划分后每类文本分别对应的批量样本数;其中,所述批量样本数的数量与划分后每类文本的文本长度呈反比例变化;
[0035]利用与每批批量样本数相对应的批量样本分别训练情感分类模型。
[0036]本专利技术实施例提供的情感分类模型的训练方法及装置,通过确定与划分后每类文本分别对应的批量样本数,并利用与每批批量样本数相对应的批量样本分别训练情感分类模型,能够加快情感分类模型的训练速度。
附图说明
[0037]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038]图1为本专利技术情感分类模型的训练方法实施例流程图;
[0039]图2为本专利技术实施例划分文本和确定批量样本数的示意图;
[0040]图3为本专利技术情感分类模型的训练装置实施例结构示意图;
[0041]图4为本专利技术实施例提供的电子设备实体结构示意图。
具体实施方式
[0042]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0043]图1为本专利技术情感分类模型的训练方法实施例流程图,如图1所示,本专利技术实施例提供的一种情感分类模型的训练方法,包括以下步骤:
[0044]S101:获取作为训练样本的文本,并根据文本的文本长度划分文本的分类;所述文本是用户评论文本。
[0045]具体的,获取作为训练样本的文本,并根据文本的文本长度划分文本的分类;所述文本是用户评论文本。执行该方法步骤的可以是计算机设备。可以理解的是,该文本的数量通常较大,例如可以为1万个。文本的文本长度可以是文本中包含词的词数量,例如文本A包含200个词,则文本A的文本长度为200。根据文本的文本长度划分文本可以具体包括:将相近文本长度的文本划分为一类,具体方式不作具体限定。
[0046]进一步地,可以具体包括:根据依次递减的预设文本长度阈值和所有文本的文本长度,依次划分所有文本。预设文本长度阈值的初始值和依次递减的幅度值可以根据实际情况自主设置,例如,初始值可选为1000,依次递减的幅度值可选为500。图2为本专利技术实施例划分文本和确定批量样本数的示意图;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种情感分类模型的训练方法,其特征在于,包括:获取作为训练样本的文本,并根据文本的文本长度划分文本的分类;所述文本是用户评论文本;确定与划分后每类文本分别对应的批量样本数;其中,所述批量样本数的数量与划分后每类文本的文本长度呈反比例变化;利用与每批批量样本数相对应的批量样本分别训练情感分类模型。2.根据权利要求1所述的情感分类模型的训练方法,其特征在于,所述根据文本的文本长度划分文本,包括:根据依次递减的预设文本长度阈值和所有文本的文本长度,依次划分所有文本。3.根据权利要求2所述的情感分类模型的训练方法,其特征在于,所述确定与划分后每类文本分别对应的批量样本数,包括:根据依次递增的预设批量样本数阈值和划分后每类文本,依次确定与划分后每类文本分别对应的批量样本数。4.根据权利要求1至3任一所述的情感分类模型的训练方法,其特征在于,所述利用利用与每批批量样本数相对应的批量样本分别训练情感分类模型之前,所述情感分类模型的训练方法还包括:在一批批量样本中设置至少一个未知分类词。5.根据权利要求4所述的情感分类模型的训练方法,其特征在于,所述在在一批批量样本中设置至少一个未知分类词,包括:在预设数值区间内生成随机数,并根据所述随机数和一批批量样本中的词数量,确定未知分类词的数量;其中,所述预设...

【专利技术属性】
技术研发人员:曹秀亭
申请(专利权)人:普天信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1