文本分类模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33990160 阅读:26 留言:0更新日期:2022-07-02 09:29
本公开提供了一种文本分类模型的训练方法、装置、电子设备及存储介质,属于机器学习技术领域。方法包括:基于本次迭代过程对应的文本分类模型对样本标题文本进行分类,得到样本标题文本的概率向量;确定第一类别标签的目标标签权重,第一类别标签为样本标题文本所属的类别标签,目标标签权重的大小与属于第一类别标签的样本标题文本的数量成反比;根据概率向量和目标标签权重,确定本次迭代过程的第一损失值;响应于第一损失值符合目标条件,将文本分类模型作为训练完毕的文本分类模型。上述方法,使训练得到的文本分类模型能够对数据量较少的类别标签的特征进行有效的学习,从而提高文本分类模型的准确率。文本分类模型的准确率。文本分类模型的准确率。

【技术实现步骤摘要】
文本分类模型的训练方法、装置、电子设备及存储介质


[0001]本公开涉及机器学习
,特别涉及一种文本分类模型的训练方法、装置、电子设备及存储介质。

技术介绍

[0002]随着终端技术的发展,用户能够通过智能终端浏览各式各样的内容,如新闻、资讯、音乐以及视频等。相应的,各内容对应的服务提供商,为了吸引更多的用户浏览其提供的内容,需要能够根据用户的偏好为用户推荐可能感兴趣的内容。
[0003]目前,在进行内容推荐时,一种实现方式是对待推荐的内容进行数据预处理,然后直接通过模型编码器对预处理后的数据进行编码后,根据编码数据预测待推荐内容所属的标签,最后基于该标签进行内容推荐。
[0004]上述方案存在的问题是,分类模型的训练过程中,由于少部分标签对应的样本数据的数量较多,而大部分标签对应的样本数据的数量反而较少,导致在进行分类模型的训练时,样本数据的数量较少的标签的特征不能被分类模型有效学习,导致分类模型的准确率较低。

技术实现思路

[0005]本公开提供一种文本分类模型的训练方法、装置、电子设备及存储介质,通过标签权重,文本分类模型能够对包括的样本标题文本的数量较少的类别标签进行有效的学习,从而提高文本分类模型的准确率。本公开的技术方案如下:
[0006]根据本公开实施例的第一方面,提供一种文本分类模型的训练方法,包括:
[0007]基于本次迭代过程对应的文本分类模型对样本标题文本进行分类,得到所述样本标题文本的概率向量,所述概率向量用于表示所述样本标题文本被预测为多个类别标签的概率;
[0008]确定第一类别标签的目标标签权重,所述第一类别标签为所述样本标题文本所属的类别标签,所述目标标签权重的大小与属于所述第一类别标签的样本标题文本的数量成反相关;
[0009]根据所述概率向量和所述目标标签权重,确定所述本次迭代过程的第一损失值;
[0010]响应于所述第一损失值符合目标条件,将所述文本分类模型作为训练完毕的文本分类模型。
[0011]在一些实施例中,所述基于本次迭代过程对应的文本分类模型对样本标题文本进行分类,得到所述样本标题文本的概率向量,包括:
[0012]基于所述文本分类模型,确定所述样本标题文本的特征向量,所述特征向量的维度数与所述多个类别标签的个数相同;
[0013]根据所述特征向量对所述样本标题文本进行分类,得到所述样本标题文本的概率向量。
[0014]在一些实施例中,所述基于所述文本分类模型,确定所述样本标题文本的特征向量,包括:
[0015]基于所述文本分类模型,对所述样本标题文本的索引信息进行编码,得到所述样本标题文本的文本表征,所述索引信息用于指示所述样本标题文本包括的词汇的标识;
[0016]对所述样本标题文本的文本表征进行线性映射,得到所述样本标题文本的特征向量。
[0017]在一些实施例中,所述确定第一类别标签的目标标签权重,包括:
[0018]获取属于所述第一类别标签的样本标题文本的第一数量;
[0019]根据所述第一数量所属的数量区间,确定所述第一类别标签的所述目标标签权重,其中,一个数量区间对应一个标签权重。
[0020]在一些实施例中,所述数量区间的确定步骤包括:
[0021]根据所述多个类别标签包括的样本标题文本的数量,对所述多个类别标签进行降序排序;
[0022]获取至少一个头部标签,所述至少一个头部标签为排序在前且对应的数量百分比在目标百分比范围内的类别标签,所述数量百分比为所述头部标签包括的样本标题文本的数量的和值占样本标题文本的总数量的百分比;
[0023]将不小于第二数量的区间确定为第一数量区间,所述第二数量为所述至少一个头部标签包括的样本标题文本的数量的均值;
[0024]将小于所述第二数量,且不小于第三数量的区间确定为第二数量区间,所述第三数量为所述第二数量与目标比例的乘积;
[0025]将小于所述第三数量的区间确定为第三数量区间。
[0026]在一些实施例中,所述数量区间的确定步骤包括:
[0027]根据所述多个类别标签包括的样本标题文本的数量,对所述多个类别标签进行降序排序;
[0028]获取目标头部标签和目标尾部标签,所述目标头部标签为排序首位的类别标签,所述目标尾部标签为排序末位的类别标签;
[0029]根据所述目标头部标签包括样本标题文本的数量和所述目标尾部标签包括样本标题文本的数量,按照等差数列或等比数列的方式,确定多个数量区间。
[0030]在一些实施例中,所述确定第一类别标签的目标标签权重,包括:
[0031]获取属于所述第一类别标签的样本标题文本的第一数量;
[0032]根据所述第一数量占样本标题文本的总数量的比例,确定所述目标标签权重。
[0033]在一些实施例中,所述确定第一类别标签的目标标签权重,包括:
[0034]获取目标时间段内,所述第一类别标签对应的目标访问量,所述目标访问量为所述目标时间段内属于所述第一类别标签的样本标题文本的访问总量;
[0035]根据所述目标访问量,确定所述目标标签权重,所述目标标签权重的大小与所述目标访问量成正相关。
[0036]在一些实施例中,所述根据所述概率向量和所述目标标签权重,确定所述本次迭代过程的第一损失值,包括:
[0037]基于目标损失函数对所述概率向量和所述目标标签权重进行运算,得到第一损失
值,所述损失函数包括分类难度权重系数,所述分类难度权重系数用于指示样本标题文本的分类难度。
[0038]在一些实施例中,所述方法还包括:
[0039]响应于所述第一损失值不符合所述目标条件,更新所述文本分类模型的参数,得到下次迭代过程对应的文本分类模型;
[0040]基于属于所述第一类别标签的其他样本标题文本对所述下次迭代过程对应的文本分类模型进行训练。
[0041]根据本公开实施例的第二方面,提供一种文本分类模型的训练装置,包括:
[0042]数据分类单元,被配置为执行基于本次迭代过程对应的文本分类模型对所述样本标题文本进行分类,得到所述样本标题文本的概率向量,所述概率向量用于表示所述样本标题文本被预测为多个类别标签的概率;
[0043]权重确定单元,被配置为执行确定第一类别标签的目标标签权重,所述第一类别标签为所述样本标题文本所属的类别标签,所述目标标签权重的大小与属于所述第一类别标签的样本标题文本的数量成反相关;
[0044]损失值确定单元,被配置为执行根据所述概率向量和所述目标标签权重,确定所述本次迭代过程的第一损失值;
[0045]模型获取单元,被配置为执行响应于所述第一损失值符合目标条件,将所述文本分类模型作为训练完毕的文本分类模型。
[0046]在一些实施例中,所述数据分类单元,被配置为基于所述文本分类模型,确定所述样本标题文本的特征向量,所述特征向量的维度数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类模型的训练方法,其特征在于,所述方法包括:基于本次迭代过程对应的文本分类模型对样本标题文本进行分类,得到所述样本标题文本的概率向量,所述概率向量用于表示所述样本标题文本被预测为多个类别标签的概率;确定第一类别标签的目标标签权重,所述第一类别标签为所述样本标题文本所属的类别标签,所述目标标签权重的大小与属于所述第一类别标签的样本标题文本的数量成反相关;根据所述概率向量和所述目标标签权重,确定所述本次迭代过程的第一损失值;响应于所述第一损失值符合目标条件,将所述文本分类模型作为训练完毕的文本分类模型。2.根据权利要求1所述的文本分类模型的训练方法,其特征在于,所述基于本次迭代过程对应的文本分类模型对样本标题文本进行分类,得到所述样本标题文本的概率向量,包括:基于所述文本分类模型,确定所述样本标题文本的特征向量,所述特征向量的维度数与所述多个类别标签的个数相同;根据所述特征向量对所述样本标题文本进行分类,得到所述样本标题文本的概率向量。3.根据权利要求2所述的文本分类模型的训练方法,其特征在于,所述基于所述文本分类模型,确定所述样本标题文本的特征向量,包括:基于所述文本分类模型,对所述样本标题文本的索引信息进行编码,得到所述样本标题文本的文本表征,所述索引信息用于指示所述样本标题文本包括的词汇的标识;对所述样本标题文本的文本表征进行线性映射,得到所述样本标题文本的特征向量。4.根据权利要求1至3任一项所述的文本分类模型的训练方法,其特征在于,所述确定第一类别标签的目标标签权重,包括:获取属于所述第一类别标签的样本标题文本的第一数量;根据所述第一数量所属的数量区间,确定所述第一类别标签的所述目标标签权重,其中,一个数量区间对应一个标签权重。5.根据权利要求4所述的文本分类模型的训练方法,其特征在于,所述数量区间的确定步骤包括:根据所述多个类别标签包括的样本标题文本的数量,对所述多个类别标签进行降序排序;获取至少一个头部标签,所述至少一个头部标签为排序在前且对应的数量百分比在目标百分比范围内的类别标签,所述数量百分比为所述头部标签包括的样本标题文本的数量的和值占样本标题文本的总数量的百分比;将不小于第二数量...

【专利技术属性】
技术研发人员:尚航吕廷迅杨森高建煌李江东班鑫聂旺文
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1