一种多标签分类模型训练方法、装置及电子设备制造方法及图纸

技术编号:32827542 阅读:9 留言:0更新日期:2022-03-26 20:32
本申请实施例提供的一种多标签分类模型训练方法、装置及电子设备,应用于模型训练的技术领域,包括:获取目标语料库及预先标注的多个单标签语料;针对任一单标签语料,计算该单标签语料与目标语料库中各语料的相似度,并选取目标语料库中对应相似度大于预设相似度阈值的语料作为指定语料;针对任一指定语料,将该指定语料对应的单标签语料的标签添加为该指定语料的标签;通过预设语料合并方式将标注后的指定语料与预先标注的单标签语料进行合并,得到多标签语料;利用多标签语料对多标签文本分类模型进行训练,得到训练后的多标签分类模型。只需要大量未标注的语料和少量预先标注过的语料就可进行多标签文本分类模型训练,降低语料标注成本。降低语料标注成本。降低语料标注成本。

【技术实现步骤摘要】
一种多标签分类模型训练方法、装置及电子设备


[0001]本申请涉及模型训练的
,特别是涉及一种多标签分类模型训练方法、装置及电子设备。

技术介绍

[0002]语料分类作为文本处理中非常重要的一个部分,其应用已经变的非常广泛,比如:垃圾数据过滤,新闻分类,词性标注等等。通过语料分类可以将语料指定分到某个或某几个类别中。分类体系一般人为划分,例如:1)政治、体育、军事2)水果、蔬菜3)好评、中性、差评。然而在实际分类过程中,往往会存在一个语料对应多个分类,其中,可以用标签来表示分类,例如,一条关于足球比赛的语料即属于体育分类又属于好评分类,可以同时通过体育和好评的标签表示其分类,该语料即为多标签语料,该语料所在文本即为多标签文本。
[0003]相关技术中,多标签文本分类通常利用预先训练的多标签分类模型来实现,然而多标签分类模型需要大量标注有多个标签的样本语料进行训练,而样本语料是通过人工对语料进行标注的方式得到的,存在标注成本高,标注效率低的问题,且多标签分类模型的计算精度有待提高。

技术实现思路

[0004]本申请实施例的目的在于提供一种多标签分类模型训练方法、装置及电子设备,用以降低语料标注成本,提高语料标注效率及模型计算精度。具体技术方案如下:
[0005]本申请实施的第一方面,首先提供了一种多标签分类模型训练方法,上述方法包括:
[0006]获取目标语料库及预先标注的多个单标签语料,其中,目标语料库中包含多个未标注的语料,单标签语料对应有标签;
[0007]针对任一单标签语料,计算该单标签语料与目标语料库中各语料的相似度,并选取目标语料库中对应相似度大于预设相似度阈值的语料作为指定语料;
[0008]针对任一指定语料,将该指定语料对应的单标签语料的标签添加为该指定语料的标签;
[0009]通过预设语料合并方式将标注后的指定语料与预先标注的单标签语料进行合并,得到多标签语料;
[0010]利用多标签语料对多标签文本分类模型进行训练,得到训练后的多标签分类模型。
[0011]可选的,针对任一单标签语料,计算该单标签语料与目标语料库中各语料的相似度,并选取目标语料库中对应相似度大于预设相似度阈值的语料作为指定语料,包括:
[0012]分别对预先标注的各单标签语料与目标语料库中各单语语料进行句向量编码,得到各单标签语料与目标语料库中各单语语料对应的向量;
[0013]针对任一单标签语料,计算该单标签语料的句向量与目标语料库中各单语语料对
应的句向量之间的相似度;
[0014]选取目标语料库中对应相似度大于预设相似度阈值的语料作为该单标签语料对应的指定语料。
[0015]可选的,针对任一单标签语料,计算该单标签语料的句向量与目标语料库中各单语语料对应的句向量之间的相似度,包括:
[0016]针对任一单标签语料,计算该单标签语料的句向量与目标语料库中各单语语料对应的句向量之间的的余弦距离和/或欧几里得距离和/或杰卡德距离;
[0017]根据计算得到的余弦距离和/或欧几里得距离和/或杰卡德距离,计算得到该单标签语料的句向量与目标语料库中各单语语料对应的句向量之间的相似度。
[0018]可选的,针对任一单标签语料,计算该单标签语料的句向量与目标语料库中各单语语料对应的句向量之间的相似度之前,上述方法还包括:
[0019]对目标语料库中各语料对应的句向量进行降维和/或文件切片,得到处理后的目标语料库;
[0020]针对任一单标签语料,计算该单标签语料的句向量与目标语料库中各单语语料对应的句向量之间的相似度,包括:
[0021]针对任一单标签语料的句向量,计算该单标签语料的句向量与处理后的目标语料库中各单语语料的句向量之间的相似度。
[0022]可选的,多标签语料包括对应的多个标签,利用多标签语料对多标签文本分类模型进行训练,得到训练后的多标签分类模型,包括:
[0023]将多标签语料输入待训练的多标签文本分类模型,通过待训练的多标签文本分类模型对多标签语料进行计算,得到多标签语料对应的预测标签;
[0024]将多标签语料对应的预测标签与多标签语料对应的多个标签进行对比,得到待训练的多标签文本分类模型当前的损失;
[0025]根据当前的损失调整待训练的多标签文本分类模型的参数,返回将多标签语料输入待训练的多标签文本分类模型,通过待训练的多标签文本分类模型对多标签语料进行计算,得到多标签语料对应的预测标签的步骤继续执行,直至当前的损失小于预设阈值,得到训练后的多标签分类模型。
[0026]可选的,多标签语料包括对应的多个标签,利用多标签语料对多标签分类模型进行训练,得到训练后的多标签文本分类模型之后,上述方法还包括:
[0027]从目标语料库中选取指定语料以外的多个语料,并将选取的多个语料作为待预测语料;
[0028]将多个待预测语料输入训练后的多标签分类模型进行标签的预测,得到携带有预测标签的待预测语料;
[0029]从多个待预测语料中选取预测标签正确的多个待预测语料作为目标语料;
[0030]利用多个目标语料替换预先标注的多个单标签语料,并返回获取目标语料库及预先标注的多个单标签语料的步骤继续执行,直至各待预测语料的预测标签的正确率大于预设正确率阈值,得到最终训练好的多标签分类模型。
[0031]本申请实施的第二方面,提供了一种文本数据分类方法,上述方法包括:
[0032]获取待分类文本数据;
[0033]利用预先训练的多标签分类模型对待分类文本数据进行分析,得到待分类文本数据中各语料的类型,其中,多标签分类模型通过上述任一多标签分类模型训练方法训练得到;
[0034]根据待分类文本数据中各语料的类型,得到待分类文本数据的类型。
[0035]可选的,在获取待分类文本数据之后,上述方法还包括:
[0036]对待分类文本数据进行语种检测,得到待分类文本数据的目标语种类别;
[0037]利用目标语种类别对应的语料分割方法,将待分类文本数据分割为多个待分类语料;
[0038]利用预先训练的多标签分类模型对待分类文本数据进行分析,得到待分类文本数据中各语料的类型,包括:
[0039]利用预先训练的多标签分类模型分别对各待分类语料进行分析,得到各待分类语料的类型。
[0040]可选的,根据待分类文本数据中各语料的类型,得到待分类文本数据的类型,包括:
[0041]统计待分类文本数据中各类型的语料的数量;
[0042]选取语料数量最多的前N个类型,作为待分类文本数据的类型,其中,N为正整数。
[0043]可选的,上述方法还包括:
[0044]按照待分类文本数据的类型,对待分类文本数据进行指定语种的翻译,得到待分类文本数据对应指定语种的译文。
[0045]本申请实施的第三方面,提供了一种客户端设备,客户端设备用于:...

【技术保护点】

【技术特征摘要】
1.一种多标签分类模型训练方法,其特征在于,所述方法包括:获取目标语料库及预先标注的多个单标签语料,其中,所述目标语料库中包含多个未标注的语料,所述单标签语料对应有标签;针对任一单标签语料,计算该单标签语料与所述目标语料库中各语料的相似度,并选取所述目标语料库中对应相似度大于预设相似度阈值的语料作为指定语料;针对任一指定语料,将该指定语料对应的单标签语料的标签添加为该指定语料的标签;通过预设语料合并方式将标注后的指定语料与预先标注的单标签语料进行合并,得到多标签语料;利用所述多标签语料对多标签文本分类模型进行训练,得到训练后的多标签分类模型。2.根据权利要求1所述的方法,其特征在于,所述针对任一单标签语料,计算该单标签语料与所述目标语料库中各语料的相似度,并选取所述目标语料库中对应相似度大于预设相似度阈值的语料作为指定语料,包括:分别对预先标注的各单标签语料与目标语料库中各单语语料进行句向量编码,得到各单标签语料与所述目标语料库中各单语语料对应的向量;针对任一单标签语料,计算该单标签语料的句向量与所述目标语料库中各单语语料对应的句向量之间的相似度;选取所述目标语料库中对应相似度大于预设相似度阈值的语料作为该单标签语料对应的指定语料。3.根据权利要求2所述的方法,其特征在于,所述针对任一单标签语料,计算该单标签语料的句向量与所述目标语料库中各单语语料对应的句向量之间的相似度,包括:针对任一单标签语料,计算该单标签语料的句向量与所述目标语料库中各单语语料对应的句向量之间的的余弦距离和/或欧几里得距离和/或杰卡德距离;根据计算得到的所述余弦距离和/或欧几里得距离和/或杰卡德距离,计算得到该单标签语料的句向量与所述目标语料库中各单语语料对应的句向量之间的相似度。4.根据权利要求2所述的方法,其特征在于,所述针对任一单标签语料,计算该单标签语料的句向量与所述目标语料库中各单语语料对应的句向量之间的相似度之前,所述方法还包括:对所述目标语料库中各语料对应的句向量进行降维和/或文件切片,得到处理后的目标语料库;所述针对任一单标签语料,计算该单标签语料的句向量与所述目标语料库中各单语语料对应的句向量之间的相似度,包括:针对任一单标签语料的句向量,计算该单标签语料的句向量与所述处理后的目标语料库中各单语语料的句向量之间的相似度。5.根据权利要求1所述的方法,其特征在于,所述多标签语料包括对应的多个标签,所述利用所述多标签语料对多标签文本分类模型进行训练,得到训练后的多标签分类模型,包括:将所述多标签语料输入待训练的多标签文本分类模型,通过所述待训练的多标签文本
分类模型对所述多标签语料进行计算,得到所述多标签语料对应的预测标签;将所述多标签语料对应的预测标签与所述多标签语料对应的多个标签进行对比,得到所述待训练的多标签文本分类模型当前的损失;根据所述当前的损失调整所述待训练的多标签文本分类模型的参数,返回所述将所述多标签语料输入待训练的多标签文本分类模型,通过所述待训练的多标签文本分类模型对所述多标签语料进行计算,得到所述多标签语料对应的预测标签的步骤继续执行,直至所述当前的损失小于预设阈值,得到所述训练后的多标签分类模型。6.根据权利要求5所述的方法,其特征在于,所述多标签...

【专利技术属性】
技术研发人员:刘畅李长亮郭馨泽
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1