一种多标签分类模型训练方法、装置及电子设备制造方法及图纸

技术编号：32827542 阅读：9 留言：0更新日期：2022-03-26 20:32

本申请实施例提供的一种多标签分类模型训练方法、装置及电子设备，应用于模型训练的技术领域，包括：获取目标语料库及预先标注的多个单标签语料；针对任一单标签语料，计算该单标签语料与目标语料库中各语料的相似度，并选取目标语料库中对应相似度大于预设相似度阈值的语料作为指定语料；针对任一指定语料，将该指定语料对应的单标签语料的标签添加为该指定语料的标签；通过预设语料合并方式将标注后的指定语料与预先标注的单标签语料进行合并，得到多标签语料；利用多标签语料对多标签文本分类模型进行训练，得到训练后的多标签分类模型。只需要大量未标注的语料和少量预先标注过的语料就可进行多标签文本分类模型训练，降低语料标注成本。降低语料标注成本。降低语料标注成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种多标签分类模型训练方法、装置及电子设备

[0001]本申请涉及模型训练的
，特别是涉及一种多标签分类模型训练方法、装置及电子设备。

技术介绍

[0002]语料分类作为文本处理中非常重要的一个部分，其应用已经变的非常广泛，比如：垃圾数据过滤，新闻分类，词性标注等等。通过语料分类可以将语料指定分到某个或某几个类别中。分类体系一般人为划分，例如：1)政治、体育、军事2)水果、蔬菜3)好评、中性、差评。然而在实际分类过程中，往往会存在一个语料对应多个分类，其中，可以用标签来表示分类，例如，一条关于足球比赛的语料即属于体育分类又属于好评分类，可以同时通过体育和好评的标签表示其分类，该语料即为多标签语料，该语料所在文本即为多标签文本。
[0003]相关技术中，多标签文本分类通常利用预先训练的多标签分类模型来实现，然而多标签分类模型需要大量标注有多个标签的样本语料进行训练，而样本语料是通过人工对语料进行标注的方式得到的，存在标注成本高，标注效率低的问题，且多标签分类模型的计算精度有待提高。

技术实现思路

[0004]本申请实施例的目的在于提供一种多标签分类模型训练方法、装置及电子设备，用以降低语料标注成本，提高语料标注效率及模型计算精度。具体技术方案如下：
[0005]本申请实施的第一方面，首先提供了一种多标签分类模型训练方法，上述方法包括：
[0006]获取目标语料库及预先标注的多个单标签语料，其中，目标语料库中包含多个未标注的语料，单标签语料对应有标签；
[0007]针

【技术保护点】

【技术特征摘要】
1.一种多标签分类模型训练方法，其特征在于，所述方法包括：获取目标语料库及预先标注的多个单标签语料，其中，所述目标语料库中包含多个未标注的语料，所述单标签语料对应有标签；针对任一单标签语料，计算该单标签语料与所述目标语料库中各语料的相似度，并选取所述目标语料库中对应相似度大于预设相似度阈值的语料作为指定语料；针对任一指定语料，将该指定语料对应的单标签语料的标签添加为该指定语料的标签；通过预设语料合并方式将标注后的指定语料与预先标注的单标签语料进行合并，得到多标签语料；利用所述多标签语料对多标签文本分类模型进行训练，得到训练后的多标签分类模型。2.根据权利要求1所述的方法，其特征在于，所述针对任一单标签语料，计算该单标签语料与所述目标语料库中各语料的相似度，并选取所述目标语料库中对应相似度大于预设相似度阈值的语料作为指定语料，包括：分别对预先标注的各单标签语料与目标语料库中各单语语料进行句向量编码，得到各单标签语料与所述目标语料库中各单语语料对应的向量；针对任一单标签语料，计算该单标签语料的句向量与所述目标语料库中各单语语料对应的句向量之间的相似度；选取所述目标语料库中对应相似度大于预设相似度阈值的语料作为该单标签语料对应的指定语料。3.根据权利要求2所述的方法，其特征在于，所述针对任一单标签语料，计算该单标签语料的句向量与所述目标语料库中各单语语料对应的句向量之间的相似度，包括：针对任一单标签语料，计算该单标签语料的句向量与所述目标语料库中各单语语料对应的句向量之间的的余弦距离和/或欧几里得距离和/或杰卡德距离；根据计算得到的所述余弦距离和/或欧几里得距离和/或杰卡德距离，计算得到该单标签语料的句向量与所述目标语料库中各单语语料对应的句向量之间的相似度。4.根据权利要求2所述的方法，其特征在于，所述针对任一单标签语料，计算该单标签语料的句向量与所述目标语料库中各单语语料对应的句向量之间的相似度之前，所述方法还包括：对所述目标语料库中各语料对应的句向量进行降维和/或文件切片，得到处理后的目标语料库；所述针对任一单标签语料，计算该单标签语料的句向量与所述目标语料库中各单语语料对应的句向量之间的相似度，包括：针对任一单标签语料的句向量，计算该单标签语料的句向量与所述处理后的目标语料库中各单语语料的句向量之间的相似度。5.根据权利要求1所述的方法，其特征在于，所述多标签语料包括对应的多个标签，所述利用所述多标签语料对多标签文本分类模型进行训练，得到训练后的多标签分类模型，包括：将所述多标签语料输入待训练的多标签文本分类模型，通过所述待训练的多标签文本
分类模型对所述多标签语料进行计算，得到所述多标签语料对应的预测标签；将所述多标签语料对应的预测标签与所述多标签语料对应的多个标签进行对比，得到所述待训练的多标签文本分类模型当前的损失；根据所述当前的损失调整所述待训练的多标签文本分类模型的参数，返回所述将所述多标签语料输入待训练的多标签文本分类模型，通过所述待训练的多标签文本分类模型对所述多标签语料进行计算，得到所述多标签语料对应的预测标签的步骤继续执行，直至所述当前的损失小于预设阈值，得到所述训练后的多标签分类模型。6.根据权利要求5所述的方法，其特征在于，所述多标签...

【专利技术属性】
技术研发人员：刘畅，李长亮，郭馨泽，
申请(专利权)人：北京金山数字娱乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人