标签识别模型的训练方法、装置及计算机可读存储介质制造方法及图纸

技术编号:39257640 阅读:10 留言:0更新日期:2023-10-30 12:09
一种标签识别模型的训练方法、装置及计算机可读存储介质,该方法包括:收集领域文本,生成所述领域文本对应的伪标签;根据所述领域文本及其对应的伪标签,构造伪标签样本,利用所述伪标签样本对标签识别模型进行预训练,获得预训练后的标签识别模型;接收用户输入的文本内容和文本内容对应的原始标签集合,对所述文本内容对应的原始标签集合进行扩展得到扩展标签集合,并根据所述文本内容及其对应的扩展标签集合,构造训练样本;利用所述训练样本,对所述预训练后的标签识别模型进行微调训练,得到最终的标签识别模型。本申请能够弥补样本少的问题,减少对人工标注的依赖。另外,本申请实施例能够提高标签质量和标签识别结果的准确性。性。性。

【技术实现步骤摘要】
标签识别模型的训练方法、装置及计算机可读存储介质


[0001]本申请涉及人工智能
,具体涉及一种标签识别模型的训练方法、装置及计算机可读存储介质。

技术介绍

[0002]随着在线学习资源平台的不断升级,以及学习资源上传数量的不断增长,资源上传者在添加内容标签时的范围不全、质量不佳的问题愈加突出,尤其是培训教育平台,需要对内容做出大量且准确的标签标注,才能让机器更加了解内容特点,做出有针对性的用户学习内容推荐。因此,需要针对在线学习资源平台现有用户学习内容推荐、搜索的人工标注数据量较少且不够全面的问题,为网络课程学习资源开展自动标签标注进行研究及研发。
[0003]文本内容标签识别技术方案以传统方法、深度学习方法、二者融合的方法为主,传统方法采用词频

逆文本频率指数(Term Frequency

Inverse Document Frequency,TF

IDF)等特征分析方法选取原文中最具代表性的词,由于模型单薄,往往存在抽取结果不准确的问题;深度学习方法采用多标签预测模型等大模型选取候选标签库中与原文最匹配的词,也是当前常用的一种方法,但此类中的现有技术方案大多采用端对端的方法,通常存在着标签识别的样本量少、人工标注成本高等问题。

技术实现思路

[0004]本申请的至少一个实施例提供了一种标签识别模型的训练方法、装置及计算机可读存储介质,用于解决现有技术中标签识别的样本量少、人工标注成本高等问题。
[0005]为了解决上述技术问题,本申请是这样实现的:
[0006]第一方面,本申请实施例提供了一种标签识别模型的训练方法,包括:
[0007]收集领域文本,生成所述领域文本对应的伪标签;
[0008]根据所述领域文本及其对应的伪标签,构造伪标签样本,利用所述伪标签样本对标签识别模型进行预训练,获得预训练后的标签识别模型;
[0009]接收用户输入的文本内容和文本内容对应的原始标签集合,对所述文本内容对应的原始标签集合进行扩展得到扩展标签集合,并根据所述文本内容及其对应的扩展标签集合,构造训练样本;
[0010]利用所述训练样本,对所述预训练后的标签识别模型进行微调训练,得到最终的标签识别模型。
[0011]可选的,生成所述领域文本对应的伪标签,包括以下至少一种:
[0012]计算所述领域文本中的各个词的重要性指标,并提取所述重要性指标最高的第一数量的词,作为所述领域文本对应的伪标签;
[0013]利用预设的摘要生成算法,生成所述领域文本的伪摘要;计算所述伪摘要中的各个词的重要性指标,并提取所述重要性指标最高的第二数量的词,作为所述领域文本对应的伪标签。
[0014]可选的,利用所述伪标签样本对标签识别模型进行预训练,获得预训练后的标签识别模型,包括:
[0015]通过第一训练任务和第二训练任务,同时对所述标签识别模型进行训练,得到预训练后的标签识别模型;其中,
[0016]所述第一训练任务为:将伪标签样本的领域文本输入至所述标签识别模型,并以所述标签识别模型生成所述领域文本对应的伪标签为优化目标进行训练;所述第二训练任务为:利用掩码MASK标签随机替换伪标签样本的领域文本中的字词,生成新领域文本;将所述新领域文本输入至所述标签识别模型,并以所述标签识别模型重建被所述掩码标签替换的字词为优化目标进行训练。
[0017]可选的,对所述文本内容对应的原始标签集合进行扩展得到扩展标签集合,包括:
[0018]针对当前文本内容,通过相似文本搜索算法,从所有文本内容中搜索与当前文本内容最为接近的至少一个相似文本内容;
[0019]从所述相似文本内容对应的原始标签集合中,识别与当前文本内容相匹配的标签,并加入至当前文本内容对应的原始标签集合中,得到当前文本内容对应的扩展标签集合。
[0020]可选的,从所述相似文本内容对应的原始标签集合中,识别出与当前文本内容相匹配的标签,包括:
[0021]将所述相似文本内容对应的原始标签集合中的每个标签,分别与当前文本内容一同输入至预先训练好的匹配模型,其中,所述匹配模型用于识别标签与文本是否匹配;
[0022]根据所述匹配模型输出的识别结果,获得与当前文本内容相匹配的标签。
[0023]可选的,还包括:
[0024]按照以下步骤,训练得到所述匹配模型:
[0025]构建正样本和负样本,其中,正样本包括文本内容和正标签,所述正标签为所述文本内容对应的原始标签集合中的标签,所述负样本包括文本内容和负标签,所述负标签是不属于所述文本内容对应的原始标签集合中的标签;
[0026]将正负样本中的文本内容输入匹配模型,生成文本内容的编码表示,并以当前标签是否与当前文本内容相匹配为优化目标进行迭代训练,得到所述匹配模型。
[0027]可选的,生成文本内容的编码表示,包括:
[0028]将文本内容切分为多个片段,生成每个片段的编码表示,并对所述多个片段的编码表示进行平均池化处理,得到所述文本内容的编码表示;
[0029]或者,
[0030]将文本内容切分为多个片段,其中,在切分得到的片段数量小于预设数量时,通过填充处理,得到预设数量的片段;生成每个片段的编码表示,将每个片段的编码表示输入至一全连接层,得到所述文本内容的编码表示。
[0031]可选的,所述利用所述训练样本,对所述预训练后的标签识别模型进行微调训练,包括:
[0032]将所述训练样本中的文本内容输入至所述预训练后的标签识别模型,生成由至少一个标签拼接得到的生成标签集合文本,以所述生成标签集合文本接近所述文本内容对应的扩展标签集合文本为优化目标进行迭代训练,得到最终的标签识别模型,其中,所述扩展
标签集合文本是由扩展标签集合中的各个标签拼接而成的字符串。
[0033]可选的,在生成由至少一个标签拼接得到的生成标签集合文本时,所述方法还包括:
[0034]判断当前生成的标签是否为标签库中的标签,所述标签库包括标签体系树中的正式标签和用户添加的所述标签体系树之外的临时标签;
[0035]在当前生成的标签不是所述标签库中的标签的情况下,将当前生成标签替换为所述标签库中最为接近的标签;
[0036]在当前生成的标签是所述标签库中的标签的情况下,按照所述标签库中的对应标签,对当前生成的标签进行字符级别的规范化处理。
[0037]可选的,在生生成由至少一个标签拼接得到的生成标签集合文本时,所述方法还包括:
[0038]在当前生成的标签是所述标签库中的正式标签的情况下,通过在所述标签体系树中进行路径追溯,补齐当前生成的标签的上级标签。
[0039]可选的,在得到最终的标签识别模型之后,所述方法还包括:
[0040]利用所述标签识别模型对待推理文本进行推理,生成所述待推理文本对应的推理标签集合。
[0041]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标签识别模型的训练方法,其特征在于,包括:收集领域文本,生成所述领域文本对应的伪标签;根据所述领域文本及其对应的伪标签,构造伪标签样本,利用所述伪标签样本对标签识别模型进行预训练,获得预训练后的标签识别模型;接收用户输入的文本内容和文本内容对应的原始标签集合,对所述文本内容对应的原始标签集合进行扩展得到扩展标签集合,并根据所述文本内容及其对应的扩展标签集合,构造训练样本;利用所述训练样本,对所述预训练后的标签识别模型进行微调训练,得到最终的标签识别模型。2.根据权利要求1所述的方法,其特征在于,生成所述领域文本对应的伪标签,包括以下至少一种:计算所述领域文本中的各个词的重要性指标,并提取所述重要性指标最高的第一数量的词,作为所述领域文本对应的伪标签;利用预设的摘要生成算法,生成所述领域文本的伪摘要;计算所述伪摘要中的各个词的重要性指标,并提取所述重要性指标最高的第二数量的词,作为所述领域文本对应的伪标签。3.根据权利要求1所述的方法,其特征在于,利用所述伪标签样本对标签识别模型进行预训练,获得预训练后的标签识别模型,包括:通过第一训练任务和第二训练任务,同时对所述标签识别模型进行训练,得到预训练后的标签识别模型;其中,所述第一训练任务为:将伪标签样本的领域文本输入至所述标签识别模型,并以所述标签识别模型生成所述领域文本对应的伪标签为优化目标进行训练;所述第二训练任务为:利用掩码MASK标签随机替换伪标签样本的领域文本中的字词,生成新领域文本;将所述新领域文本输入至所述标签识别模型,并以所述标签识别模型重建被所述掩码标签替换的字词为优化目标进行训练。4.根据权利要求1所述的方法,其特征在于,对所述文本内容对应的原始标签集合进行扩展得到扩展标签集合,包括:针对当前文本内容,通过相似文本搜索算法,从所有文本内容中搜索与当前文本内容最为接近的至少一个相似文本内容;从所述相似文本内容对应的原始标签集合中,识别与当前文本内容相匹配的标签,并加入至当前文本内容对应的原始标签集合中,得到当前文本内容对应的扩展标签集合。5.根据权利要求4所述的方法,其特征在于,从所述相似文本内容对应的原始标签集合中,识别出与当前文本内容相匹配的标签,包括:将所述相似文本内容对应的原始标签集合中的每个标签,分别与当前文本内容一同输入至预先训练好的匹配模型,其中,所述匹配模型用于识别标签与文本是否匹配;根据所述匹配模型输出的识别结果,获得与当前文本内容相匹配的标签。6.根据权利要求5所述的方法,其特征在于,还包括:按照以下步骤,训练得到所述匹配模型:构建正样本和负样本,其中,正样本包括文本内容和正标签,所述正标签为所述文本内
容对应的原始标签集合中的标签,所述负样本包括文本内容和负标签,所述负标签是不属于所述文本内容对应的原始标签集合中的标签;将正负样本中的文本内容输入匹配模型,生成文本内容的编码表示,并以当前标签是否与当前文本内容相匹配为优化目标进行迭代训练,得到所述匹配模型。7.根据权利要求6所述的方法,其特征在于,生成文本内容的编码表示,包括:将文本内容切分为多个片段,生成每个片段的编码表示,并对所述多个片段的编码表示进行平均池化处理,得到所述文本内容的编码表示;或者,将文本内容切分为多个片段,其中,在切分得到的片段数量小于预设数量时,通过填充处理,得到预设数量的片段;生成每个片段的编码表示,将每个片段的编码表示输入至一全连接层,得到所述文...

【专利技术属性】
技术研发人员:管静
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1