文本分类模型的训练方法及装置制造方法及图纸

技术编号:37084211 阅读:25 留言:0更新日期:2023-03-29 19:59
本说明书实施例提供了文本分类模型的训练方法及装置,其中,一种文本分类模型的训练方法包括:文本分类模型的训练方法,包括:基于获取的待处理文本,构建对应的初始文本样本;待处理文本包括通用文本和业务文本;初始文本样本携带有掩码;基于初始文本样本,构建对应的正负样本对;正负样本对包括表征两个样本相似的正样本对和表征两个样本不相似的负样本对;根据正负样本对,对初始文本分类模型进行模型训练,得到预训练模型;根据预先生成的业务文本样本对预训练模型进行模型训练,得到文本分类模型。本分类模型。本分类模型。

【技术实现步骤摘要】
文本分类模型的训练方法及装置


[0001]本文件涉及数据处理领域,尤其涉及一种文本分类模型的训练方法及装置。

技术介绍

[0002]随着互联网技术的发展,业务文本的数据量处于飞速增长状态。业务文本常常涉及一些具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。在实际业务场景中,对携带有实体的业务文本进行文本分类,对多样化实体理解与应用具有重要意义。因此,业务文本的文本分类对数量和质量的需求日益增加。人工分类的效率低下且依赖于执行分类操作的工作人员的个人经验,难以满足海量的文本分类需求。

技术实现思路

[0003]本说明书一个或多个实施例提供了一种文本分类模型的训练方法。所述文本分类模型的训练方法,包括:基于获取的待处理文本,构建对应的初始文本样本;所述待处理文本包括通用文本和业务文本;所述初始文本样本携带有掩码。基于所述初始文本样本,构建对应的正负样本对;所述正负样本对包括表征两个样本相似的正样本对和表征两个样本不相似的负样本对。根据所述正负样本对,对初始文本分类模型进行模型训练,得到预训练模型本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本分类模型的训练方法,包括:基于获取的待处理文本,构建对应的初始文本样本;所述待处理文本包括通用文本和业务文本;所述初始文本样本携带有掩码;基于所述初始文本样本,构建对应的正负样本对;所述正负样本对包括表征两个样本相似的正样本对和表征两个样本不相似的负样本对;根据所述正负样本对,对初始文本分类模型进行模型训练,得到预训练模型;根据预先生成的业务文本样本对所述预训练模型进行模型训练,得到文本分类模型。2.根据权利要求1所述的方法,所述正样本对通过如下方式构建:对所述初始文本样本进行数据增强处理,得到对应的数据增强样本;基于所述初始文本样本和所述数据增强样本,构建所述正样本对。3.根据权利要求2所述的方法,所述初始文本样本的数量为多个;所述负样本对通过如下方式构建:在多个所述初始文本样本中确定目标样本,以及,确定所述目标样本之外的其他样本;基于所述目标样本对应的数据增强样本和所述其他样本,构建所述负样本对。4.根据权利要求2所述的方法,所述对所述初始文本样本进行数据增强处理,得到对应的数据增强样本,包括:在所述初始文本样本中,将与第一词语集合匹配的词语确定为第一目标词语;对所述第一目标词语进行复制处理和拼接处理,得到所述初始文本样本对应的数据增强样本。5.根据权利要求2所述的方法,所述对所述初始文本样本进行数据增强处理,得到对应的数据增强样本,包括:在所述初始文本样本中,将与第二词语集合匹配的词语确定为第二目标词语;在所述第二目标词语对应的替换词集合中,确定目标替换词;通过所述目标替换词对所述初始文本样本中的第二目标词语进行替换处理,得到所述初始文本样本对应的数据增强样本。6.根据权利要求5所述的方法,所述第二目标词语对应的替换词集合包括多个候选替换词;所述候选替换词为第一替换词、第二替换词以及第三替换词中的一者;所述第一替换词为与所述第二目标词语的文本相似度小于预设相似度阈值的词语;所述第二替换词为与所述第二目标词语属于同一词语类型的词语;所述第三替换词为与所述第二目标词语的语义相同但语言种类不同的词语。7.根据权利要求2所述的方法,所述对所述初始文本样本进行数据增强处理,得到对应的数据增强样本,包括:基于预设语言种类集合,对所述初始文本样本进行语言种类转换处理,得到对应的数据增强样本。8.根据权利要求2所述的方法,所述对所述初始文本样本进行数据增强处理,得到对应的数据增强样本,包括:对所述初始文本样本进行N次特征随机丢弃处理;将进行i次特征随机丢弃处理后的初始文本样本确定为所述初始文本样本对应的数据增强样本;i小于等于N。
9.根据权利要求1所述的方法,所述基于获取的待处理文本,构建对应的初始文本样本,包括:在所述待处理文本中,将随机生成的随机数对应的字符位置确定为目标位置;基于所述待处理文本和所述目标位置,构建对应的初始文本样本。10.根据权利要求9所述的方法,所述基于所述待处理文本和所述目标位置,构建对应的初始文本样本,包括:对所述待处理文本进行分词处理,得到多个第一分词结果;在多个所述第一分词结果中,确定所述目标位置对应的第一目标分词结果;基于预设掩码和所述第一目标分词结果,对所述待处理文本进行替换处理,得到所述初始文本样本。11.根据权利要求1所述的方法,所述基于获取的待处理文本,构建对应的初始文本样本,包括:对所述待处理文本进行分词处理,得到多个第二分词结果;在多个所述第二分词结果中,确定属于预设词语类型的第二目标分词结果;基于预设掩码和所述第二目标分词结果,对所述待处理文本进行替换处理,得到所述初始文本样本。12.一种文本分类方法,包括:获取待分类文本;将所述待分类文本输入文本分类模型进行文本分类处理,得到文本分类结果;其中,所述文本分类模型在根据预先生成的业务文本样本对预训练模型进行模型训练后获得;所述预训练模型在根据正负样本对,对初始文本分类模型进行模型训练后获得;所述正负样本对包括表征两个样本相似的正样本对和表征两个样本不相似的负样本对;所述正负样本对基于获取的待处理文本构建得到;所述待处理文本包括通用文本和业务文本;所述初始文本样本携带有掩码。13.根据权利要求12所...

【专利技术属性】
技术研发人员:郑行孙清清陈珺张天翼
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1