【技术实现步骤摘要】
一种文本分类变体召回的优化方法、系统、介质及设备
[0001]本专利技术属于文本分类领域,尤其涉及一种文本分类变体召回的优化方法、系统、介质及设备。
技术介绍
[0002]近年来,BERT模型基于Trasnformer强大的特征抽取能力,并借助预训练语言模型充分利用无标注的文本数据,已经在各类场景下的文本分类任务中取得了优异的效果。对于文本分类任务,变体文本对抗一直是其面临的一项巨大挑战。文本中掺杂的“同音”、“同形”、“同义”变体字极易导致模型无法正确识别,最终导致召回下降。因此,如何提升文本分类模型对存在“同音”、“同形”、“同义”变体字的文本的召回是一个极其值得探索的问题。
技术实现思路
[0003]本专利技术所要解决的技术问题是提供一种文本分类变体召回的优化方法、系统、介质及设备。
[0004]本专利技术解决上述技术问题的技术方案如下:一种文本分类变体召回的优化方法,包括:
[0005]获取本体变体字映射表以及训练样本集;
[0006]依次判断所述训练样本集中的每个字是否在所述 ...
【技术保护点】
【技术特征摘要】
1.一种文本分类变体召回的优化方法,其特征在于,包括:获取本体变体字映射表以及训练样本集;依次判断所述训练样本集中的每个字是否在所述本体变体字映射表中,生成判断结果,根据所述判断结果生成变体文本;将在所述训练样本集中选取的第一集合作为本体样本输入至基础模型中,得到第一输出结果;将所述变体文本输入至所述基础模型中,得到第二输出结果;根据所述第一输出结果以及所述第二输出结果确定KL散度,基于所述KL散度调整所述基础模型的分类损失函数,基于调整后的分类损失函数优化所述基础模型,得到优化模型,根据所述优化模型完成文本分类变体召回。2.根据权利要求1所述的一种文本分类变体召回的优化方法,其特征在于,所述本体变体字映射表包括:本体字以及所述本体字对应的同音字、同形字以及同义字。3.根据权利要求1所述的一种文本分类变体召回的优化方法,其特征在于,所述根据所述判断结果生成变体文本的过程为:将判断结果为是的文本字按照预设概率替换为该文本字对应的变体字,将所有变体字生成变体文本。4.根据权利要求1所述的一种文本分类变体召回的优化方法,其特征在于,所述根据所述第一输出结果以及所述第二输出结果确定KL散度的过程为:根据所述第一输出结果确定第一分类类别概率分布,根据所述第二输出结果确定第二分类类别概率分布,基于所述第一分类类别概率分布以及所述第二分类类别概率分布确定所述KL散度。5.一种文本分类变体召回的优化系统,其特征在于,包括:获取模块用于:获取本体变体字映射表以及训练样本集;判断模块用于:依次判断所述训练样本集中的每个字是否在所述本体...
【专利技术属性】
技术研发人员:李斌,
申请(专利权)人:数美天下北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。