文本分类模型的训练方法、文本分类方法及其装置制造方法及图纸

技术编号:37434763 阅读:5 留言:0更新日期:2023-05-06 09:06
本申请公开了文本分类模型的训练方法、文本分类方法及其装置,涉及人工智能领域,尤其涉及自然语言处理NLP及深度学习技术等。具体实现方案为:获取第一样本文本和第一样本文本的类别标签;基于类别标签获取第一样本文本中的关键词;确定类别标签对应的掩码概率,并根据类别标签对应的掩码概率、关键词和第一样本文本,获取第二样本文本;根据第二样本文本和类别标签训练初始的文本分类模型,得到训练好的文本分类模型。本申请可以提升注意力机制的泛化能力,使得模型能够更加深入的去挖掘文本的语义信息,进而可以提升模型的效果。进而可以提升模型的效果。进而可以提升模型的效果。

【技术实现步骤摘要】
文本分类模型的训练方法、文本分类方法及其装置


[0001]本申请涉及人工智能领域,尤其涉及自然语言处理NLP及深度学习技术等,特别的涉及一种文本分类模型的训练方法、文本分类方法及其装置。

技术介绍

[0002]文本分类是自然语言处理(Natural Language Processing,NLP)中的最基础的一个任务,很多场景中都涉及到,例如对话机器人、搜索推荐、情绪识别、情感分类、内容理解、企业风控、质量检测等方向。相关技术中,基于深度学习的文本分类研究,逐渐取代传统机器学习方法成为文本分类领域的主流研究方向,所使用的深度学习模型包括卷积神经网络、循环神经网络、注意力机制等。这些深度学习模型用于文本分类领域都取得了较好的实验效果。然而,基于深度注意力机制的方法在很大程度上会过于的关注某些关键词,造成分类结果错误。

技术实现思路

[0003]本申请提供了一种文本分类模型的训练方法、文本分类方法、装置、电子设备以及存储介质。
[0004]根据本申请的第一方面,提供了一种文本分类模型的训练方法,包括:
[0005]获取第一样本文本和所述第一样本文本的类别标签;
[0006]基于所述类别标签获取所述第一样本文本中的关键词;
[0007]确定所述类别标签对应的掩码概率,并根据所述类别标签对应的掩码概率、所述关键词和所述第一样本文本,获取第二样本文本;
[0008]根据所述第二样本文本和所述类别标签训练初始的文本分类模型,得到训练好的文本分类模型。
[0009]根据本申请的第二方面,提供了一种文本分类方法,包括:
[0010]获取待处理文本;
[0011]将所述待处理文本输入至预设的文本分类模型,获得所述待处理文本的分类预测结果;
[0012]其中,所述文本分类模型为采用如前述第一方面所述的训练方法训练得到的模型。
[0013]根据本申请的第三方面,提供了一种文本分类模型的训练装置,包括:
[0014]第一获取模块,用于获取第一样本文本和所述第一样本文本的类别标签;
[0015]第二获取模块,用于基于所述类别标签获取所述第一样本文本中的关键词;
[0016]确定模块,用于确定所述类别标签对应的掩码概率;
[0017]第三获取模块,用于根据所述类别标签对应的掩码概率、所述关键词和所述第一样本文本,获取第二样本文本;
[0018]训练模块,用于根据所述第二样本文本和所述类别标签训练初始的文本分类模
型,得到训练好的文本分类模型。
[0019]根据本申请的第四方面,提供了一种文本分类装置,包括:
[0020]获取模块,用于获取待处理文本;
[0021]预测模块,用于将所述待处理文本输入至预设的文本分类模型,获得所述待处理文本的分类预测结果;
[0022]其中,所述文本分类模型为采用如前述第三方面所述的训练装置训练得到的模型。
[0023]根据本申请的第五方面,提供了一种电子设备,包括:
[0024]至少一个处理器;以及
[0025]与所述至少一个处理器通信连接的存储器;其中,
[0026]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第一方面所述的方法,或者,以使所述至少一个处理器能够执行前述第二方面所述的方法。
[0027]根据本申请的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述第一方面所述的方法,或者,使所述计算机执行前述第二方面所述的方法。
[0028]根据本申请的第七方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现前述第一方面所述方法的步骤,或者实现前述第二方面所述方法的步骤。
[0029]根据本申请的技术方案,能够避免由于注意力机制而过度地关注高频词,可以提升注意力机制的泛化能力,使得模型能够更加深入的去挖掘文本的语义信息,进而可以提升模型的效果。
[0030]应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0031]附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0032]图1为本申请实施例所提供的一种文本分类模型的训练方法的流程图;
[0033]图2为本申请实施例所提供的另一种文本分类模型的训练方法的流程图;
[0034]图3为本申请实施例所提供的又一种文本分类模型的训练方法的流程图;
[0035]图4为本申请实施例所提供一种文本分类方法的流程图;
[0036]图5为本申请实施例所提供的一种文本分类模型的训练装置的框图;
[0037]图6为本申请实施例所提供的一种文本分类装置的框图;
[0038]图7是本申请实施例所提供的一种电子设备的框图。
具体实施方式
[0039]以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同
样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0040]文本分类是自然语言处理(Natural Language Processing,NLP)中的最基础的一个任务,很多场景中都涉及到,例如对话机器人、搜索推荐、情绪识别、情感分类、内容理解、企业风控、质量检测等方向。近年来,基于深度学习的文本分类研究,逐渐取代传统机器学习方法成为文本分类领域的主流研究方向,所使用的深度学习模型包括卷积神经网络(CNN)、循环神经网络(RNN)、注意力(Attention)机制等。这些深度学习模型用于文本分类领域都取得了较好的实验效果。然而,基于深度注意力机制的方法在很大程度上会过于的关注某些关键词,造成分类结果错误。
[0041]相关技术中,基于深度神经网络的文本分类方法普遍运用了注意力机制。注意力(Attention)机制是Bahdanau等2014年提出的一种文本处理新机制,它模仿自人类视觉观察行为的内部过程,早期流行于图像领域,后被引入到NLP领域并逐渐发展成为一个独立的研究方向。注意力机制将输入编码要求由固定长度向量改进为向量序列进行传递,它充分关注“注意力范围”信息,能够快速提取稀疏数据的重要特征并逐渐成为当前解决文本问题的标配。Google(谷歌)提出了Transformer模型,应用全Attention结构代替了RNN/CNN部分,使得模型结构变得更加简单。在性能方面,Transformer避免了时序与循环的模型架构,完全依赖Attention机制构造输入与输出的全局依赖关系,从而支持训练样本的并行化计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类模型的训练方法,包括:获取第一样本文本和所述第一样本文本的类别标签;基于所述类别标签获取所述第一样本文本中的关键词;确定所述类别标签对应的掩码概率,并根据所述类别标签对应的掩码概率、所述关键词和所述第一样本文本,获取第二样本文本;根据所述第二样本文本和所述类别标签训练初始的文本分类模型,得到训练好的文本分类模型。2.如权利要求1所述的方法,其中,所述基于所述类别标签获取所述第一样本文本中的关键词,包括:对所述第一样本文本进行分词处理,并对所述分词处理的结果进行停用词处理,得到所述第一样本文本的分词结果;对所述类别标签下所述第一样本文本的分词结果中的词进行词频统计,得到所述类别标签下每个词对应的词频;确定所述类别标签对应的词频阈值;将所述第一样本文本的分词结果之中所述词频大于或等于所述词频阈值的词,确定为所述第一样本文本中的关键词。3.如权利要求1所述的方法,其中,所述根据所述类别标签对应的掩码概率、所述关键词和所述第一样本文本,获取第二样本文本,包括:按照所述类别标签对应的掩码概率,对所述第一样本文本中的所述关键词进行掩码处理;将经过掩码处理后的第一样本文本,确定为所述第二样本文本。4.如权利要求3所述的方法,其中,所述按照所述类别标签对应的掩码概率,对所述第一样本文本中的所述关键词进行掩码处理,包括:以所述类别标签对应的掩码概率,将所述第一样本文本中的所述关键词替换为MASK。5.如权利要求1所述的方法,其中,所述根据所述第二样本文本和所述类别标签训练初始的文本分类模型,得到训练好的文本分类模型,包括:将所述第二样本文本输入至初始的文本分类模型;其中,所述初始的文本分类模型为基于Transformer模型构建的;获取所述文本分类模型输出的分类预测结果;根据所述预测结果和所述类别标签,获取模型损失值;根据所述模型损失值对所述文本分类模型进行训练,得到训练好的文本分类模型。6.一种文本分类方法,包括:获取待处理文本;将所述待处理文本输入至预设的文本分类模型,获得所述待处理文本的分类预测结果;其中,所述文本分类模型为采用如权利要求1至5中任一项所述的训练方法训练得到的模型。7.一种文本分类模型的训练装置,包括:第一获取模块,用于获取第一样本文本和所述第一样本文本的类别标签;
第二获取模块,用于基于所述类别标签获取所述第一样本文本中的关键词;确定模块,用于确定所述类别标签对应的掩码概率;第三获取模块,用于根据所述类别标签对应的掩码概率、所...

【专利技术属性】
技术研发人员:谭伟李迪
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1