一种文本分类方法、装置、设备及可读存储介质制造方法及图纸

技术编号:34125465 阅读:13 留言:0更新日期:2022-07-14 14:05
本发明专利技术公开了一种文本分类方法,该方法调用包括掩码语言模型解码器、所述语义表征器以及所述分类器的训练模型,对其中的语义表征器以及掩码语言模型解码器分类器进行参数优化训练,通过掩码语言模型解码器训练语义表征能力,可以为分类器部分提供更有效的语义表征向量,从而提升了模型的语义表征能力,这样使得模型在实际应用中的语义分类数据集上的收敛速度更快,保证了训练得到的语义表征器以及掩码语言模型解码器分类器在具有更强的分类能力的同时,又保证了其泛化性,从而提升了对于待分类文本的分类效果。本发明专利技术还公开了一种文本分类装置、设备及可读存储介质,具有相应的技术效果。技术效果。技术效果。

A text classification method, device, device and readable storage medium

【技术实现步骤摘要】
一种文本分类方法、装置、设备及可读存储介质


[0001]本专利技术涉及自然语言处理
,特别是涉及一种文本分类方法、装置、设备及可读存储介质。

技术介绍

[0002]文本分类是自然语言处理领域的基本问题,它在工业界有着广泛的应用,比如在金融风控领域,通过文本分类可以根据产生的各种文本信息(搜索记录、浏览日志等)来预测用户逾期的可能性。但是在实际应用中,特别在风控领域,正样本和负样本的比例非常悬殊,达到一比几十甚至一比几百,在这种类别极端不平衡的情况下,模型通常会发生严重的过拟合现象,导致实际识别过程精准度难以保证。
[0003]当前,自然语言处理领域中解决类别不平衡问题主要方法有:重采样、重加权以及迁移学习,但是在实际应用中重采样方法模型存在低鲁棒性、低泛化性的问题,重加权方法存在低通用性、普适性差的问题,迁移学习存在适用条件严苛和高成本的问题。
[0004]综上所述,如何使得模型在有更强的分类能力的同时,保证模型的泛化能力,是目前本领域技术人员急需解决的技术问题。

技术实现思路

[0005]本专利技术的目的是提供一种文本分类方法、装置、设备及可读存储介质,以使得模型在有更强的分类能力的同时,保证模型的泛化能力。
[0006]为解决上述技术问题,本专利技术提供如下技术方案:
[0007]一种文本分类方法,包括:
[0008]获取待分类文本的数字序列;
[0009]调用语义表征器对所述数字序列进行向量转化,生成语义向量;
[0010]调用分类器根据所述语义向量进行语义分类计算,得到文本类别;
[0011]其中,所述语义表征器以及所述分类器为根据训练模型进行识别训练得到;所述训练模型包括:掩码语言模型解码器、所述语义表征器以及所述分类器;所述掩码语言模型解码器与所述分类器并列连接于所述语义表征器的输出端。
[0012]可选地,所述语义表征器以及所述分类器的训练方法,包括:
[0013]对第一样本数据中部分字符进行符号替换后进行数字化转换得到变量样本,根据所述变量样本对所述分类器和所述掩码语言模型解码器进行联合训练,得到第一分类器和第一掩码语言模型解码器;其中,所述联合训练包括:对所述分类器的类别预测训练以及对所述掩码语言模型解码器的字符预测训练;
[0014]根据所述第一样本数据对所述第一分类器和所述语义表征器进行参数优化训练,得到第二分类器和第二语义表征器;
[0015]根据第二样本数据对所述第二分类器进行重训练,得到第三分类器;
[0016]输出所述第三分类器以及所述第二语义表征器。
[0017]可选地,所述根据所述变量样本对所述分类器和所述掩码语言模型解码器进行联合训练,包括:
[0018]将所述变量样本输入至所述训练模型;
[0019]获取所述分类器输出的预测分类,以及所述掩码语言模型解码器输出的预测序列;
[0020]计算所述预测分类与对应的分类标签间的损失,作为分类损失;
[0021]计算所述预测序列与所述第一样本数据中对应的实际序列间的损失,作为序列损失;
[0022]根据所述分类损失以及所述序列损失对所述分类器和所述掩码语言模型解码器的模型参数进行优化调整。
[0023]可选地,所述计算所述预测序列与所述第一样本数据中对应的实际序列间的损失,包括:
[0024]计算所述预测序列中被替换的字符与所述第一样本数据中对应的实际字符间的损失。
[0025]可选地,所述根据第二样本数据对所述第二分类器进行重训练,包括:
[0026]将所述第二分类器的模型参数进行随机初始化设置,得到初始化分类器;
[0027]从样本数据中按比例均衡提取出各类别对应的数据,作为所述第二样本数据;
[0028]对所述第二样本数据进行数字化预处理后输入至所述训练模型;
[0029]根据所述分类器输出的预测分类与对应的实际分类间的损失对所述分类器的模型参数进行优化调整。
[0030]一种文本分类装置,包括:
[0031]序列获取单元,用于获取待分类文本的数字序列;
[0032]向量转化单元,用于调用语义表征器对所述数字序列进行向量转化,生成语义向量;
[0033]语义分类单元,用于调用分类器根据所述语义向量进行语义分类计算,得到文本类别;
[0034]其中,所述向量转化单元中调用的所述语义表征器以及所述语义分类单元中调用的所述分类器为训练单元根据训练模型进行识别训练得到;所述训练单元调用的所述训练模型包括:掩码语言模型解码器、所述语义表征器以及所述分类器;所述掩码语言模型解码器与所述分类器并列连接于所述语义表征器的输出端。
[0035]可选地,所述训练单元包括:
[0036]第一训练子单元,用于对第一样本数据中部分字符进行符号替换后进行数字化转换得到变量样本,根据所述变量样本对所述分类器和所述掩码语言模型解码器进行联合训练,得到第一分类器和第一掩码语言模型解码器;其中,所述联合训练包括:对所述分类器的类别预测训练以及对所述掩码语言模型解码器的字符预测训练;
[0037]第二训练子单元,用于根据所述第一样本数据对所述第一分类器和所述语义表征器进行参数优化训练,得到第二分类器和第二语义表征器;
[0038]第三训练子单元,用于根据第二样本数据对所述第二分类器进行重训练,得到第三分类器;
[0039]模型输出子单元,用于输出所述第三分类器以及所述第二语义表征器。
[0040]可选地,所述第一训练子单元具体包括:
[0041]变量输入子单元,用于将所述变量样本输入至所述训练模型;
[0042]结果获取子单元,用于获取所述分类器输出的预测分类,以及所述掩码语言模型解码器输出的预测序列;
[0043]分类损失计算子单元,用于计算所述预测分类与对应的分类标签间的损失,作为分类损失;
[0044]序列损失计算子单元,用于计算所述预测序列与所述第一样本数据中对应的实际序列间的损失,作为序列损失;
[0045]参数调整子单元,用于根据所述分类损失以及所述序列损失对所述分类器和所述掩码语言模型解码器的模型参数进行优化调整。
[0046]一种计算机设备,包括:
[0047]存储器,用于存储计算机程序;
[0048]处理器,用于执行所述计算机程序时实现上述文本分类方法的步骤。
[0049]一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述文本分类方法的步骤。
[0050]本专利技术实施例所提供的方法,调用包括掩码语言模型解码器、语义表征器以及分类器的训练模型,对其中的语义表征器以及掩码语言模型解码器分类器进行参数优化训练,通过掩码语言模型解码器训练语义表征能力,可以为分类器部分提供更有效的语义表征向量,从而提升了模型的语义表征能力,这样使得模型在实际应用中的语义分类数据集上的收敛速度更本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:获取待分类文本的数字序列;调用语义表征器对所述数字序列进行向量转化,生成语义向量;调用分类器根据所述语义向量进行语义分类计算,得到文本类别;其中,所述语义表征器以及所述分类器为根据训练模型进行识别训练得到;所述训练模型包括:掩码语言模型解码器、所述语义表征器以及所述分类器;所述掩码语言模型解码器与所述分类器并列连接于所述语义表征器的输出端。2.根据权利要求1所述的文本分类方法,其特征在于,所述语义表征器以及所述分类器的训练方法,包括:对第一样本数据中部分字符进行符号替换后进行数字化转换得到变量样本,根据所述变量样本对所述分类器和所述掩码语言模型解码器进行联合训练,得到第一分类器和第一掩码语言模型解码器;其中,所述联合训练包括:对所述分类器的类别预测训练以及对所述掩码语言模型解码器的字符预测训练;根据所述第一样本数据对所述第一分类器和所述语义表征器进行参数优化训练,得到第二分类器和第二语义表征器;根据第二样本数据对所述第二分类器进行重训练,得到第三分类器;输出所述第三分类器以及所述第二语义表征器。3.根据权利要求2所述的文本分类方法,其特征在于,所述根据所述变量样本对所述分类器和所述掩码语言模型解码器进行联合训练,包括:将所述变量样本输入至所述训练模型;获取所述分类器输出的预测分类,以及所述掩码语言模型解码器输出的预测序列;计算所述预测分类与对应的分类标签间的损失,作为分类损失;计算所述预测序列与所述第一样本数据中对应的实际序列间的损失,作为序列损失;根据所述分类损失以及所述序列损失对所述分类器和所述掩码语言模型解码器的模型参数进行优化调整。4.根据权利要求3所述的文本分类方法,其特征在于,所述计算所述预测序列与所述第一样本数据中对应的实际序列间的损失,包括:计算所述预测序列中被替换的字符与所述第一样本数据中对应的实际字符间的损失。5.根据权利要求2所述的文本分类方法,其特征在于,所述根据第二样本数据对所述第二分类器进行重训练,包括:将所述第二分类器的模型参数进行随机初始化设置,得到初始化分类器;从样本数据中按比例均衡提取出各类别对应的数据,作为所述第二样本数据;对所述第二样本数据进行数字化预处理后输入至所述训练模型;根据所述分类器输出的预测分类与对应的实际分类间的损失对所述分类器的模型参数进行优化调...

【专利技术属性】
技术研发人员:姜卫卫杨青
申请(专利权)人:度小满科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1