一种文本分类方法、装置、设备及可读存储介质制造方法及图纸

技术编号：34125465 阅读：13 留言：0更新日期：2022-07-14 14:05

本发明专利技术公开了一种文本分类方法，该方法调用包括掩码语言模型解码器、所述语义表征器以及所述分类器的训练模型，对其中的语义表征器以及掩码语言模型解码器分类器进行参数优化训练，通过掩码语言模型解码器训练语义表征能力，可以为分类器部分提供更有效的语义表征向量，从而提升了模型的语义表征能力，这样使得模型在实际应用中的语义分类数据集上的收敛速度更快，保证了训练得到的语义表征器以及掩码语言模型解码器分类器在具有更强的分类能力的同时，又保证了其泛化性，从而提升了对于待分类文本的分类效果。本发明专利技术还公开了一种文本分类装置、设备及可读存储介质，具有相应的技术效果。技术效果。技术效果。

A text classification method, device, device and readable storage medium

全部详细技术资料下载

【技术实现步骤摘要】
一种文本分类方法、装置、设备及可读存储介质

[0001]本专利技术涉及自然语言处理
，特别是涉及一种文本分类方法、装置、设备及可读存储介质。

技术介绍

[0002]文本分类是自然语言处理领域的基本问题，它在工业界有着广泛的应用，比如在金融风控领域，通过文本分类可以根据产生的各种文本信息(搜索记录、浏览日志等)来预测用户逾期的可能性。但是在实际应用中，特别在风控领域，正样本和负样本的比例非常悬殊，达到一比几十甚至一比几百，在这种类别极端不平衡的情况下，模型通常会发生严重的过拟合现象，导致实际识别过程精准度难以保证。
[0003]当前，自然语言处理领域中解决类别不平衡问题主要方法有：重采样、重加权以及迁移学习，但是在实际应用中重采样方法模型存在低鲁棒性、低泛化性的问题，重加权方法存在低通用性、普适性差的问题，迁移学习存在适用条件严苛和高成本的问题。
[0004]综上所述，如何使得模型在有更强的分类能力的同时，保证模型的泛化能力，是目前本领域技术人员急需解决的技术问题。

技术实现思路

[0005]本专利技术的目的是提供一种文本分类方法、装置、设备及可读存储介质，以使得模型在有更强的分类能力的同时，保证模型的泛化能力。
[0006]为解决上述技术问题，本专利技术提供如下技术方案：
[0007]一种文本分类方法，包括：
[0008]获取待分类文本的数字序列；
[0009]调用语义表征器对所述数字序列进行向量转化，生成语义向量；
[0010]调用分类器...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法，其特征在于，包括：获取待分类文本的数字序列；调用语义表征器对所述数字序列进行向量转化，生成语义向量；调用分类器根据所述语义向量进行语义分类计算，得到文本类别；其中，所述语义表征器以及所述分类器为根据训练模型进行识别训练得到；所述训练模型包括：掩码语言模型解码器、所述语义表征器以及所述分类器；所述掩码语言模型解码器与所述分类器并列连接于所述语义表征器的输出端。2.根据权利要求1所述的文本分类方法，其特征在于，所述语义表征器以及所述分类器的训练方法，包括：对第一样本数据中部分字符进行符号替换后进行数字化转换得到变量样本，根据所述变量样本对所述分类器和所述掩码语言模型解码器进行联合训练，得到第一分类器和第一掩码语言模型解码器；其中，所述联合训练包括：对所述分类器的类别预测训练以及对所述掩码语言模型解码器的字符预测训练；根据所述第一样本数据对所述第一分类器和所述语义表征器进行参数优化训练，得到第二分类器和第二语义表征器；根据第二样本数据对所述第二分类器进行重训练，得到第三分类器；输出所述第三分类器以及所述第二语义表征器。3.根据权利要求2所述的文本分类方法，其特征在于，所述根据所述变量样本对所述分类器和所述掩码语言模型解码器进行联合训练，包括：将所述变量样本输入至所述训练模型；获取所述分类器输出的预测分类，以及所述掩码语言模型解码器输出的预测序列；计算所述预测分类与对应的分类标签间的损失，作为分类损失；计算所述预测序列与所述第一样本数据中对应的实际序列间的损失，作为序列损失；根据所述分类损失以及所述序列损失对所述分类器和所述掩码语言模型解码器的模型参数进行优化调整。4.根据权利要求3所述的文本分类方法，其特征在于，所述计算所述预测序列与所述第一样本数据中对应的实际序列间的损失，包括：计算所述预测序列中被替换的字符与所述第一样本数据中对应的实际字符间的损失。5.根据权利要求2所述的文本分类方法，其特征在于，所述根据第二样本数据对所述第二分类器进行重训练，包括：将所述第二分类器的模型参数进行随机初始化设置，得到初始化分类器；从样本数据中按比例均衡提取出各类别对应的数据，作为所述第二样本数据；对所述第二样本数据进行数字化预处理后输入至所述训练模型；根据所述分类器输出的预测分类与对应的实际分类间的损失对所述分类器的模型参数进行优化调...

【专利技术属性】
技术研发人员：姜卫卫，杨青，
申请(专利权)人：度小满科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人