文本分类模型的训练方法、文本分类方法及相关设备技术

技术编号：41869737 阅读：19 留言：0更新日期：2024-07-02 00:20

本申请涉及人工智能技术领域，公开了一种文本分类模型的训练方法、文本分类方法及相关设备。该训练方法包括：将样本文本序列与M个占位符进行拼接，得到样本输入序列，M为大于1的整数；由语义特征提取网络基于注意力机制对样本输入序列进行语义特征提取，得到样本语义特征序列；从样本语义特征序列中获取M个占位符对应的样本语义特征子序列；由分类层根据样本语义特征子序列进行分类，确定样本文本序列对应的预测文本类别；根据样本文本序列对应的预测文本类别和样本文本序列对应的标注文本类别，确定预测损失；根据预测损失反向调整文本分类模型的参数，直至达到训练结束条件。本申请可以大幅减少标注工作量而且保证文本分类准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，更具体地，涉及一种文本分类模型的训练方法、文本分类方法及相关设备。

技术介绍

1、相关技术中，一种文本分类模型的训练方式是：通过为样本文本设定文本模板，并将文本模板进行部分掩码，然后，将样本文本和部分掩码后的文本模板输入到文本分类模型中，由文本分类模型预测文本模板中被掩码的字，并根据所预测到被掩码的字和文本模板针对样本文本实际被掩码的字来调整文本分类模型的参数。该种训练方式中由于需要分别为样本文本设定文本模板，因此文本模板的标注工作量大。

技术实现思路

1、鉴于上述问题，本申请实施例提出了一种文本分类模型的训练方法、文本分类方法及相关设备，以解决相关技术中文本分类模型的训练中标注工作量大的问题。

2、根据本申请实施例的一个方面，提供了一种文本分类模型的训练方法，所述文本分类模型包括语义特征提取网络和分类层，所述方法包括：将样本文本序列与m个占位符进行拼接，得到样本输入序列，m为大于1的整数；由所述语义特征提取网络基于注意力机制对所述样本输入序列进行语义特征提...

【技术保护点】

1.一种文本分类模型的训练方法，其特征在于，所述文本分类模型包括语义特征提取网络和分类层，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述语义特征提取网络包括预训练后的第一神经网络和在所述第一神经网络的不同网络层之间嵌入的第二神经网络；

3.根据权利要求2所述的方法，其特征在于，所述第一神经网络包括多头注意力层和前馈网络层，所述第二神经网络包括嵌入所述多头注意力层之后的第一子神经网络和嵌入所述前馈网络层之后的第二子神经网络；

4.根据权利要求3所述的方法，其特征在于，所述第一子神经网络包括顺次级联的第一全连接网络层、激活层和第二全连接网络...

【技术特征摘要】

1.一种文本分类模型的训练方法，其特征在于，所述文本分类模型包括语义特征提取网络和分类层，所述方法包括：

4.根据权利要求3所述的方法，其特征在于，所述第一子神经网络包括顺次级联的第一全连接网络层、激活层和第二全连接网络层；

5.根据权利要求2至4中任一项所述的方法，其特征在于，所述第二神经网络的输入层的输入维度和所述第二神经网络的输出层的输出维度相同，所述第二神经网络的中间层的输出维...

【专利技术属性】
技术研发人员：武晨，
申请(专利权)人：顺丰科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人