文本分类模型训练方法及装置、文本分类方法及装置制造方法及图纸

技术编号：38092528 阅读：13 留言：0更新日期：2023-07-06 09:05

本申请公开了一种文本分类模型训练方法及装置及一种文本分类方法及装置，该文本分类模型训练方法包括确定训练文本集合，训练文本集合包含无标签的违规文本、有标注违禁类别的违规文本，无标签的正常文本；利用隐藏字符以及目标文本，生成训练数据；将训练数据输入至文本分类模型中，得到文本分类模型预测的目标字符，以及文本分类模型基于训练数据预测的分类结果；基于文本语义损失值以及分类损失值，对文本分类模型的参数进行调整，直至文本语义损失值以及分类损失值符合预置的条件为止，得到训练后的文本分类模型。可见，采用本申请提供的文本分类模型训练方法所训练得到的文本分类模型，具备较高的语义分析能力以及辨别违规文本的能力。规文本的能力。规文本的能力。

全部详细技术资料下载

【技术实现步骤摘要】
文本分类模型训练方法及装置、文本分类方法及装置

[0001]本申请涉及信息处理
，更具体地说，涉及一种文本分类模型训练方法及装置，以及一种文本分类方法及装置。

技术介绍

[0002]随着互联网技术的飞速发展，在互联网上阅读文本信息成为了常见的休闲娱乐方式，但随着互联网发布文本信息门槛的降低，互联网上存在大量不适合展示给用户特别是未成年用户阅读的违规文本，因而，需要对违规文本进行一定的处理，以保障用户特别是未成年用户的身心健康。而对违规文本进行处理的前提是先从大量的文本信息中找出违规文本。
[0003]基于此，为了从大量的文本信息中找出违规文本，可以引入能够识别违规文本的分类模型，对各个文本信息进行分类。

技术实现思路

[0004]有鉴于此，本申请提供了一种文本分类模型训练方法及装置，以及一种文本分类方法及装置，用于训练能够识别违规文本的分类模型，对各个文本信息进行分类。
[0005]为了实现上述目的，现提出的方案如下：
[0006]一种文本分类模型训练方法，包括：
[0007]确定训练文本集合，所述训练文本集合中包含多个无标签的违规文本、多个有标注违禁类别的违规文本，以及，多个无标签的正常文本；
[0008]依次从所述训练文本集合中选取目标文本；
[0009]利用预置的隐藏字符以及所述目标文本，生成训练数据，所述训练数据为部分字符被隐藏字符替换的目标文本；
[0010]将所述训练数据输入至文本分类模型中，得到所述文本分类模型预测的目标字符，...

【技术保护点】

【技术特征摘要】
1.一种文本分类模型训练方法，其特征在于，包括：确定训练文本集合，所述训练文本集合中包含多个无标签的违规文本、多个有标注违禁类别的违规文本，以及，多个无标签的正常文本；依次从所述训练文本集合中选取目标文本；利用预置的隐藏字符以及所述目标文本，生成训练数据，所述训练数据为部分字符被隐藏字符替换的目标文本；将所述训练数据输入至文本分类模型中，得到所述文本分类模型预测的目标字符，以及所述文本分类模型基于所述训练数据预测的分类结果，所述分类结果为多个违禁类别对应的二分类结果；根据所述目标字符以及所述目标文本，计算所述文本分类模型的文本语义损失值；根据所述分类结果以及所述目标文本，计算所述文本分类模型的分类损失值；基于所述文本语义损失值以及所述分类损失值，对所述文本分类模型的参数进行调整，直至所述文本语义损失值以及所述分类损失值符合预置的条件为止，得到训练后的文本分类模型。2.根据权利要求1所述的文本分类模型训练方法，其特征在于，还包括：对所述训练后的文本分类模型的偏置参数以及权重参数进行调节处理，得到处理后的文本分类模型，所述处理后的文本分类模型的输出为与输入的文本对应的分类结果。3.根据权利要求2所述的文本分类模型训练方法，其特征在于，对所述训练后的文本分类模型的偏置参数以及权重参数进行调节处理，得到处理后的文本分类模型，包括：对所述训练后的文本分类模型中，与预测目标字符和预测分类结果相关的权重参数以及偏置参数进行调节，得到处理后的文本分类模型。4.根据权利要求3所述的文本分类模型训练方法，其特征在于，对所述训练后的文本分类模型中，与预测目标字符和预测分类结果相关的权重参数以及偏置参数进行调节，得到处理后的文本分类模型，包括：利用预置的调节公式对所述训练后的文本分类模型中，与预测目标字符和预测分类结果相关的权重参数以及偏置参数进行调节，得到处理后的文本分类模型；调节公式如下所示：H＝BERT(X；θ)H＝BERT(X；θ)H＝BERT(X；θ)H＝BERT(X；θ)H＝BERT(X；θ)其中，X表示所述训练后的文本分类模型的输入，θ表示所述训练后的文本分类模型的权重参数，BERT表示采用文本分类模型进行语义编码，H表示经过文本分类模型编码后的语义向量，Slice1表示截取经过文本分类模型编码后的语义向量，表示分类结果对应语义
向量，表示经过全连接后的语义向量，LN表示进行Layer Normalization归一化操作，GELU表示高斯误差线性单元激活函数，W1表示全连接层的权重参数，B1表示全连接层的偏置参数，表示仅包含目标字符对应的向量矩阵，Slice2表示截取的词典中目标字符对应的向量矩阵，ETable表示词典的向量矩阵，表示违禁类别对应的二分类结果的分数，表示仅包含目标字符对应的向量矩阵的转置，B2表示维度变换(升维)的偏置参数，表示违禁类别对应的二分类结果的概率，Softmax表示采用softmax函数求取概率，所述词典为预先建立的字符数据库。5.根据权利要求1所述的文本分类模型训练方法，其特征在于，利用预置的隐藏字符以及所述目标文本，生成训练数据，包括：利用隐藏字符替换所述目标文本的部分字符，得到...

【专利技术属性】
技术研发人员：邓其春，马金龙，吴文亮，黎子骏，张政统，王伟喆，曾锐鸿，盘子圣，焦南凯，兰翔，徐志坚，谢睿，陈光尧，
申请(专利权)人：广州趣丸网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人