文本分类模型训练方法及装置、文本分类方法及装置制造方法及图纸

技术编号:38092528 阅读:13 留言:0更新日期:2023-07-06 09:05
本申请公开了一种文本分类模型训练方法及装置及一种文本分类方法及装置,该文本分类模型训练方法包括确定训练文本集合,训练文本集合包含无标签的违规文本、有标注违禁类别的违规文本,无标签的正常文本;利用隐藏字符以及目标文本,生成训练数据;将训练数据输入至文本分类模型中,得到文本分类模型预测的目标字符,以及文本分类模型基于训练数据预测的分类结果;基于文本语义损失值以及分类损失值,对文本分类模型的参数进行调整,直至文本语义损失值以及分类损失值符合预置的条件为止,得到训练后的文本分类模型。可见,采用本申请提供的文本分类模型训练方法所训练得到的文本分类模型,具备较高的语义分析能力以及辨别违规文本的能力。规文本的能力。规文本的能力。

【技术实现步骤摘要】
文本分类模型训练方法及装置、文本分类方法及装置


[0001]本申请涉及信息处理
,更具体地说,涉及一种文本分类模型训练方法及装置,以及一种文本分类方法及装置。

技术介绍

[0002]随着互联网技术的飞速发展,在互联网上阅读文本信息成为了常见的休闲娱乐方式,但随着互联网发布文本信息门槛的降低,互联网上存在大量不适合展示给用户特别是未成年用户阅读的违规文本,因而,需要对违规文本进行一定的处理,以保障用户特别是未成年用户的身心健康。而对违规文本进行处理的前提是先从大量的文本信息中找出违规文本。
[0003]基于此,为了从大量的文本信息中找出违规文本,可以引入能够识别违规文本的分类模型,对各个文本信息进行分类。

技术实现思路

[0004]有鉴于此,本申请提供了一种文本分类模型训练方法及装置,以及一种文本分类方法及装置,用于训练能够识别违规文本的分类模型,对各个文本信息进行分类。
[0005]为了实现上述目的,现提出的方案如下:
[0006]一种文本分类模型训练方法,包括:
[0007]确定训练文本集合,所述训练文本集合中包含多个无标签的违规文本、多个有标注违禁类别的违规文本,以及,多个无标签的正常文本;
[0008]依次从所述训练文本集合中选取目标文本;
[0009]利用预置的隐藏字符以及所述目标文本,生成训练数据,所述训练数据为部分字符被隐藏字符替换的目标文本;
[0010]将所述训练数据输入至文本分类模型中,得到所述文本分类模型预测的目标字符,以及所述文本分类模型基于所述训练数据预测的分类结果,所述分类结果为多个违禁类别对应的二分类结果,所述文本分类模型为待训练的文本分类模型;
[0011]根据所述目标字符以及所述目标文本,计算所述文本分类模型的文本语义损失值;
[0012]根据所述分类结果以及所述目标文本,计算所述文本分类模型的分类损失值;
[0013]基于所述文本语义损失值以及所述分类损失值,对所述文本分类模型的参数进行调整,直至所述文本语义损失值以及所述分类损失值符合预置的条件为止,得到训练后的文本分类模型。
[0014]可选的,还包括:
[0015]对所述训练后的文本分类模型的偏置参数以及权重参数进行调节处理,得到处理后的文本分类模型,所述处理后的文本分类模型的输出为与输入的文本对应的分类结果。
[0016]可选的,对所述训练后的文本分类模型的偏置参数以及权重参数进行调节处理,
得到处理后的文本分类模型,包括:
[0017]对所述训练后的文本分类模型中,与预测目标字符和预测分类结果相关的权重参数以及偏置参数进行调节,得到处理后的文本分类模型。
[0018]可选的,对所述训练后的文本分类模型中,与预测目标字符和预测分类结果相关的权重参数以及偏置参数进行调节,得到处理后的文本分类模型,包括:
[0019]利用预置的调节公式对所述训练后的文本分类模型中,与预测目标字符和预测分类结果相关的权重参数以及偏置参数进行调节,得到处理后的文本分类模型;
[0020]调节公式如下所示:
[0021]H=BERT(X;θ)
[0022][0023][0024][0025][0026][0027]其中,X表示所述训练后的文本分类模型的输入,θ表示所述训练后的文本分类模型的权重参数,BERT表示采用文本分类模型进行语义编码,H表示经过文本分类模型编码后的语义向量,Slice1表示截取经过文本分类模型编码后的语义向量,表示分类结果对应语义向量,表示经过全连接后的语义向量,LN表示进行Layer Normalization归一化操作,GELU表示高斯误差线性单元激活函数,W1表示全连接层的权重参数,B1表示全连接层的偏置参数,表示仅包含目标字符对应的向量矩阵,Slice2表示截取的词典中目标字符对应的向量矩阵,ETable表示词典的向量矩阵,表示违禁类别对应的二分类结果的分数,表示仅包含目标字符对应的向量矩阵的转置,B2表示维度变换(升维)的偏置参数,表示违禁类别对应的二分类结果的概率,Softmax表示采用softmax函数求取概率,所述词典为预先建立的字符数据库。
[0028]可选的,利用预置的隐藏字符以及所述目标文本,生成训练数据,包括:
[0029]利用隐藏字符替换所述目标文本的部分字符,得到替换文本;
[0030]若所述目标文本不存在标签,则直接将所述替换文本作为所述训练数据;
[0031]若所述目标文本存在标签,则利用预置的文本模板对所述替换文本进行处理,得到训练数据。
[0032]可选的,所述文本模板包括多个违禁类别对应的固定顺序以及具体位置,还包括替换文本的具体位置;
[0033]利用预置的文本模板对所述替换文本进行处理,得到训练数据,包括:
[0034]利用所述替换文本对应的目标文本的标注标签,确定每个违禁类别对应的二分类结果;
[0035]基于文本模板中多个违禁类别对应的固定顺序,确定每个二分类结果的顺序;
[0036]根据各个二分类结果的顺序,形成二分类结果组合;
[0037]基于文本模板中多个违禁类别对应的具体位置、文本模板中替换文本的具体位置、所述二分类结果组合以及所述替换文本,生成训练数据。
[0038]可选的,所述基于文本模板中多个违禁类别对应的具体位置、文本模板中替换文本的具体位置、所述二分类结果组合以及所述替换文本,生成训练数据,包括:
[0039]根据文本模板中多个违禁类别对应的具体位置,以及替换文本的具体位置,对二分类结果组合以及替换文本进行组合,得到组合数据;
[0040]在所述组合数据中增加预置的前缀字符,并在所述组合数据的二分类结果以及所述替换文本间增加后缀字符,得到训练数据,以便所述训练数据输入至所述文本分类模型后,所述文本分类模型基于所述前缀字符以及所述后缀字符区分并识别所述二分类结果组合以及所述替换文本。
[0041]一种文本分类模型训练装置,包括:
[0042]确定单元,用于确定训练文本集合,所述训练文本集合中包含多个无标签的违规文本、多个有标注违禁类别的违规文本,以及,多个无标签的正常文本;
[0043]选取单元,用于依次从所述训练文本集合中选取目标文本;
[0044]生成单元,用于利用预置的隐藏字符以及所述目标文本,生成训练数据,所述训练数据为部分字符被隐藏字符替换的目标文本;
[0045]分类单元,用于将所述训练数据输入至文本分类模型中,得到所述文本分类模型预测的目标字符,以及所述文本分类模型基于所述训练数据预测的分类结果,所述分类结果为多个违禁类别对应的二分类结果,所述文本分类模型为待训练的文本分类模型;
[0046]计算单元,用于根据所述目标字符以及所述目标文本,计算所述文本分类模型的文本语义损失值;
[0047]利用单元,用于根据所述分类结果以及所述目标文本,计算所述文本分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类模型训练方法,其特征在于,包括:确定训练文本集合,所述训练文本集合中包含多个无标签的违规文本、多个有标注违禁类别的违规文本,以及,多个无标签的正常文本;依次从所述训练文本集合中选取目标文本;利用预置的隐藏字符以及所述目标文本,生成训练数据,所述训练数据为部分字符被隐藏字符替换的目标文本;将所述训练数据输入至文本分类模型中,得到所述文本分类模型预测的目标字符,以及所述文本分类模型基于所述训练数据预测的分类结果,所述分类结果为多个违禁类别对应的二分类结果;根据所述目标字符以及所述目标文本,计算所述文本分类模型的文本语义损失值;根据所述分类结果以及所述目标文本,计算所述文本分类模型的分类损失值;基于所述文本语义损失值以及所述分类损失值,对所述文本分类模型的参数进行调整,直至所述文本语义损失值以及所述分类损失值符合预置的条件为止,得到训练后的文本分类模型。2.根据权利要求1所述的文本分类模型训练方法,其特征在于,还包括:对所述训练后的文本分类模型的偏置参数以及权重参数进行调节处理,得到处理后的文本分类模型,所述处理后的文本分类模型的输出为与输入的文本对应的分类结果。3.根据权利要求2所述的文本分类模型训练方法,其特征在于,对所述训练后的文本分类模型的偏置参数以及权重参数进行调节处理,得到处理后的文本分类模型,包括:对所述训练后的文本分类模型中,与预测目标字符和预测分类结果相关的权重参数以及偏置参数进行调节,得到处理后的文本分类模型。4.根据权利要求3所述的文本分类模型训练方法,其特征在于,对所述训练后的文本分类模型中,与预测目标字符和预测分类结果相关的权重参数以及偏置参数进行调节,得到处理后的文本分类模型,包括:利用预置的调节公式对所述训练后的文本分类模型中,与预测目标字符和预测分类结果相关的权重参数以及偏置参数进行调节,得到处理后的文本分类模型;调节公式如下所示:H=BERT(X;θ)H=BERT(X;θ)H=BERT(X;θ)H=BERT(X;θ)H=BERT(X;θ)其中,X表示所述训练后的文本分类模型的输入,θ表示所述训练后的文本分类模型的权重参数,BERT表示采用文本分类模型进行语义编码,H表示经过文本分类模型编码后的语义向量,Slice1表示截取经过文本分类模型编码后的语义向量,表示分类结果对应语义
向量,表示经过全连接后的语义向量,LN表示进行Layer Normalization归一化操作,GELU表示高斯误差线性单元激活函数,W1表示全连接层的权重参数,B1表示全连接层的偏置参数,表示仅包含目标字符对应的向量矩阵,Slice2表示截取的词典中目标字符对应的向量矩阵,ETable表示词典的向量矩阵,表示违禁类别对应的二分类结果的分数,表示仅包含目标字符对应的向量矩阵的转置,B2表示维度变换(升维)的偏置参数,表示违禁类别对应的二分类结果的概率,Softmax表示采用softmax函数求取概率,所述词典为预先建立的字符数据库。5.根据权利要求1所述的文本分类模型训练方法,其特征在于,利用预置的隐藏字符以及所述目标文本,生成训练数据,包括:利用隐藏字符替换所述目标文本的部分字符,得到...

【专利技术属性】
技术研发人员:邓其春马金龙吴文亮黎子骏张政统王伟喆曾锐鸿盘子圣焦南凯兰翔徐志坚谢睿陈光尧
申请(专利权)人:广州趣丸网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1