【技术实现步骤摘要】
一种变体文本分类识别方法、系统、存储介质和电子设备
[0001]本专利技术涉及文本分类
,尤其涉及一种变体文本分类识别方法、系统、存储介质和电子设备。
技术介绍
[0002]通常可以使用神经网络训练得到分类模型,从而实现对违禁内容的识别与拦截。为了躲避网络监管,不良文本内容往往包含了大量的变体,这些变体或是音近、形近,这给互联网内容监管带来了巨大的挑战。为了应对这些变体带来的挑战,通常的解决方案是在训练分类模型的数据集中加入对应的变体样本。但上述方案在提升模型对于变体样本召回率的同时,也会降低分类模型的准确率。
[0003]因此,亟需提供一种技术方案解决现有技术中存在问题。
技术实现思路
[0004]为解决上述技术问题,本专利技术提供了一种变体文本分类识别方法、系统、存储介质和电子设备。
[0005]本专利技术的一种变体文本分类识别方法的技术方案如下:
[0006]获取第一文本数据集、受监管语料数据集和未受监管语料数据集,并根据所述受监管语料数据集和所述未受监管语料数据集构建变体
【技术保护点】
【技术特征摘要】
1.一种变体文本分类识别方法,其特征在于,包括:获取第一文本数据集、受监管语料数据集和未受监管语料数据集,并根据所述受监管语料数据集和所述未受监管语料数据集构建变体纠错文本数据集;基于所述第一文本数据集和所述变体纠错文本数据集,对第一原始神经网络模型进行训练,得到用于文本变体纠错与文本分类识别的目标文本分类模型;将待识别文本输入至所述目标文本分类模型中,得到包含所述待识别文本的变体纠错与文本分类的目标识别结果。2.根据权利要求1所述的变体文本分类识别方法,其特征在于,还包括:基于所述第一文本数据集,对用于文本分类的第二原始神经网络模型进行训练,得到原始文本分类模型。3.根据权利要求2所述的变体文本分类识别方法,其特征在于,所述根据所述受监管语料数据集和所述未受监管语料数据集构建变体纠错文本数据集的步骤,包括:利用所述原始文本分类模型对所述受监管语料数据集进行分类,得到受监管语料黑样本集和受监管语料白样本集,并利用所述原始文本分类模型对所述未受监管语料数据集进行分类,得到未受监管语料黑样本集和未受监管语料白样本集;利用所述受监管语料黑样本集训练生成受监管语言模型,并利用所述未受监管语料黑样本集训练生成未受监管语言模型;基于关键词提取技术,从所述未受监管语料黑样本集中提取黑样本模板,并根据所述黑样本模板、所述受监管语言模型和所述未受监管语言模型,得到第一变体映射数据集;对所述第一变体映射数据集进行人工标注,得到目标变体映射数据集,并根据所述目标变体映射数据集、所述受监管语料白样本集和所述未受监管语料白样本集,得到所述变体纠错文本数据集。4.根据权利要求3所述的一种变体文本分类识别方法,其特征在于,所述利用所述受监管语料黑样本集训练生成受监管语言模型,并利用所述未受监管语料黑样本集训练生成未受监管语言模型的步骤,包括:采用Masked LM方式,对所述受监管语料黑样本集进行训练,得到所述受监管语言模型,并对所述未受监管语料黑样本集进行训练,得到所述未受监管语言模型。5.一种变体文本分类识别系统,其特征在于,包括:构建模块、训练模块和识别模块;所述构建模块用于:获取第一文本数据集、受监管语料数据集和未受监管语料数据集,并根据所述受监...
【专利技术属性】
技术研发人员:刘苏楠,
申请(专利权)人:数美天下北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。