文本内容审核方法、装置及电子设备制造方法及图纸

技术编号:36301401 阅读:14 留言:0更新日期:2023-01-13 10:17
本发明专利技术提供了一种文本内容审核方法、装置及电子设备,涉及计算机技术领域,该方法包括:获取待审核文本;将上述待审核文本进行预处理,得到预处理文本;将上述预处理文本输入预先训练好的文本预测模型中,输出上述待审核文本的文本审核结果;上述文本审核结果包括上述预处理文本对应第一分句的第一预测结果以及上述第一分句对应多个字符片段的第二预测结果;基于上述文本审核结果中的第一预测结果以及上述第二预测结果,确定上述待审核文本是否违规。该方法通过对待审核文本每个分句的句意与每个分句对应字段分别进行语义预测,并对上述语义预测结果进行融合,以提升文本内容审核的准确性。的准确性。的准确性。

【技术实现步骤摘要】
文本内容审核方法、装置及电子设备


[0001]本专利技术涉及计算机
,尤其是涉及一种文本内容审核方法、装置及电子设备。

技术介绍

[0002]文本内容审核中,需要判断文本是否违规。
[0003]目前,常见的技术方案有下述两种:其一,基于关键词匹配的规则检测方法。即预先收集每种问题类别的违规敏感词,构建敏感词库。该方法在实际使用时,在待检测文本中查找违规敏感词,如果找到某种问题类别的敏感词,则判定为相应类别的违规。其二,基于机器学习模型的文本分类方法。即预先收集大量待检测的文本,人工进行标注,注明每段文本是否违规以及属于哪种类别的违规。然后训练一个文本分类模型,来预测文本是否违规以及属于哪种类型的违规。这里的文本分类模型可以是传统的机器学习方法,也可以是基于深度学习的神经网络模型。
[0004]然而,当待审核句子中出现违规词汇,但该待审核句子不属于违规含义时,上述方法得到的文本审核结果并不准确。

技术实现思路

[0005]本专利技术的目的在于提供一种文本内容审核方法、装置及电子设备,以提升文本内容审核的准确性。
[0006]第一方面,本专利技术实施例提供了一种文本内容审核方法,其中,包括:获取待审核文本;将上述待审核文本进行预处理,得到预处理文本;将上述预处理文本输入预先训练好的文本预测模型中,输出上述待审核文本的文本审核结果;上述文本审核结果包括上述预处理文本对应第一分句的第一预测结果以及上述第一分句对应多个字符片段的第二预测结果;基于上述文本审核结果中的第一预测结果以及上述第二预测结果,确定上述待审核文本是否违规。
[0007]结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,上述文本预测模型通过下述方式构建得到:获取预设的训练数据集;上述训练数据集包括预设文本以及预设文本的标注;上述标注包括:上述预设文本对应第二分句的第一违规类型标注以及上述第二分句对应的多个字符片段的第二违规类型标注;根据上述训练数据集训练预设的初始transformer模型,直到满足预设的训练结束条件,得到训练好的transformer模型;基于上述训练好的transformer模型、预设的分类器以及预设的序列头处理程序,构建得到上述文本预测模型。
[0008]结合第一方面的第一种可能的实施方式,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,根据上述训练数据集训练预设的初始transformer模型,直到满足预设的训练结束条件,得到训练好的transformer模型的步骤,包括:将上述训练数据集输入上述初始transformer模型后,在上述训练数据集的上述第二分句中添加预设字符的第
一嵌入向量,得到第一中间训练数据集,并确定上述第二分句对应的多个字符片段的第二嵌入向量,得到第二中间训练数据集;根据上述第一中间训练数据集,确定第一违规预测类别并根据上述第二中间训练数据集,确定第二违规预测类别;将上述第一违规预测类别以及上述第二违规预测类别分别进行交叉熵计算模型损失,得到第一损失以及第二损失;根据上述第一损失和上述第二损失,确定损失函数;根据上述损失函数,进行反向传播,更新上述初始transformer模型的参数,直到满足预设的训练结束条件,得到训练好的transformer模型。
[0009]结合第一方面的第二种可能的实施方式,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,根据上述第一中间训练数据集,确定第一违规预测类别并根据上述第二中间训练数据集,确定第二违规预测类别的步骤,包括:根据上述第一中间训练数据集,确定第一中间违规预测类别,并根据上述第二中间训练数据集,确定第二中间违规预测类别;分别对上述第一中间违规预测类别以及上述第二中间违规预测类别进行归一化处理,得到第一违规预测类别以及第二违规预测类别。
[0010]结合第一方面的第二种可能的实施方式,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,根据上述第一损失和上述第二损失,确定损失函数的步骤,包括:将上述第一损失和上述第二损失的和确定为上述损失函数。
[0011]结合第一方面的第一种可能的实施方式,本专利技术实施例提供了第一方面的第五种可能的实施方式,其中,获取预设的训练数据集的步骤,包括:通过网络爬虫在网站上爬取预设类型的原始文本;将上述原始文本进行预处理,得到预设文本;将上述预设文本按照标点符号进行分句处理,得到中间预设文本;分别对上述中间预设文本对应的第三分句进行添加上述第一违规类型标注,并对上述中间预设文本中每个上述第三分句对应的多个字符片段添加上述第二违规类型标注,得到标注后的中间预设文本;根据上述预设文本和上述标注后的中间预设文本,确定训练数据集。
[0012]结合第一方面,本专利技术实施例提供了第一方面的第六种可能的实施方式,其中,将上述待审核文本进行预处理,得到预处理文本的步骤,包括:基于预设清洗规则对上述待审核文本进行数据清洗,得到预处理文本。
[0013]结合第一方面,本专利技术实施例提供了第一方面的第七种可能的实施方式,其中,基于上述文本审核结果中的第一预测结果以及上述第二预测结果,确定上述待审核文本是否违规的步骤,包括:基于预设合并规则对上述第二预测结果进行合并,得到合并后的第二预测结果;根据上述合并后的第二预测结果和上述第一预测结果,确定上述待审核文本是否违规。
[0014]第二方面,本专利技术实施例提供了一种文本内容审核装置,其中,包括:文本获取模块,用于获取待审核文本;文本预处理模块,用于将上述待审核文本进行预处理,得到预处理文本;模型预测模块,用于将上述预处理文本输入预先训练好的文本预测模型中,输出上述待审核文本的文本审核结果;上述文本审核结果包括上述预处理文本对应第一分句的第一预测结果以及上述第一分句对应多个字符片段的第二预测结果;违规结果输出模块,用于基于上述文本审核结果中的第一预测结果以及上述第二预测结果,确定上述待审核文本是否违规。
[0015]第三方面,本专利技术实施例提供了一种电子设备,其中,上述电子设备包括处理器和
存储器,上述存储器存储有能够被上述处理器执行的机器可执行指令,上述处理器执行上述机器可执行指令以实现第一方面至第一方面的第七种可能的实施方式任一项的文本内容审核方法。
[0016]本专利技术实施例带来了以下有益效果:本专利技术实施例提供了一种文本内容审核方法、装置及电子设备,其中,包括:获取待审核文本;将上述待审核文本进行预处理,得到预处理文本;将上述预处理文本输入预先训练好的文本预测模型中,输出上述待审核文本的文本审核结果;上述文本审核结果包括上述预处理文本对应第一分句的第一预测结果以及上述第一分句对应多个字符片段的第二预测结果;基于上述文本审核结果中的第一预测结果以及上述第二预测结果,确定上述待审核文本是否违规。该方法通过对待审核文本每个分句的句意与每个分句对应字段分别进行语义预测,并对上述语义预测结果进行融合,以提升文本内容审核的准确性。
附图说明
[0017]为了更清楚地说明本专利技术具体实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本内容审核方法,其特征在于,包括:获取待审核文本;将所述待审核文本进行预处理,得到预处理文本;将所述预处理文本输入预先训练好的文本预测模型中,输出所述待审核文本的文本审核结果;所述文本审核结果包括所述预处理文本对应第一分句的第一预测结果以及所述第一分句对应多个字符片段的第二预测结果;基于所述文本审核结果中的第一预测结果以及所述第二预测结果,确定所述待审核文本是否违规。2.根据权利要求1所述的文本内容审核方法,其特征在于,所述文本预测模型通过下述方式构建得到:获取预设的训练数据集;所述训练数据集包括预设文本以及预设文本的标注;所述标注包括:所述预设文本对应第二分句的第一违规类型标注以及所述第二分句对应的多个字符片段的第二违规类型标注;根据所述训练数据集训练预设的初始transformer模型,直到满足预设的训练结束条件,得到训练好的transformer模型;基于所述训练好的transformer模型、预设的分类器以及预设的序列头处理程序,构建得到所述文本预测模型。3.根据权利要求2所述的文本内容审核方法,其特征在于,根据所述训练数据集训练预设的初始transformer模型,直到满足预设的训练结束条件,得到训练好的transformer模型的步骤,包括:将所述训练数据集输入所述初始transformer模型后,在所述训练数据集的所述第二分句中添加预设字符的第一嵌入向量,得到第一中间训练数据集,并确定所述第二分句对应的多个字符片段的第二嵌入向量,得到第二中间训练数据集;根据所述第一中间训练数据集,确定第一违规预测类别并根据所述第二中间训练数据集,确定第二违规预测类别;将所述第一违规预测类别以及所述第二违规预测类别分别进行交叉熵计算模型损失,得到第一损失以及第二损失;根据所述第一损失和所述第二损失,确定损失函数;根据所述损失函数,进行反向传播,更新所述初始transformer模型的参数,直到满足预设的训练结束条件,得到训练好的transformer模型。4.根据权利要求3所述的文本内容审核方法,其特征在于,根据所述第一中间训练数据集,确定第一违规预测类别并根据所述第二中间训练数据集,确定第二违规预测类别的步骤,包括:根据所述第一中间训练数据集,确定第一中间违规预测类别,并根据所述第二中间训练数...

【专利技术属性】
技术研发人员:李文举李海峰吴一超支蕴倩
申请(专利权)人:北京匠数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1