文本内容审核方法、装置及电子设备制造方法及图纸

技术编号：36301401 阅读：14 留言：0更新日期：2023-01-13 10:17

本发明专利技术提供了一种文本内容审核方法、装置及电子设备，涉及计算机技术领域，该方法包括：获取待审核文本；将上述待审核文本进行预处理，得到预处理文本；将上述预处理文本输入预先训练好的文本预测模型中，输出上述待审核文本的文本审核结果；上述文本审核结果包括上述预处理文本对应第一分句的第一预测结果以及上述第一分句对应多个字符片段的第二预测结果；基于上述文本审核结果中的第一预测结果以及上述第二预测结果，确定上述待审核文本是否违规。该方法通过对待审核文本每个分句的句意与每个分句对应字段分别进行语义预测，并对上述语义预测结果进行融合，以提升文本内容审核的准确性。的准确性。的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文本内容审核方法、装置及电子设备

[0001]本专利技术涉及计算机
，尤其是涉及一种文本内容审核方法、装置及电子设备。

技术介绍

[0002]文本内容审核中，需要判断文本是否违规。
[0003]目前，常见的技术方案有下述两种:其一，基于关键词匹配的规则检测方法。即预先收集每种问题类别的违规敏感词，构建敏感词库。该方法在实际使用时，在待检测文本中查找违规敏感词，如果找到某种问题类别的敏感词，则判定为相应类别的违规。其二，基于机器学习模型的文本分类方法。即预先收集大量待检测的文本，人工进行标注，注明每段文本是否违规以及属于哪种类别的违规。然后训练一个文本分类模型，来预测文本是否违规以及属于哪种类型的违规。这里的文本分类模型可以是传统的机器学习方法，也可以是基于深度学习的神经网络模型。
[0004]然而，当待审核句子中出现违规词汇，但该待审核句子不属于违规含义时，上述方法得到的文本审核结果并不准确。

技术实现思路

[0005]本专利技术的目的在于提供一种文本内容审核方法、装置及电子设备，以提升文本内容审核的准确性。
[0006]第一方面，本专利技术实施例提供了一种文本内容审核方法，其中，包括：获取待审核文本；将上述待审核文本进行预处理，得到预处理文本；将上述预处理文本输入预先训练好的文本预测模型中，输出上述待审核文本的文本审核结果；上述文本审核结果包括上述预处理文本对应第一分句的第一预测结果以及上述第一分句对应多个字符片段的第二预测结果；基于上述文本审核结果中的第一预测结果以及...

【技术保护点】

【技术特征摘要】
1.一种文本内容审核方法，其特征在于，包括：获取待审核文本；将所述待审核文本进行预处理，得到预处理文本；将所述预处理文本输入预先训练好的文本预测模型中，输出所述待审核文本的文本审核结果；所述文本审核结果包括所述预处理文本对应第一分句的第一预测结果以及所述第一分句对应多个字符片段的第二预测结果；基于所述文本审核结果中的第一预测结果以及所述第二预测结果，确定所述待审核文本是否违规。2.根据权利要求1所述的文本内容审核方法，其特征在于，所述文本预测模型通过下述方式构建得到：获取预设的训练数据集；所述训练数据集包括预设文本以及预设文本的标注；所述标注包括：所述预设文本对应第二分句的第一违规类型标注以及所述第二分句对应的多个字符片段的第二违规类型标注；根据所述训练数据集训练预设的初始transformer模型，直到满足预设的训练结束条件，得到训练好的transformer模型；基于所述训练好的transformer模型、预设的分类器以及预设的序列头处理程序，构建得到所述文本预测模型。3.根据权利要求2所述的文本内容审核方法，其特征在于，根据所述训练数据集训练预设的初始transformer模型，直到满足预设的训练结束条件，得到训练好的transformer模型的步骤，包括：将所述训练数据集输入所述初始transformer模型后，在所述训练数据集的所述第二分句中添加预设字符的第一嵌入向量，得到第一中间训练数据集，并确定所述第二分句对应的多个字符片段的第二嵌入向量，得到第二中间训练数据集；根据所述第一中间训练数据集，确定第一违规预测类别并根据所述第二中间训练数据集，确定第二违规预测类别；将所述第一违规预测类别以及所述第二违规预测类别分别进行交叉熵计算模型损失，得到第一损失以及第二损失；根据所述第一损失和所述第二损失，确定损失函数；根据所述损失函数，进行反向传播，更新所述初始transformer模型的参数，直到满足预设的训练结束条件，得到训练好的transformer模型。4.根据权利要求3所述的文本内容审核方法，其特征在于，根据所述第一中间训练数据集，确定第一违规预测类别并根据所述第二中间训练数据集，确定第二违规预测类别的步骤，包括：根据所述第一中间训练数据集，确定第一中间违规预测类别，并根据所述第二中间训练数...

【专利技术属性】
技术研发人员：李文举，李海峰，吴一超，支蕴倩，
申请(专利权)人：北京匠数科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人