一种基于自动分类的文本审查方法技术

技术编号:41180596 阅读:24 留言:0更新日期:2024-05-07 22:15
本发明专利技术公开了一种基于自动分类的文本审查方法,涉及文本审查技术领域,包括以下步骤:S1、获取目标文本,且收集敏感词序列,所述敏感词序列包括一级、二级和三级敏感词,并将所述一级、二级和三级敏感词存储至敏感词数据库中,S2、对获取的所述目标文本进行预处理,所述预处理包括删除所述目标文本中的特殊字符、标点占比超过阈值的标点和字符数量超过限制的字符。本发明专利技术通过自动识别和标注敏感词,减轻了人工审核的负担,提高了审查效率,并且通过比较和调整敏感词识别模型,能够提高对目标文本中敏感内容的准确识别和判断,减少漏审和错审的概率。

【技术实现步骤摘要】

本专利技术涉及文本审查,具体为一种基于自动分类的文本审查方法


技术介绍

1、文本审查是指对文本内容进行审核和筛查,以识别和过滤出其中的敏感、不当或违规内容,自动分类是指利用计算机技术和机器学习算法对数据或文本进行自动分类和归类的过程;

2、传统的文本审查方法通常采用人工审核的方式,需要投入大量的人力和物力,并且审核效率低下,并且传统的文本审查方法需要人工逐条审核,效率低下,不能满足大规模文本的快速审核需求,并且人工审核容易出现主观判断和疏漏,审核准确性难以保证,并且传统的文本审查方法往往只能识别单个敏感词,无法全面分析文本中的敏感内容,容易漏审或错审,同时也容易过度审查,将正常的言论误判为敏感内容,而且传统的文本审查方法的敏感词列表往往是固定的,无法及时应对新型敏感词的出现。


技术实现思路

1、本专利技术的目的在于提供一种基于自动分类的文本审查方法,以解决上述
技术介绍
中提出的问题。

2、为实现上述目的,本专利技术提供如下技术方案:一种基于自动分类的文本审查方法,包括以下步骤:

本文档来自技高网...

【技术保护点】

1.一种基于自动分类的文本审查方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于自动分类的文本审查方法,其特征在于:所述步骤S2中,对获取的所述目标文本进行预处理,所述预处理包括删除所述目标文本中的特殊字符、标点占比超过阈值的标点和字符数量超过限制的字符,包括以下步骤:

3.根据权利要求1所述的一种基于自动分类的文本审查方法,其特征在于:所述步骤S3中,将预处理后的所述目标文本输入至第一敏感词识别模型中,通过所述第一敏感词识别模型输出所述目标文本中的敏感词标注信息实体,人工对预处理后的所述目标文本进行敏感词标注,以获取验证敏感词标注信息,包括以下步...

【技术特征摘要】

1.一种基于自动分类的文本审查方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于自动分类的文本审查方法,其特征在于:所述步骤s2中,对获取的所述目标文本进行预处理,所述预处理包括删除所述目标文本中的特殊字符、标点占比超过阈值的标点和字符数量超过限制的字符,包括以下步骤:

3.根据权利要求1所述的一种基于自动分类的文本审查方法,其特征在于:所述步骤s3中,将预处理后的所述目标文本输入至第一敏感词识别模型中,通过所述第一敏感词识别模型输出所述目标文本中的敏感词标注信息实体,人工对预处理后的所述目标文本进行敏感词标注,以获取验证敏感词标注信息,包括以下步骤:

4.根据权利要求1所述的一种基于自动分类的文本审查方法,其特征在于:所述步骤s4中,根据所述验证敏感词标注信息对所述敏感词标注信息实体进行比较,若两者相似度高于预设阈值,则判断所述第一敏感词识别模型为第二敏感词识别模型,所述第二敏感词识别模型表示训练完成的敏感词识别模型,若两者相似度低于预设阈值,则调整神经网络参数再次训练所述第一敏感词识别模型,包括以下步骤:

5.根据权...

【专利技术属性】
技术研发人员:庞雨秾邓静思黄壮源
申请(专利权)人:法狗狗深圳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1