一种基于变体对抗敏感文本识别方法和系统技术方案

技术编号:40182703 阅读:26 留言:0更新日期:2024-01-26 23:48
本申请公开了一种基于变体对抗敏感文本识别方法和系统,所述方法包括:接收用户输入的原始数据,判断所述原始数据的场景类型;利用预先构建的对应场景类型的变体库对所述原始数据进行变体查找;对所述原数据中变体利用规范文字进行替换,对替换后的原始数据进行敏感内容搜索。通过本申请方法,将用户输入的原始数据中的变体进行搜索并替换为正常的文字,从而提高了敏感词的检测准确度。

【技术实现步骤摘要】

本申请涉及敏感文字处理,具体涉及一种对抗敏感文本识别方法和系统。


技术介绍

1、如今,互联网的各大社交平台用户数量激增,平台内容更新不断,用户随时随地发布的文本信息可能涉及政治、军事、娱乐、经济、道德等多个领域,越来越多的信息夹杂各种涉嫌各种不良信息,而这些信息的共同点是包含大量敏感词。一般情况下,网络不良信息使用的是准确无误的中文汉字,没有任何变形处理,这样只需简单的字符串匹配方法就能解决。

2、在常规敏感文本检测过程中,当用户发现文本无法发出时,往往会通过一些手段来改变文字的正常状态,或通过某些相近文本替代的方式来绕过常规检测过程。而传统的文本审核方法往往容易被规避或绕过,无法完全阻止敏感文本内容的传播。

3、综上所述,当前传统的敏感词识别算法无法处理变形体,而现有中文敏感词识别算法可处理的敏感词变形体类型有限且识别准确率不高。因此,如何提高敏感词识别的准确率成为一个亟待解决的问题。


技术实现思路

1、基于此,针对上述技术问题,提供一种基于变体对抗敏感文本识别方法和系统,以解决现有本文档来自技高网...

【技术保护点】

1.一种基于变体对抗敏感文本识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于变体对抗敏感文本识别方法,其特征在于,所述变体库的构建包括以下步骤:

3.根据权利要求1所述的基于变体对抗敏感文本识别方法,其特征在于,对替换后的原始数据进行敏感内容搜索前,还包括:对替换后的原始数据进行预处理,所述预处理包括词序重排、缺少字符插入、多余字符删除。

4.根据权利要求1所述的基于变体对抗敏感文本识别方法,其特征在于,对所述原始数据中变体利用规范文字进行替换,对替换后的原始数据进行敏感内容搜索替换为:

5.根据权利要求1所述的基于变体对...

【技术特征摘要】

1.一种基于变体对抗敏感文本识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于变体对抗敏感文本识别方法,其特征在于,所述变体库的构建包括以下步骤:

3.根据权利要求1所述的基于变体对抗敏感文本识别方法,其特征在于,对替换后的原始数据进行敏感内容搜索前,还包括:对替换后的原始数据进行预处理,所述预处理包括词序重排、缺少字符插入、多余字符删除。

4.根据权利要求1所述的基于变体对抗敏感文本识别方法,其特征在于,对所述原始数据中变体利用规范文字进行替换,对替换后的原始数据进行敏感内容搜索替换为:

5.根据权利要求1所述的基于变体对抗敏感文本识别方法,其特征在于,对所述原始数据进行敏感内容搜索后,还包括:

6.一种基于变体对抗敏感文本识别系统,其特征在于,所述系统包括:

7.根据权利要求6...

【专利技术属性】
技术研发人员:王圳赵健军杜晓祥
申请(专利权)人:北京云上曲率科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1