一种文本变种词识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41512718 阅读:25 留言:0更新日期:2024-05-30 14:50
本发明专利技术公开了一种文本变种词识别方法、装置、电子设备及存储介质,用于解决现有的变种词识别方法准确性较低的技术问题。本发明专利技术包括:接收待识别文本;对所述待识别文本进行预处理,得到预处理文本;判断所述预处理文本是否为疑似变种词文本;若是,则判断所述疑似变种词文本的变种链路;获取所述变种链路对应的识别规则;采用所述识别规则识别所述疑似变种词文本,得到所述疑似变种词文本对应的原始词。

【技术实现步骤摘要】

本专利技术涉及敏感词,尤其涉及一种文本变种词识别方法、装置、电子设备及存储介质


技术介绍

1、随着移动互联网的迅速发展,网络媒体工具已经成为人们生活中不可分割的一部分。而在通过互联网传播文字的过程中,经常会出现用户发布敏感文字的情况,因此,需要对用户发布的内容进行审核。

2、敏感词是各个网站为了方便管理而设置的限制发布的词汇。一般为不健康、不文明的词。在具体应用中,一些网站也会设置一些只适用于本网站的特殊敏感词。

3、在现实场景中,为了规避敏感词审核,用户往往会采用敏感词的变种词来发布相关文字,从而使阅读者通过变种词联想到对应的敏感词,从而达到散播敏感文字的目的。

4、目前主要基于人工整理变种映射词表,去自动识别文本中是否含有变种词,进而去执行下一步的策略;或直接以文本分类的形式去识别文本是否为含有变种词的文本。

5、然而,上述方法变种词识别的准确性较低。


技术实现思路

1、本专利技术提供了一种文本变种词识别方法、装置、电子设备及存储介质,用于解决现有的变种词本文档来自技高网...

【技术保护点】

1.一种文本变种词识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述待识别文本进行预处理,得到预处理文本的步骤,包括:

3.根据权利要求1所述的方法,其特征在于,所述判断所述疑似变种词文本的变种链路的步骤,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述非文字类别确定所述非文字文本的变种链路的步骤,包括:

5.根据权利要求3所述的方法,其特征在于,所述根据所述文字类别确定所述文字文本的变种链路的步骤,包括:

6.一种文本变种词识别装置,其特征在于,包括:

<p>7.根据权利要求...

【技术特征摘要】

1.一种文本变种词识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述待识别文本进行预处理,得到预处理文本的步骤,包括:

3.根据权利要求1所述的方法,其特征在于,所述判断所述疑似变种词文本的变种链路的步骤,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述非文字类别确定所述非文字文本的变种链路的步骤,包括:

5.根据权利要求3所述的方法,其特征在于,所述根据所述文字类别确定所述文字文本的...

【专利技术属性】
技术研发人员:张政统马金龙邓其春吴文亮黎子骏王伟喆廖艳冰马飞熊佳曾锐鸿周阳徐志坚谢睿陈光尧
申请(专利权)人:广州趣研网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1