【技术实现步骤摘要】
本专利技术涉及敏感词,尤其涉及一种文本变种词识别方法、装置、电子设备及存储介质。
技术介绍
1、随着移动互联网的迅速发展,网络媒体工具已经成为人们生活中不可分割的一部分。而在通过互联网传播文字的过程中,经常会出现用户发布敏感文字的情况,因此,需要对用户发布的内容进行审核。
2、敏感词是各个网站为了方便管理而设置的限制发布的词汇。一般为不健康、不文明的词。在具体应用中,一些网站也会设置一些只适用于本网站的特殊敏感词。
3、在现实场景中,为了规避敏感词审核,用户往往会采用敏感词的变种词来发布相关文字,从而使阅读者通过变种词联想到对应的敏感词,从而达到散播敏感文字的目的。
4、目前主要基于人工整理变种映射词表,去自动识别文本中是否含有变种词,进而去执行下一步的策略;或直接以文本分类的形式去识别文本是否为含有变种词的文本。
5、然而,上述方法变种词识别的准确性较低。
技术实现思路
1、本专利技术提供了一种文本变种词识别方法、装置、电子设备及存储介质,
...【技术保护点】
1.一种文本变种词识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述待识别文本进行预处理,得到预处理文本的步骤,包括:
3.根据权利要求1所述的方法,其特征在于,所述判断所述疑似变种词文本的变种链路的步骤,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述非文字类别确定所述非文字文本的变种链路的步骤,包括:
5.根据权利要求3所述的方法,其特征在于,所述根据所述文字类别确定所述文字文本的变种链路的步骤,包括:
6.一种文本变种词识别装置,其特征在于,包括:
< ...【技术特征摘要】
1.一种文本变种词识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述待识别文本进行预处理,得到预处理文本的步骤,包括:
3.根据权利要求1所述的方法,其特征在于,所述判断所述疑似变种词文本的变种链路的步骤,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述非文字类别确定所述非文字文本的变种链路的步骤,包括:
5.根据权利要求3所述的方法,其特征在于,所述根据所述文字类别确定所述文字文本的...
【专利技术属性】
技术研发人员:张政统,马金龙,邓其春,吴文亮,黎子骏,王伟喆,廖艳冰,马飞,熊佳,曾锐鸿,周阳,徐志坚,谢睿,陈光尧,
申请(专利权)人:广州趣研网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。