【技术实现步骤摘要】
本专利技术涉及数据安全,具体涉及一种文本中的敏感词快速检索方法、装置、设备及存储介质。
技术介绍
1、当前通过网络传播的信息规模越来越大,网络信息的质量监控需求也相应地快速增长。为了营造文明和谐的互联网环境,现有的网络文本信息监控通常采用“敏感词”的检索与过滤来实现。其中,敏感词包括新华社公布的禁用词、不文明用语等。
2、现有技术中,专利公开号为cn115438140a,名称为一种基于后缀索引的敏感词检索方法及系统,该方法中包括循环遍历目标文本中的每一个字符,然后构建所述目标文本的公共前缀数组,接着通过预构建的敏感词库的多级后缀索引对所述公共前缀数组进行检索,获得所述目标文本的敏感词的检索结果。然而该方法存在的不足有:文本没有规格化处理,容易导致词汇文本误判的可能性,因此也会降低效率和准确性。同时预构建模型,对文本的格式也有要求,无法用于大范围的常态化文本建模处理,会导致检索精度丢失。
3、又如专利申请号为cn202210476382.x,名称为一种基于云计算平台的敏感词研判方法,其技术方案为:具体敏感词研判步骤
...【技术保护点】
1.一种文本中的敏感词快速检索方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种文本中的敏感词快速检索方法,其特征在于,对敏感词库进行扩展,包括:将现有敏感词的中英文混用、拼音汉字混用、缩写简写形成的替代词集,一同加入到现有敏感词库中。
3.根据权利要求1所述的一种文本中的敏感词快速检索方法,其特征在于,所述的对待检索文本进行规范化处理,包括:清除文本中无关的符号,标识以及可能的特殊字符等,以删除不必要的标签。
4.根据权利要求1所述的一种文本中的敏感词快速检索方法,其特征在于,使用文本分块函数对待检索的文本进行多段文本
...【技术特征摘要】
1.一种文本中的敏感词快速检索方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种文本中的敏感词快速检索方法,其特征在于,对敏感词库进行扩展,包括:将现有敏感词的中英文混用、拼音汉字混用、缩写简写形成的替代词集,一同加入到现有敏感词库中。
3.根据权利要求1所述的一种文本中的敏感词快速检索方法,其特征在于,所述的对待检索文本进行规范化处理,包括:清除文本中无关的符号,标识以及可能的特殊字符等,以删除不必要的标签。
4.根据权利要求1所述的一种文本中的敏感词快速检索方法,其特征在于,使用文本分块函数对待检索的文本进行多段文本划分时,相邻文本子块的重叠区域必须能够包含敏感词库中最长的敏感词,分块的数量不能超过并行任务节点的个数。
5.根据权利要求2所述的一种文本中的敏感词快速检索方法,其特征在于,对敏感词库进...
【专利技术属性】
技术研发人员:陈琛,罗佳丽,赵炜煜,邱权,孙健庭,穆明,刘昱均,
申请(专利权)人:成都飞机工业集团有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。