一种文本中的敏感词快速检索方法、装置、设备及存储介质制造方法及图纸

技术编号:41880359 阅读:16 留言:0更新日期:2024-07-02 00:34
本发明专利技术公开了一种文本中的敏感词快速检索方法、装置、设备及存储介质,属于数据安全技术领域,包括:预定义多级敏感词,针对不同等级的敏感词设定不同级别的脱敏规则,建立敏感词库并进行扩展得到敏感词扩展库;对待检索文本进行规范化处理,使用文本分块函数对待检索文本进行多段文本划分,记录每部分文本的起始位置和结束位置;多个任务节点读取敏感词列表,对分配到的子文本进行敏感词检索,并记录敏感词相对于重叠区域的位置;根据所有任务节点统计的非重叠区域和重叠区域的匹配次数,计算文本总敏感词数量。本发明专利技术采用多节点并行执行敏感词检索操作,每个节点只负责对应子文本的敏感词位置标记以及数量统计,提高了检索效率。

【技术实现步骤摘要】

本专利技术涉及数据安全,具体涉及一种文本中的敏感词快速检索方法、装置、设备及存储介质


技术介绍

1、当前通过网络传播的信息规模越来越大,网络信息的质量监控需求也相应地快速增长。为了营造文明和谐的互联网环境,现有的网络文本信息监控通常采用“敏感词”的检索与过滤来实现。其中,敏感词包括新华社公布的禁用词、不文明用语等。

2、现有技术中,专利公开号为cn115438140a,名称为一种基于后缀索引的敏感词检索方法及系统,该方法中包括循环遍历目标文本中的每一个字符,然后构建所述目标文本的公共前缀数组,接着通过预构建的敏感词库的多级后缀索引对所述公共前缀数组进行检索,获得所述目标文本的敏感词的检索结果。然而该方法存在的不足有:文本没有规格化处理,容易导致词汇文本误判的可能性,因此也会降低效率和准确性。同时预构建模型,对文本的格式也有要求,无法用于大范围的常态化文本建模处理,会导致检索精度丢失。

3、又如专利申请号为cn202210476382.x,名称为一种基于云计算平台的敏感词研判方法,其技术方案为:具体敏感词研判步骤如下:1)读取文本;本文档来自技高网...

【技术保护点】

1.一种文本中的敏感词快速检索方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种文本中的敏感词快速检索方法,其特征在于,对敏感词库进行扩展,包括:将现有敏感词的中英文混用、拼音汉字混用、缩写简写形成的替代词集,一同加入到现有敏感词库中。

3.根据权利要求1所述的一种文本中的敏感词快速检索方法,其特征在于,所述的对待检索文本进行规范化处理,包括:清除文本中无关的符号,标识以及可能的特殊字符等,以删除不必要的标签。

4.根据权利要求1所述的一种文本中的敏感词快速检索方法,其特征在于,使用文本分块函数对待检索的文本进行多段文本划分时,相邻文本子块...

【技术特征摘要】

1.一种文本中的敏感词快速检索方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种文本中的敏感词快速检索方法,其特征在于,对敏感词库进行扩展,包括:将现有敏感词的中英文混用、拼音汉字混用、缩写简写形成的替代词集,一同加入到现有敏感词库中。

3.根据权利要求1所述的一种文本中的敏感词快速检索方法,其特征在于,所述的对待检索文本进行规范化处理,包括:清除文本中无关的符号,标识以及可能的特殊字符等,以删除不必要的标签。

4.根据权利要求1所述的一种文本中的敏感词快速检索方法,其特征在于,使用文本分块函数对待检索的文本进行多段文本划分时,相邻文本子块的重叠区域必须能够包含敏感词库中最长的敏感词,分块的数量不能超过并行任务节点的个数。

5.根据权利要求2所述的一种文本中的敏感词快速检索方法,其特征在于,对敏感词库进...

【专利技术属性】
技术研发人员:陈琛罗佳丽赵炜煜邱权孙健庭穆明刘昱均
申请(专利权)人:成都飞机工业集团有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1