一种可压缩内存的敏感词快速查找方法及系统技术方案

技术编号:31314176 阅读:31 留言:0更新日期:2021-12-12 22:05
本发明专利技术涉及一种可压缩内存的敏感词快速查找方法及系统,该方法对敏感词库中敏感词键值进行数字化取模,以重复使用B+树节点,减少B+树节点数量,进而减少内存的占用,然后基于数字化键值创建敏感词库B+树节点,在B+树节点的链表中存储敏感词每个字符取模后键值一样的敏感词组,建立敏感词库B+树;对于待查询短文,对短文信息进行数字化取模,然后通过数字化键值查询敏感词B+树的节点,在查询到节点后再通过链表与敏感词进行比较,最终确定待查询短文中是否包含敏感词。该方法及系统有利于对敏感词进行快速查询,同时减少内存的使用。同时减少内存的使用。同时减少内存的使用。

【技术实现步骤摘要】
一种可压缩内存的敏感词快速查找方法及系统


[0001]本专利技术属于数据查找处理
,具体涉及一种可压缩内存的敏感词快速查找方法及系统。

技术介绍

[0002]由于短文信息应用模式和传播途径的多样化,需要对传播内容涉证、涉爆、涉黄等信息进行过滤处理;在手机短信、微博、即时通、评论、弹幕等短文中需要过滤的敏感词数量累积较大,需要独立的敏感词过滤服务能力,以方便敏感词的更新维护,而对不同短文系统提供共享的过滤能力,需要响应速度更快、敏感词库更庞大的独立系统。
[0003]在短文查找过程中,快速B+树查询算法被广泛应用。B+树是一个只跟查询字符串键长长度有关的查询算法,一般用于查询字符串键长长度变化不大的,B+树的每个节点需要管理子节点,保留指向子节点的指针和节点数据,因为敏感词大部分为中文,并且数量大,每步都相同的比较少,使用传统的B+树需要大量的树节点,而这种敏感词判断过滤的应用场景中,系统只需要对B+树节点的判断比较,所以B+树节点数量的大小与系统内存的开销成正比。

技术实现思路

[0004]本专利技术的目的在于提供本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种可压缩内存的敏感词快速查找方法,其特征在于,该方法对敏感词库中敏感词键值进行数字化取模,以重复使用B+树节点,减少B+树节点数量,进而减少内存的占用,然后基于数字化键值创建敏感词库B+树节点,在B+树节点的链表中存储敏感词每个字符取模后键值一样的敏感词组,建立敏感词库B+树;对于待查询短文,对短文信息进行数字化取模,然后通过数字化键值查询敏感词B+树的节点,在查询到节点后再通过链表与敏感词进行比较,最终确定待查询短文中是否包含敏感词。2.根据权利要求1所述的一种可压缩内存的敏感词快速查找方法,其特征在于,包括加载敏感词库和查询敏感词两个过程,所述加载敏感词库过程具体包括以下步骤:A1)读取配置的除数大小,用于取模计算;A2)从数据库或文件的敏感词库中读取敏感词,一次读取一条,如果所有敏感词都已处理结束,则结束该过程,否则使指针指向B+树的根节点,并转下一步;A3)将敏感词按字符取出,并取字符的UTF

8编码与配置的除数进行取模计算,然后判断所有字符是否都已处理结束,是则判断当前节点的数据链表是否存在敏感词,如不存在则加入数据链表,然后返回步骤A2读取下一个敏感词;如果未处理结束,则转下一步;A4)根据模的数值查找当前指针节点的子节点,如果存在子节点,则指针指向子节点,并判断当前节点对应关键字链表是否存在敏感词的当前字符,如不存在则加入链表,然后返回步骤A3继续取敏感词的下一个字符来处理;如果不存在子节点,则创建节点,指针指向新创建的节点,并添加当前字符到节点上的关键字链表,然后返回步骤A3继续取敏感词的下一个字符来处理;所述查询敏感词过程具体包括以下步骤:B1)对于待查询短文,记录其开始位置和当前位置,开始位置定义为要查询的一个敏感词从短文的哪个位置开始,当前位置定义为在查询敏感词中当前处理字符的位置;初始化开始位置和当前位置为0,即为短文的第一个字符,并初始化敏感词库当前的指针为根节点;B2)从短文当前位置读取一个字符,如果整个...

【专利技术属性】
技术研发人员:陈建华
申请(专利权)人:天翼爱动漫文化传媒有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1