关键词过滤方法及装置制造方法及图纸

技术编号:21832788 阅读:15 留言:0更新日期:2019-08-10 18:03
本发明专利技术实施例公开一种关键词过滤方法及装置,其中方法包括如下步骤:基于关键词集合训练一套自动机,根据自动机指示的有限状态机对待过滤文本进行关键词过滤,将过滤出的目标关键词输出至调用端。采用本发明专利技术,通过训练一套自动机,根据有限状态机确定过滤失败的节点,基于此节点顺序往后过滤,只需对文本进行一遍过滤即可得到想要的结果,可以提高关键词过滤的效率。

Keyword filtering method and device

【技术实现步骤摘要】
关键词过滤方法及装置
本专利技术涉及互联网环境优化
,尤其涉及一种关键词过滤方法及装置。
技术介绍
各种论坛、社区等各种网络互动平台中,每日都会有大量的发帖、回复等文本内容上传。为了营造一个健康良好的网络环境,需要准确的过滤掉一些不适合在公众场合提及的敏感词。传统的关键词顾虑通常是采取遍历关键词,利用正则循环查找要被过滤的文本内容,这种方式要遍历N编要过滤的文本内容,效率低下。
技术实现思路
本专利技术实施例提供一种关键词过滤方法及装置,通过训练一套自动机,根据有限状态机确定过滤失败的节点,基于此节点顺序往后过滤,只需对文本进行一遍过滤即可得到想要的结果,可以提高关键词过滤的效率。本专利技术实施例第一方面提供了一种关键词过滤方法,可包括:基于关键词集合训练一套自动机;根据自动机指示的有限状态机对待过滤文本进行关键词过滤;将过滤出的目标关键词输出至调用端。进一步的,在根据自动机指示的有限状态机对待过滤文本进行关键词过滤时,上述方法还包括:将关键词集合中的第一关键词与待过滤文本中的待过滤词汇进行匹配,第一关键词与待过滤词汇的第一个词节点相同,且在第一个词节点后具有最多的顺序分布一致的相同词节点;确定第一关键词中与待过滤关键词中第一个不匹配的失败词节点;在关键词集合中确定失败词节点指向的第二关键词,第二关键词中存在与失败词节点相同的词节点,且二者基于失败词节点具有最多的顺序分布一致的相同词节点。进一步的,上述方法还包括:当第二关键词与待过滤词汇的尾部词节点相同且分布顺序一致时,确定第二关键词为目标关键词。进一步的,上述方法还包括:若未匹配到目标关键词,返回文本良好提示信息。进一步的,上述方法还包括:将自动机存储之本地缓存。本专利技术实施例第二方面提供了一种关键词过滤装置,可包括:自动机训练模块,用于基于关键词集合训练一套自动机;关键词过滤模块,用于根据自动机指示的有限状态机对待过滤文本进行关键词过滤;结果输出模块,用于将过滤出的目标关键词输出至调用端。进一步的,上述关键词过滤模块包括:文本匹配单元,用于将关键词集合中的第一关键词与待过滤文本中的待过滤词汇进行匹配,第一关键词与待过滤词汇的第一个词节点相同,且在第一个词节点后具有最多的顺序分布一致的相同词节点;失败节点确定单元,用于确定第一关键词中与待过滤关键词中第一个不匹配的失败词节点;节点指向确定单元,用于在关键词集合中确定失败词节点指向的第二关键词,第二关键词中存在与失败词节点相同的词节点,且二者基于失败词节点具有最多的顺序分布一致的相同词节点。进一步的,上述装置还包括:过滤结果确定模块,用于当第二关键词与待过滤词汇的尾部词节点相同且分布顺序一致时,确定第二关键词为目标关键词。进一步的,上述装置还包括:提示信息输出模块,用于若未匹配到目标关键词,返回文本良好提示信息。进一步的,上述装置还包括:自动机存储模块,用于将自动机存储之本地缓存。在本专利技术实施例中,通过训练一套自动机,根据有限状态机确定过滤失败的节点,基于此节点顺序往后过滤,只需对文本进行一遍过滤即可得到想要的结果,提高了关键词过滤的效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。图1是本专利技术实施例提供的一种关键词过滤方法的流程示意图;图2是本专利技术实施例提供的一种状态机的结构示意图;图3是本专利技术实施例提供的另一种状态机的结构示意图;图4是本专利技术实施例提供的关键词过滤装置的结构示意图;图5是本专利技术实施例提供的关键词过滤模块的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。本专利技术实施例提供的关键词过滤方法可以应用于社区网站中滤除敏感词的应用场景中。下面将结合附图1-附图3,对本专利技术实施例提供的关键词过滤方法进行详细介绍。请参见图1,为本专利技术实施例提供了一种关键词过滤方法的流程示意图。如图1所示,本专利技术实施例的所述方法可以包括以下步骤S101-步骤S103。S101,基于关键词集合训练一套自动机。可以理解的是,上述装置可以获取云端大数据存储的敏感词库,将上述敏感词库作为训练自动机的关键词集合。具体的,上述装置可以基于关键词集合训练一套自动机,该自动机可以是有限状态机的数学模型。在本专利技术实施例的一个具体实现方式中,可以构建关键词为abcd,abc以及c的自动机如图2所示,对于待过滤的词汇,若过滤到词节点a之后的词节点不同,则可以认为过滤失败直接从词节点a返回至Root,若过滤到词节点b之后的词节点不同,则可以转向下一个包含b的关键词bcd进行过滤,而在bcd中过滤到c又不一致时,可以转向下一个包含c的关键词c进行过滤,以此类推,无论匹配哪个关键词,只要遇到匹配失败的节点,则可以转向下一个关键词(下一个状态)进行过滤。若当前过滤的关键词到最后都不能确定为想要的结果,则均返回至Root。S102,根据自动机指示的有限状态机对待过滤文本进行关键词过滤。具体的,上述装置可以根据自动机指示的有限状态机对待过滤文本进行关键词过滤,可以理解的是,上述待过滤文本可以是在网站或者贴吧等平台上发布的帖子,在将帖子公开之前可以检测其中是否含有不适合公开的敏感词。在可选实施例中,上述装置可以将关键词集合中的第一关键词与待过滤文本中的待过滤词汇进行匹配,可以理解的是,上述第一关键词的第一个词节点可以与待过滤词汇的第一个词节点相同,且在第一个词节点后二者具有最多的顺序分布一致的相同词节点。例如图3所示的过滤过程,第一关键词为abcd,其对应的第一个词节点为a,待过滤词汇为abce(不在图中体现),其对应的第一个词节点也是a,二者在a之后都存在顺序为b,c的相同词节点。若关键词集合中有abfd,虽然它与待过滤词汇为abce具有相同的第一词节点,但后续只有b这一个词节点与待过滤词汇一致,则不能作为第一关键词,同样的,关键词集合中有acbd,虽然它与待过滤词汇为abce具有相同的第一词节点,且后续也存在最多的b,c两个相同的词节点,但分布顺序与待过滤词汇中的b,c不一致,也不能作为第一关键词。进一步的,上述装置可以确定第一关键词中与待过滤关键词中第一个不匹配的失败词节点,例如,第一关键词为abcd,待过滤词汇为abce,则二者第一个不匹配的失败词节点为c,即二者在c之后的词节点不一致,则c可以是第一个不匹配的失败词节点。进一步的,上述装置可以在关键词集合中确定上述失败词节点指向的第二关键词,可以理解的是,上述第二关键词中存在与上述失败词节点相同的词节点,且二者基于上述失败词节点具有最多的顺序分布一致的相同词节点。例如图3所示的,第一关键词为abcd,待过滤词汇为abce,二者之间的失败词节点为c,则第二关键词中要有c,且第二关键词以c为基础可以在c的前后分布有与abce具有顺序一致的相同词节点,则bce可以是第二关键词。在可选实施例中,当第二关键词与待过滤词汇的尾部词节点相同且分布顺序一致时,上述装置可以确定第二关键词为想要的目标关键词。例如,待过滤词汇为abce,第二关键词为bce,则bce可以是上述目标关键词。在可选实施例中,若未匹配到所述目标关键词,上述装置可以返回文本良好提示信息。用于提示用户所上传的本文档来自技高网...

【技术保护点】
1.一种关键词过滤方法,其特征在于,包括:基于关键词集合训练一套自动机;根据所述自动机指示的有限状态机对待过滤文本进行关键词过滤;将过滤出的目标关键词输出至调用端。

【技术特征摘要】
1.一种关键词过滤方法,其特征在于,包括:基于关键词集合训练一套自动机;根据所述自动机指示的有限状态机对待过滤文本进行关键词过滤;将过滤出的目标关键词输出至调用端。2.根据权利要求1所述的方法,其特征在于,在根据所述自动机指示的有限状态机对待过滤文本进行关键词过滤时,所述方法还包括:将所述关键词集合中的第一关键词与待过滤文本中的待过滤词汇进行匹配,所述第一关键词的第一个词节点与所述待过滤词汇的第一个词节点相同,且在所述第一个词节点后二者具有最多的顺序分布一致的相同词节点;确定所述第一关键词中与所述待过滤关键词中第一个不匹配的失败词节点;在所述关键词集合中确定所述失败词节点指向的第二关键词,所述第二关键词中存在与所述失败词节点相同的词节点,且二者基于所述失败词节点具有最多的顺序分布一致的相同词节点。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:当所述第二关键词与所述待过滤词汇的尾部词节点相同且分布顺序一致时,确定所述第二关键词为所述目标关键词。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:若未匹配到所述目标关键词,返回文本良好提示信息。5.根据权利要求1所述的方法,所述方法还包括:将所述自动机存储之本地缓存。6.一种关键词过滤装置,其特征在于,包括:自动机训练模块,用于基...

【专利技术属性】
技术研发人员:项东东吴峰郭伟
申请(专利权)人:上海易点时空网络有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1