A sensitive word filtering method based on dynamic thesaurus, which comprises the following steps: different sensitive words S1, access to different categories of goods, sensitive word list to generate different categories of goods corresponding to, and stored in the database; S2, read sensitive word list from the database, and according to the unique identifier of sensitive words of different categories of goods and the category of goods under the different categories of goods generated corresponding, and according to the unique identifier to construct a unique dictionary tree, all the only dictionary tree constitute a basis for object segmentation dictionary tree service pool; S3, receiving data to be processed, and according to the processing of the dictionary tree pending commodity category corresponding to basic dictionary tree the object pool data corresponding to the data processing to word segmentation; sensitive word filtering according to the segmentation results. The invention also provides a sensitive word filtering system based on dynamic lexicon.
【技术实现步骤摘要】
基于动态词库的敏感词过滤方法及系统
本专利技术涉及信息过滤
,特别涉及一种基于动态词库的敏感词过滤方法及系统。
技术介绍
随着互联网络的发展,便利了人与人之间的信息传播,但是一些低俗、色情、暴力、反动的词汇也通过互联网进行扩散,不利于互联网的健康发展,为了克服这种现状,目前市场上针对敏感词过滤主要有以下几种方法:字符串匹配:优点是实现简单。存在的问题是效率低,需要将所有词库中的词循环在给定的字符串中查找,对于词库非常大的商业应用,这个效率是非常低的,基本行不通。正则表达式匹配:存在的问题是灵活性差,需要将所有词库拼装成为一个正则表达式,拼装这个表达式本身的难度就很高,而且正则表达式的效率也很低下,如果后期要增加新的词汇,将要修改表达式,且非常难以维护。字典树(Trie)方式的实现:字典树的本质是确定有穷自动机(DFA)即DeterministicFiniteAutomaton,也就是确定有穷自动机,它是通过event和当前的state得到下一个state,即event+state=nextstate。字典树是一种树形结构,它的优点是:利用字符串的公共前缀来节 ...
【技术保护点】
一种基于动态词库的敏感词过滤方法,其特征在于,其包括如下步骤:S1、获取不同商品类目的不同敏感词,生成不同商品类目对应的敏感词列表,并存储于数据库中;S2、从数据库中读取敏感词列表,并根据不同的商品类目以及商品类目下的敏感词生成不同商品类目对应的唯一识别符,并根据该唯一识别符构建一个唯一的字典树,所有唯一的字典树构成一用于分词服务的基础字典树对象池;S3、接收待处理数据,并根据待处理数据对应的待处理商品的类目对应基础字典树对象池中字典树对待处理数据进行分词;根据分词结果实现敏感词过滤。
【技术特征摘要】
1.一种基于动态词库的敏感词过滤方法,其特征在于,其包括如下步骤:S1、获取不同商品类目的不同敏感词,生成不同商品类目对应的敏感词列表,并存储于数据库中;S2、从数据库中读取敏感词列表,并根据不同的商品类目以及商品类目下的敏感词生成不同商品类目对应的唯一识别符,并根据该唯一识别符构建一个唯一的字典树,所有唯一的字典树构成一用于分词服务的基础字典树对象池;S3、接收待处理数据,并根据待处理数据对应的待处理商品的类目对应基础字典树对象池中字典树对待处理数据进行分词;根据分词结果实现敏感词过滤。2.如权利要求1所述的基于动态词库的敏感词过滤方法,其特征在于,所述步骤S1中不同商品类目的不同敏感词由用户通过一web界面维护到数据库。3.如权利要求1所述的基于动态词库的敏感词过滤方法,其特征在于,所述步骤S2还包括:敏感词列表,按照一个商品类目对应一个词库的方式构建不同的词库;所述词库的格式为X.dic,其中X为词库名称。4.如权利要求3所述的基于动态词库的敏感词过滤方法,其特征在于,所述步骤S3包括如下子步骤:S31、接收待处理数据,判断待处理数据对应的商品类目,并跳转到步骤S32;S32、根据待处理数据对应的商品类目从基础字典树对象池中检索与该商品类目对应的字典树;在存在时跳转到步骤S33;否则跳转到步骤S34;S33、通过该字典树对待处理数据进行分词,根据分词结果实现敏感词过滤,结束;S34、判断是否存在与待处理数据对应的商品类目对应的词库,在存在时跳转到步骤S35,否则跳转到步骤S36;S35、根据待处理数据对应的商品类目对应的词库动态构建字典树,并根据构建的字典树对待处理数据进行分词,根据分词结果实现敏感词过滤,结束;S36、调用预先设置的通用词库,并根据通用词库构建通用字典树,并根据构建的通用字典树对待处理数据进行分词,根据分词结果实现敏感词过滤,结束。5.一种基于动态词库的敏感词过滤系统,其特征在于,其包括如下单元:敏感词配置单元,用于获取不同...
【专利技术属性】
技术研发人员:邓明倦,黄承松,夏里峰,宋书俊,
申请(专利权)人:武汉奇米网络科技有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。