【技术实现步骤摘要】
一种识别经过变形的敏感词的方法和系统
本专利技术是关于一种识别经过变形的敏感词的方法和系统,属于通讯网络
技术介绍
随着移动互联网的迅速发展,网络媒体、微博、微信等工具已经成为人们生活中不可分割的一部分。然而,随着互联网社区的发展,心怀不轨及不法分子开始利用这些载体进行恐怖活动、散播网络色情、传播不实谣言,给经济社会和人民正常生活带来巨大损失。因此,社会化媒体作为重要的信息载体,对其中的报道及言论进行严格的管控和监督十分必要。敏感词过滤就是一种阻止网络犯罪和网络暴力的技术手段,主要是针对性地筛查和屏蔽可能存在违法或不良信息的关键词,实现防患于未然。现在常用的敏感词过滤方式是构建敏感关键词库,通过查找与敏感词列表相匹配的字符串,之后使用符号将敏感词进行替换或者使用禁止发出、屏蔽等方式避免不当言论的出现。词语由不同汉字的组合形成,这一关键属性使得只有精准匹配时才进行过滤。然而,目前网络中出现了很多敏感词的变形词。如此一来,一个简单的敏感词可能衍生出几十种写法,将其尽收在词库中的工作量较为巨大,词库存储容量大,过 ...
【技术保护点】
1.一种识别经过变形的敏感词的方法,其特征在于,包括以下步骤:/nS1判断待测词与预建立的敏感词库中的敏感词是否相同,若是则判断所述待测词为敏感词,若否则进入下一步;/nS2判断所述待测词与所述敏感词的拼音是否相同或相似,若相同或相似则输出对应的分值;/nS3将所述待测词中所有的字分成两个或两个以上组成部分,判断各组成部分与所述敏感词的组成部分是否相同或相似,若相同或相似则输出各组成部分所对应的分值;/nS4将所有获得的分值相加,并判断是否超过阈值,若否,则待测词非敏感词,若是,则待测词为敏感词。/n
【技术特征摘要】
1.一种识别经过变形的敏感词的方法,其特征在于,包括以下步骤:
S1判断待测词与预建立的敏感词库中的敏感词是否相同,若是则判断所述待测词为敏感词,若否则进入下一步;
S2判断所述待测词与所述敏感词的拼音是否相同或相似,若相同或相似则输出对应的分值;
S3将所述待测词中所有的字分成两个或两个以上组成部分,判断各组成部分与所述敏感词的组成部分是否相同或相似,若相同或相似则输出各组成部分所对应的分值;
S4将所有获得的分值相加,并判断是否超过阈值,若否,则待测词非敏感词,若是,则待测词为敏感词。
2.如权利要求1所述的识别经过变形的敏感词的方法,其特征在于,判断拼音相同或相似的方法为:将待测词的拼音的字母及其位置与所述敏感词的拼音进行比较,若不存在差别则认定拼音相同,若只存在一处差别则认定拼音相似,若存在两处以上的差别则认为拼音不相同,其中拼音相同的得分大于拼音相似的得分,拼音不相同不得分。
3.如权利要求1所述的识别经过变形的敏感词的方法,其特征在于,敏感词库中的数据包括:敏感词、敏感词的拼音和经过拆分后的敏感词组成部件。
4.如权利要求3所述的识别经过变形的敏感词的方法,其特征在于,所述经过拆分后的敏感词组成部件采用如下方法获得:构建所需的最小拆分字表,选择汉语拆字字典进行爬取,把每个字拆分为两个及以上的组成部件,将爬取到的数据存储于敏感词库;并从存储的数据中剔除最小拆分字及其拆分方式。
5.如权利要求4所述的识别经过变形的敏感词的方法,其特征在于,所述最小拆分字表包括不可拆分的字和偏旁部首。
6.如权利要求4或5所述的识别经过变形的敏感词的方法,其特征在于,判断各组成部分与所述敏感词的组成部分是否相同或相似的过程为:
S3.1判断所述待测词中各个字是否可拆分,若存在不可拆分的字,判断所述不可拆分的字是否在所述最小拆分字表中,若存在追溯到对应的敏感词,并判断所述敏感词和待测词是否相同,如不存在则此步骤输出得分为零;
S3.2将所述待测词中各个字均拆分为两个或两个以上组成部分,判断各组成部分是否...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。