【技术实现步骤摘要】
一种短信拆字敏感词的检测方法、装置及计算机存储介质
本专利技术涉及信息审核
,具体涉及一种短信拆字敏感词的检测方法、装置及计算机存储介质。
技术介绍
垃圾信息的治理主要依赖于技术手段,目前比较成熟的主要技术是:黑白名单技术、基于规则的过滤技术、基于概率统计分析的方法等。其中前两种技术简单,但是要想做好需要大量的人力成本,基于黑白名单对于部分中性词难于处理,基于规则方式准确,但是需要大量的专业知识和人力成本去制定审核过滤规则,基于概率的统计分析方法目前主流是基于贝叶斯分类算法的过滤系统,最早应用于对英文,中文没有分割空格,基于字的方式对垃圾信息的过滤可靠性大打折扣。原因在于中文的基本词义单位是词,因此处理起来比较依赖于词库,在词库有限的情况下依赖于分词系统,但是分词系统针对于敏感词的各类变化很难处理。垃圾信息很多敏感词通过各种变形和拆字,导致分词系统没法识别,因此垃圾信息识别中,敏感词识别技术尤为重要。目前主流针对拆字敏感词的审核主要靠基于关键词的方式、基于字典的方式以及基于数据库的方式,没有考虑敏感词的结构构成 ...
【技术保护点】
1.一种短信拆字敏感词的检测方法,其特征在于:包括如下步骤:/n步骤一、建立拆字敏感词信息库;/n步骤二、对拆字敏感词信息库建立拆字敏感词检索树;/n步骤三、模型训练:准备训练语料,训练出对应拦截语料进行拦截、对应放行语料进行放行的word2vec模型;/n步骤三、获取用户发送的信息;/n步骤四、对获取到的用户所发送的每一条信息进行预处理;/n步骤五、将预处理后的信息通过检索树进行敏感词用字检索分析,若信息没包含具有拆字的敏感词的信息内容,则进入步骤六,若信息包含具有拆字的敏感词的信息内容,则进入步骤七;/n步骤六、将语句分为N段,每段为一个窗口词,并统计相关词的出现频率P ...
【技术特征摘要】
1.一种短信拆字敏感词的检测方法,其特征在于:包括如下步骤:
步骤一、建立拆字敏感词信息库;
步骤二、对拆字敏感词信息库建立拆字敏感词检索树;
步骤三、模型训练:准备训练语料,训练出对应拦截语料进行拦截、对应放行语料进行放行的word2vec模型;
步骤三、获取用户发送的信息;
步骤四、对获取到的用户所发送的每一条信息进行预处理;
步骤五、将预处理后的信息通过检索树进行敏感词用字检索分析,若信息没包含具有拆字的敏感词的信息内容,则进入步骤六,若信息包含具有拆字的敏感词的信息内容,则进入步骤七;
步骤六、将语句分为N段,每段为一个窗口词,并统计相关词的出现频率P;
计算当前敏感词和前、后几个窗口词语的互信息MI,其计算公式如下:
其中,x为敏感词,y为与x共现的词,P(x)为拆字敏感词出现的概率,P(y)为与敏感词共现的词出现的概率,P(x,y)为敏感词和与敏感词共现的词一同出现的概率;
将得到的互信息MI与预设的阈值进行比较,当互信息MI小于预定阈值,则对预处理数据重新进行切分,直至互信息MI大于等于阈值,将数据送入步骤七中;若互信息MI始终不大于阈值,则进入步骤八;
步骤七、当一条信息中有三个或者三个以上的含有拆字词,此信息审核不通过,进行拦截;
当一条信息含有一个或者两个拆字词,并且含有两个以上的普通的非拆字敏感词,此信息审核不通过,进行拦截;
当一条信息包含有一个拆字词,将此信息送入word2vec模型,以此拆字词为核心的前、后n个词语记录下来,根据各个词语距离拆字词的距离给各个词语赋予权重值Y,每个词的权重值Y为n-d,从靠近拆字词到远离拆字词各个词的权重依次为n、n-1.......1,其中d为距离拆字词的词间距,将拦截词和放行词的权重值Y带入下列公式:
result=A*Y拦截词-Y放行词,
其中A为不小于1的数值,Y拦截词为各个拦截词的权重值,Y放行词为各个放行词的权重值;若result≥0,则信息审核不通过,进行拦截;若result<0,则将数据送入步骤八;
步骤八、对信息进行审核,如若含有敏感词则进行拦截,如若没有敏感词则...
【专利技术属性】
技术研发人员:刘超,刘霖雯,
申请(专利权)人:北京北斗天巡科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。