一种不良词语的自动处理方法及系统技术方案

技术编号:21090098 阅读:23 留言:0更新日期:2019-05-11 10:09
本发明专利技术公开了一种不良词语的自动处理方法及系统,其中,所述方法包括以下步骤:获取输入的语句,并按照词数特征和字符组合特征对语句进行拆分后,获得多个词语;根据预设的不良词语词库分类判断各词语是否属于不良词语,并在判断为不良词语时,将该词语按照预设格式进行处理后,输出处理后的词语。本发明专利技术在识别时,先通过词数特征以及字符组合特征对语句进行拆分,再结合预设的不良词语词库进行分类判断,极大地提高了识别的效率,同时避免了人工识别,降低了识别成本,可广泛应用于数据交互技术领域。

【技术实现步骤摘要】
一种不良词语的自动处理方法及系统
本专利技术涉及数据交互
,尤其涉及一种不良词语的自动处理方法及系统。
技术介绍
随着互联网的蓬勃发展,网名的数量越来越多,目前互联网已成为一个全球性、开放性、互动性的综合型平台,网民在互联网上的言论自由得到了充分的体现。然而一些素质低下的网民和不法分子在互联网上散布不良信息,使得互联网的环境遭到破坏,所述不良词语指带有敏感政治倾向、暴力倾向、不健康色彩的词或不文明用语。基于网络环境所需,需要对这些不良词语进行识别,并对不良词语进行相应的处理,目前,对不良词语识别还是人工识别,识别的成本大,而且人工识别的速度慢,在一定程度会影响用户的体验,比如在留言板和弹幕上,如果用户输入语句需要长时间才显示出来,降低了用户的体验。
技术实现思路
为了解决上述技术问题,本专利技术的目的是提供一种能够快速自动识别不良词语的处理方法。本专利技术的另一目的是提供一种能够快速自动识别不良词语的处理系统。本专利技术方法所采用的技术方案是:一种不良词语的自动处理方法,包括以下步骤:获取输入的语句,并按照词数特征和字符组合特征对语句进行拆分后,获得多个词语;根据预设的不良词语词库分类判断各词语是否属于不良词语,并在判断为不良词语时,将该词语按照预设格式进行处理后,输出处理后的词语。进一步,还包括建立不良词语词库的步骤,具体为:根据不良词语的词数特征以及字符组合特征建立不良词语词库。进一步,所述根据不良词语的词数特征以及字符组合特征建立不良词语词库这一步骤,具体包括以下步骤:收集不良词语,根据不良词语的词数特征以及词语组合特征将不良词语分为多个词语类别,所述各词语类别分别存在不良词语词库中的一个节点上;获取同一类别中各不良词语的第一个字符,并将第一个字符相同的不良词语存于同一模块内。进一步,所述获取输入的语句,并按照词数特征和字符组合特征对语句进行拆分后,获得多个词语这一步骤,具体为:获取输入的语句后,按照动宾、主动宾、主状动宾或主状动补宾的方式将语句进行拆分,并获得多个词语。进一步,所述根据预设的不良词语词库分类判断各词语是否属于不良词语,并在判断为不良词语时,将该词语按照预设格式进行处理后,输出处理后的词语这一步骤,具体包括以下步骤:获取词语的词数特征以及字符组合特征,并根据词数特征以及字符组合特征选择相应的词语类别;获取词语的第一个字符,并根据第一个字符选择相应的模块后,根据词语遍历该模块的不良词语;判断是否存有与词语匹配的不良词语,若存有,则该词语属于不良词语,将该词语按照预设格式进行处理后,输出处理后的词语;反之,直接输出词语。进一步,所述根据第一个字符选择相应的模块后这一步骤,具体为:根据第一个字符遍历各模块对应的字符,判断是否有匹配的字符,若存有,进行下一步;反之,判定词语不属于不良词语,并直接输出词语。本专利技术系统所采用的技术方案是:一种不良词语的自动处理系统,包括:拆分词语模块,用于获取输入的语句,并按照词数特征和字符组合特征对语句进行拆分后,获得多个词语;比对输出模块,用于根据预设的不良词语词库分类判断各词语是否属于不良词语,并在判断为不良词语时,将该词语按照预设格式进行处理后,输出处理后的词语。进一步,还包括建立词库模块,所述建立词库模块用于根据不良词语的词数特征以及字符组合特征建立不良词语词库。进一步,所述建立词库模块包括分类单元和归纳单元;所述分类单元用于收集不良词语,根据不良词语的词数特征以及词语组合特征将不良词语分为多个词语类别,所述各词语类别分别存在不良词语词库中的一个节点上;所述归纳单元用于获取同一类别中各不良词语的第一个字符,并将第一个字符相同的不良词语存于同一模块内。进一步,所述拆分词语模块具有用于获取输入的语句后,按照动宾、主动宾、主状动宾或主状动补宾的方式将语句进行拆分,并获得多个词语。进一步,所述比对输出模块包括第一单元、第二单元和第三单元;所述第一单元用于获取词语的词数特征以及字符组合特征,并根据词数特征以及字符组合特征选择相应的词语类别;所述第二单元用于获取词语的第一个字符,并根据第一个字符选择相应的模块后,根据词语遍历该模块的不良词语;所述第三单元用于判断是否存有与词语匹配的不良词语,若存有,则该词语属于不良词语,将该词语按照预设格式进行处理后,输出处理后的词语;反之,直接输出词语。本专利技术系统所采用的另一技术方案是:一种不良词语的自动处理系统,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述的一种不良词语的自动处理方法。本专利技术的有益效果是:本专利技术在识别时,先通过词数特征以及字符组合特征对语句进行拆分,再结合预设的不良词语词库进行分类判断,极大地提高了识别的效率,同时避免了人工识别,降低了识别成本。附图说明图1是本专利技术一种不良词语的自动处理方法的步骤流程图;图2是本专利技术一种不良词语的自动处理系统的结构框图。具体实施方式实施例一如图1所示,本实施例提供一种不良词语的自动处理方法,包括以下步骤:A1、根据不良词语的词数特征以及字符组合特征建立不良词语词库。A2、获取输入的语句,并按照词数特征和字符组合特征对语句进行拆分后,获得多个词语。A3、根据预设的不良词语词库分类判断各词语是否属于不良词语,并在判断为不良词语时,将该词语按照预设格式进行处理后,输出处理后的词语。上述的方法的工作原理为:在页面上获取当用户输入语句,所述页面包括留言板、弹幕或者网上发帖,对语句进行拆分,所述拆分方法可以按照主谓宾的格式进行拆分,也可以按照字符的个数来拆分。语句拆分后,根据不良词语词库中的不良词语对词语进行判断,并在判断为不良词语时,将词语进行预设格式处理,所述预设格式可以是删除,也可以是用特殊符号替代,在本实施例中,将判断为不良词语的词语用“*”号代替。通过上述方法可以自动的识别到语句中的不良词语,由于一般情况下,语句中只存有少量不良词语,所以在识别时,先将语句进行拆分,并将拆分获得的词语分别与不良词语词库进行比对,从而加快了不良词语识别的效率。具体的,所述步骤A1具体包括A11~A12:A11、收集不良词语,根据不良词语的词数特征以及词语组合特征将不良词语分为多个词语类别,所述各词语类别分别存在不良词语词库中的一个节点上;A12、获取同一类别中各不良词语的第一个字符,并将第一个字符相同的不良词语存于同一模块内。所述不良词语的词数特征即不良词语的字数的个数,所述词语组合特征为词语的组合,比如动宾组合或名词与名词组合,根据词数特征和词语组合特征将不良词语词库分为多个类别,比如某个类别主要记录的是名词的不良词语,比如“你个傻x”,某个类别主要记录的是动词+名词,比如“打你”。由于每个类别建立在一个节点上,但进行识别时,各个节点可以独立工作,一般一句话中,可拆出几个类别的词语,所以同时识别多个词语,加快了识别的效率。区分类别后,每个类别中记录多个不良词语,有许多不良词语的第一个字是相同的,比如一些动词,所以将第一各个字符相同的不良词语归为一个系,并存在一个模块中,识别时,将词语中第一个字符先进行对比,并在第一个字符识别成功后,再进行整个词语的比对,这样可极大地加快比对的速度。其中,步骤A2具体为:获本文档来自技高网...

【技术保护点】
1.一种不良词语的自动处理方法,其特征在于,包括以下步骤:获取输入的语句,并按照词数特征和字符组合特征对语句进行拆分后,获得多个词语;根据预设的不良词语词库分类判断各词语是否属于不良词语,并在判断为不良词语时,将该词语按照预设格式进行处理后,输出处理后的词语。

【技术特征摘要】
1.一种不良词语的自动处理方法,其特征在于,包括以下步骤:获取输入的语句,并按照词数特征和字符组合特征对语句进行拆分后,获得多个词语;根据预设的不良词语词库分类判断各词语是否属于不良词语,并在判断为不良词语时,将该词语按照预设格式进行处理后,输出处理后的词语。2.根据权利要求1所述的一种不良词语的自动处理方法,其特征在于,还包括建立不良词语词库的步骤,具体为:根据不良词语的词数特征以及字符组合特征建立不良词语词库。3.根据权利要求2所述的一种不良词语的自动处理方法,其特征在于,所述根据不良词语的词数特征以及字符组合特征建立不良词语词库这一步骤,具体包括以下步骤:收集不良词语,根据不良词语的词数特征以及词语组合特征将不良词语分为多个词语类别,所述各词语类别分别存在不良词语词库中的一个节点上;获取同一类别中各不良词语的第一个字符,并将第一个字符相同的不良词语存于同一模块内。4.根据权利要求3所述的一种不良词语的自动处理方法,其特征在于,所述获取输入的语句,并按照词数特征和字符组合特征对语句进行拆分后,获得多个词语这一步骤,具体为:获取输入的语句后,按照动宾、主动宾、主状动宾或主状动补宾的方式将语句进行拆分,并获得多个词语。5.根据权利要求4所述的一种不良词语的自动处理方法,其特征在于,所述根据预设的不良词语词库分类判断各词语是否属于不良词语,并在判断为不良词语时,将该词语按照预设格式进行处理后,输出处理后的词语这一步骤,具体包括以下步骤:获取词语的词数特征以及字符组合特征,并根据词数特征以及字符组合特征选择相应的词语类别;获取词语的第一个字符,并根据第一个字符选择相应的模块后,根据词语遍历该模...

【专利技术属性】
技术研发人员:杨井
申请(专利权)人:无锡天脉聚源传媒科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1