一种不良词语的自动处理方法及系统技术方案

技术编号：21090098 阅读：23 留言：0更新日期：2019-05-11 10:09

本发明专利技术公开了一种不良词语的自动处理方法及系统，其中，所述方法包括以下步骤：获取输入的语句，并按照词数特征和字符组合特征对语句进行拆分后，获得多个词语；根据预设的不良词语词库分类判断各词语是否属于不良词语，并在判断为不良词语时，将该词语按照预设格式进行处理后，输出处理后的词语。本发明专利技术在识别时，先通过词数特征以及字符组合特征对语句进行拆分，再结合预设的不良词语词库进行分类判断，极大地提高了识别的效率，同时避免了人工识别，降低了识别成本，可广泛应用于数据交互技术领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种不良词语的自动处理方法及系统
本专利技术涉及数据交互
，尤其涉及一种不良词语的自动处理方法及系统。
技术介绍
随着互联网的蓬勃发展，网名的数量越来越多，目前互联网已成为一个全球性、开放性、互动性的综合型平台，网民在互联网上的言论自由得到了充分的体现。然而一些素质低下的网民和不法分子在互联网上散布不良信息，使得互联网的环境遭到破坏，所述不良词语指带有敏感政治倾向、暴力倾向、不健康色彩的词或不文明用语。基于网络环境所需，需要对这些不良词语进行识别，并对不良词语进行相应的处理，目前，对不良词语识别还是人工识别，识别的成本大，而且人工识别的速度慢，在一定程度会影响用户的体验，比如在留言板和弹幕上，如果用户输入语句需要长时间才显示出来，降低了用户的体验。
技术实现思路
为了解决上述技术问题，本专利技术的目的是提供一种能够快速自动识别不良词语的处理方法。本专利技术的另一目的是提供一种能够快速自动识别不良词语的处理系统。本专利技术方法所采用的技术方案是：一种不良词语的自动处理方法，包括以下步骤：获取输入的语句，并按照词数特征和字符组合特征对语句进行拆分后，获得多个词语；根据预设的不良词语词库分类判断各词语是否属于不良词语，并在判断为不良词语时，将该词语按照预设格式进行处理后，输出处理后的词语。进一步，还包括建立不良词语词库的步骤，具体为：根据不良词语的词数特征以及字符组合特征建立不良词语词库。进一步，所述根据不良词语的词数特征以及字符组合特征建立不良词语词库这一步骤，具体包括以下步骤：收集不良词语，根据不良词语的词数特征以及词语组合特征将不良词语分为多个词语类别，...

【技术保护点】
1.一种不良词语的自动处理方法，其特征在于，包括以下步骤：获取输入的语句，并按照词数特征和字符组合特征对语句进行拆分后，获得多个词语；根据预设的不良词语词库分类判断各词语是否属于不良词语，并在判断为不良词语时，将该词语按照预设格式进行处理后，输出处理后的词语。

【技术特征摘要】
1.一种不良词语的自动处理方法，其特征在于，包括以下步骤：获取输入的语句，并按照词数特征和字符组合特征对语句进行拆分后，获得多个词语；根据预设的不良词语词库分类判断各词语是否属于不良词语，并在判断为不良词语时，将该词语按照预设格式进行处理后，输出处理后的词语。2.根据权利要求1所述的一种不良词语的自动处理方法，其特征在于，还包括建立不良词语词库的步骤，具体为：根据不良词语的词数特征以及字符组合特征建立不良词语词库。3.根据权利要求2所述的一种不良词语的自动处理方法，其特征在于，所述根据不良词语的词数特征以及字符组合特征建立不良词语词库这一步骤，具体包括以下步骤：收集不良词语，根据不良词语的词数特征以及词语组合特征将不良词语分为多个词语类别，所述各词语类别分别存在不良词语词库中的一个节点上；获取同一类别中各不良词语的第一个字符，并将第一个字符相同的不良词语存于同一模块内。4.根据权利要求3所述的一种不良词语的自动处理方法，其特征在于，所述获取输入的语句，并按照词数特征和字符组合特征对语句进行拆分后，获得多个词语这一步骤，具体为：获取输入的语句后，按照动宾、主动宾、主状动宾或主状动补宾的方式将语句进行拆分，并获得多个词语。5.根据权利要求4所述的一种不良词语的自动处理方法，其特征在于，所述根据预设的不良词语词库分类判断各词语是否属于不良词语，并在判断为不良词语时，将该词语按照预设格式进行处理后，输出处理后的词语这一步骤，具体包括以下步骤：获取词语的词数特征以及字符组合特征，并根据词数特征以及字符组合特征选择相应的词语类别；获取词语的第一个字符，并根据第一个字符选择相应的模块后，根据词语遍历该模...

【专利技术属性】
技术研发人员：杨井，
申请(专利权)人：无锡天脉聚源传媒科技有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人